大脑的“冒险精神”如何启发AI?——揭秘吉妮实验室的类脑探索算法 | 脑洞漫游
前言
你有没有想过,为什么有些人总是喜欢尝试新餐厅,而有些人却总是认准同一家餐厅?或者,为什么你给猫猫买新玩具后,猫猫却不愿尝试,而继续玩自己的旧玩具?这些看似简单的行为背后,其实隐藏着一个深刻的科学问题:探索与利用的平衡。
近日,北京脑科学与类脑研究所吉妮实验室在国际顶级人工智能会议ICLR 2025上发表了一项突破性研究,题为Brain Bandit: A Biologically Grounded Neural Network for Efficient Control of Exploration。这项研究不仅创新性地揭示了大脑在解决探索-利用平衡问题上算法机制,还开发了一种基于生物神经网络的AI算法,能够在复杂任务中超越传统方法。
今天,我们就来聊聊这项研究,看看它如何从大脑的“冒险精神”中汲取灵感,推动人工智能的发展。
01 —— 探索还是利用?这是个问题
想象一下,你站在一家陌生的美食广场,面前有两家餐厅。你是选择去那家昨天去过的(利用已知信息),还是冒险尝试一家从未光顾过的新店(探索未知)?这就是经典的“探索-利用困境”(Exploration-Exploitation Dilemma)(图一左)。
在强化学习(Reinforcement Learning)中,AI智能体也面临类似的抉择(图一右):是继续利用已知的最佳策略,还是探索未知的可能性?过多的探索可能导致效率低下,就像一个在学习走路的孩子,如果一直乱试动作,而不去总结经验,可能很久都学不会怎么走路。而过多的利用则可能让AI陷入局部最优,错过更好的解决方案。就像孩子在学走路时一直迈小步,完全不尝试其他动作,当有天他遇到一个需要迈大步才能跨过去的小沟时,难免会卡住。
尽管科学家们已经开发了许多算法来解决这个问题,但在复杂的、奖励稀疏的任务中,高效的探索仍然是一个难题。

图一. 强化学习中的“探索-利用困境”
有趣的是,人类和动物在这方面表现得非常出色。我们不仅能随机探索,还能根据环境的变化调整策略。吉妮实验室的研究正是从这一点出发,试图揭开大脑高效探索的秘密。
02 —— 从大脑到AI:神奇的Hopfield网络
要理解这项研究,我们得先聊聊一个有趣的概念——Hopfield网络。1982年,科学家John Hopfield受大脑结构的启发,提出了一种名为Hopfield网络的循环神经网络模型。这个网络的特点是能够通过对称的连接权重和能量函数,自动收敛到稳定的状态(科学家们称之为“吸引子”)。简单来说,Hopfield网络就像是一个智能的“记忆盒子”,能够存储特定的模式,比如一张人脸或一段旋律,并在给定部分信息的情况下恢复完整的记忆。
Hopfield网络的提出不仅为联想记忆和优化问题提供了新思路,还启发了后来的AI研究。上世纪80年代,“深度学习之父”Geoffrey Hinton在Hopfield网络的基础上引入了随机性,并进一步合作提出了玻尔兹曼机——一种能够从数据中学习概率分布的无监督学习模型。这些开创性工作让Hopfield和Hinton在2024年共同获得了诺贝尔物理学奖,成为AI领域的传奇人物。
更有趣的是,科学家们最近在一种叫做秀丽隐杆线虫(C. elegans)的微小生物中,发现了一种调控探索-利用行为的生物神经网络。这个网络的决策单元(图二右,红色虚线框部分)竟然与随机Hopfield网络非常相似!这一发现为研究团队提供了重要灵感。

图二. Hopfield网络以及控制探索-利用平衡的生物神经网络
03 —— 数学建模与理论分析:生物神经网络的启示
研究团队首先对调控探索-利用的生物神经网络进行了数学建模,称之为BBN模型(BRAIN-INSPIRED BANDIT NETWORK)。
BBN模型的核心是一组随机微分方程,描述了神经元之间的相互作用和带有随机不确定性输入的影响。理论分析表明,这个模型能够实现贝叶斯后验采样,即根据输入信息推测最可能的网络状态。更重要的是,BBN模型能够通过不同的参数,灵活地调整探索策略——有时乐观(偏向探索),有时保守(偏向利用),有时中立(没有偏向)。

图三. BBN模型架构与理论分析
04 —— 人类行为拟合:AI也能“像人一样思考”
为了验证BBN模型的有效性,研究团队用它来拟合人类和动物在探索任务中的行为。例如,在多臂老虎机任务(一种经典的决策实验)中,BBN模型成功模拟了人类的选择行为。通过调整模型参数,它甚至能够模拟不同人群的行为差异,比如焦虑症患者或老年人的探索策略。

图四. BBN模型可拟合人类和动物的探索行为
这意味着,BBN模型不仅可以用于AI算法设计,还能为心理学研究提供定量化工具。例如,未来我们可以用它来分析不同人群在探索任务中的行为差异,甚至为心理健康评估提供新的视角。
05 —— 强化学习任务:BBN的强大探索能力
在经典的多臂老虎机和马尔可夫决策过程(MDP)任务中,BBN模型展现出了强大的探索能力。尤其是在奖励稀疏的环境中,BBN能够快速覆盖整个环境,找到奖励所在区域。与其他算法相比,BBN在探索效率和覆盖率上具有显著优势。
举个例子,在一个叫做FourRooms的任务中(图五),BBN模型像一位“探险家”一样,迅速探索了整个地图,找到了隐藏的宝藏。而传统的算法则像一位“保守派”,迟迟不敢迈出关键一步。

图五. UBE-BBN算法在强化学习任务中的优秀表现
06 —— 应用前景:从机器人到心理学
BBN算法的成功表明,生物系统中的探索策略可以为人工智能算法设计提供宝贵的灵感。未来,这项技术有望在多个领域大展身手:
- 机器人控制:让机器人在未知环境中高效探索,比如灾难救援或太空探测。
- 推荐系统:帮助平台在推荐已知热门内容和探索新内容之间找到平衡。
- 心理学研究:为探索-利用决策机制的研究提供定量化工具。
- 脑机接口:通过模拟大脑的探索策略,开发更智能的脑机交互系统。
尽管BBN模型目前计算成本较高,但通过类脑芯片加速和算法优化,它有望在人工智能和神经科学领域产生深远影响。
07 —— AI的未来,从大脑中寻找灵感
吉妮实验室的这项研究不仅揭示了大脑高效探索的奥秘,还为人工智能的发展提供了新的思路。正如研究团队所期望的:“未来的AI系统可以更多地借鉴生物神经网络的工作原理,从而实现更高效、更灵活的决策。”
所以,下次当你犹豫要不要尝试一家新餐厅时,不妨想想你的大脑正在上演一场精妙的“探索-利用”博弈。而AI,或许正在悄悄学习你的“冒险精神”呢!
(本文参考ICLR 2025会议论文Brain Bandit: A Biologically Grounded Neural Network for Efficient Control of Exploration,作者:姜晨、安佳晖、刘雅婷,通讯作者:吉妮。)


