北京脑所吉妮实验室创新揭示生物脑解决探索-利用平衡问题的算法机制 | ICLR 2025
2025年3月,北京脑科学与类脑研究所吉妮实验室在国际人工智能顶级会议The 13th International Conference on Learning Representations (ICLR 2025) 上发表了题为“Brain Bandit: A Biologically Grounded Neural Network for Efficient Control of Exploration”的类脑算法论文,并以前1%的高分获选大会口头报告(Oral)。
这项工作受人类和动物在未知环境中高效探索和学习能力的启发,通过对生物神经环路进行数学建模和理论分析,创新揭示了大脑在解决探索-利用平衡问题上的算法机制。在理解大脑计算机制的基础上,本研究进一步开发了适用于强化学习的脑启发探索算法,在一系列基线探索任务上展示了超越传统算法的高效性。本研究成功展示了生物启发的人工智能架构在解决复杂决策问题中的潜力。通过进一步优化,此算法有望在机器人、推荐系统、大语言模型等领域提升智能体的自主学习能力。
1. 研究背景
强化学习中的探索问题:
“探索-利用困境”问题最早是在动物觅食行为中提出的,后来在心理学、神经科学和强化学习等领域也变得非常重要(图一左)。探索指的是探索未知的状态和动作,以发现更优的策略;而利用则是根据已有知识做出最优决策。在强化学习领域中,探索与利用的平衡至关重要(图一右)。过多的探索可能导致算法在未知领域浪费过多时间,而过多的利用则容易使算法陷入局部最优解而无法找到全局最优解。
尽管已经有很多算法被开发出来,但在复杂的、奖励稀疏的强化学习任务中,高效的探索仍然是一个难题。与此同时,人类和动物的研究表明,人和动物的探索策略非常高效,且往往会结合随机探索和定向探索两种策略。近期的神经科学研究初步揭示了控制这些探索行为的生物神经网络。

Hopfield网络理论及其生物:
受生物大脑结构的启发,John Hopfield在1982年提出了循环神经网络模型,Hopfield网络。Hopfield网络的主要特点是其对称连接权重和能量函数,这些特性使得网络能够收敛到稳定的状态(称为吸引子)。Hopfield网络在联想记忆和优化问题中有着广泛的应用。受Hopfield网络的启发,“深度学习之父”Geoffrey Hinton在上世纪80年代将随机性引入Hopfield模型,证明了随机性Hopfield网络能够从数据中学习概率分布,并合作提出了能够进行无监督学习的玻尔兹曼机。基于这些成就,Hopfield和Hinton共同获得了2024年的诺贝尔物理学奖。有趣的是,近期脑科学领域在秀丽隐杆线虫中发现了一种具有高效适应性的调控探索-利用的生物神经网络。这一网络的决策单元(图二右,红色虚线框部分)可被认为是一种随机Hopfield网络。

2. 主要结果
数学建模与理论分析:
研究首先对调控探索-利用的生物神经网络进行数学建模(以下简称BBN模型)。用一组随机微分方程(Langevin方程)描述每个神经元的实时状态受其他神经元的抑制作用,以及带有随机不确定性的上游输入的影响(图三(a))。理论分析表明,BBN模型的一个重要特性是它能够实现贝叶斯后验采样,即根据输入的信息采样出最可能的网络状态。此外,BBN模型还可以对带有不同程度不确定性的输入信息表现出乐观、中立或保守的选择偏向。这些发现说明BBN模型可以灵活地模拟不确定性状态下的探索行为(图三(b&c))。

人类和动物行为拟合:
文章通过多个公开的人类行为数据集,验证了BBN模型能够很好地拟合人类在多臂赌博机任务中的选择行为(图四)。通过调整网络参数,BBN可以模拟不同人群(如精神焦虑者、老年与青年人等)的探索策略。BBN还可模拟小鼠在多臂赌博机任务中的选择行为,尤其是在奖励分布发生变化时小鼠的选择切换行为。
BBN能够拟合人类和动物在探索任务中的行为模式,这表明它可以用于研究心理学中的探索-利用决策机制。例如,BBN可以用于分析不同人群(如焦虑症患者或老年人)在探索任务中的行为差异,从而为心理学研究提供定量化的工具。

强化学习任务中的表现:
BBN模型在经典的多臂赌博机任务中表现出高效的探索能力,能够根据总不确定性和相对不确定性调整选择概率,表现出类似人类的混合探索策略。同时,BBN在马尔可夫决策过程(MDP)任务中也表现出高效的探索能力,尤其是在稀疏奖励的环境中。通过结合不确定性估计算法Uncertainty Bellman Equation (UBE),BBN能够在复杂的MDP任务中实现高效的探索。在FourRooms任务中(图五),BBN能够快速覆盖整个环境,找到奖励所在区域。与其他算法相比,BBN在探索效率和覆盖速度上具有显著优势。在引入动作持久性后,BBN在大型环境中的探索效率进一步提高。

3. 总结与展望
BBN算法的成功表明,生物系统中的探索策略可以为人工智能算法设计提供宝贵的灵感。未来的AI系统可以更多地借鉴生物神经网络的工作原理,从而实现更高效、更灵活的决策。
通过结合贝叶斯后验采样和不确定性导向的探索,BBN在多臂赌博机和马尔可夫决策过程(MDP)任务中表现出高效的探索能力,能够很好地模拟人类和动物的决策行为。其重要性在于提供了一种新的、生物启发的探索算法,能够灵活调整对不确定性的偏向(乐观、中性或保守),并在复杂任务中优于传统算法。
未来,BBN在强化学习、脑机接口、心理学研究等领域具有广泛的应用前景。它可以用于机器人控制、自动驾驶等需要智能决策的场景,并为理解人类和动物的探索行为提供新的工具。尽管计算成本较高,但通过类脑芯片加速和算法优化,BBN有望在人工智能和神经科学领域产生深远影响,推动智能系统在复杂环境中的高效学习和决策。
论文信息
北京脑科学与类脑研究所吉妮实验室前科研助理、现加拿大麦吉尔大学计算生物系一年级博士生姜晨为本文第一作者。吉妮实验室科研助理安佳晖、北脑-中国农大联合博士项目二年级博士生刘雅婷为本文共同作者。研究员吉妮为通讯作者。本研究由国自然青年基金项目、北京市归国博士后项目、以及中国医学科学院医学创新单元项目资助。
原文链接:



