大脑的“冒险精神”如何启发AI？——揭秘吉妮实验室的类脑探索算法 | 脑洞漫游

2025-03-10浏览量：159

前言

你有没有想过，为什么有些人总是喜欢尝试新餐厅，而有些人却总是认准同一家餐厅？或者，为什么你给猫猫买新玩具后，猫猫却不愿尝试，而继续玩自己的旧玩具？这些看似简单的行为背后，其实隐藏着一个深刻的科学问题：探索与利用的平衡。

近日，北京脑科学与类脑研究所吉妮实验室在国际顶级人工智能会议ICLR 2025上发表了一项突破性研究，题为Brain Bandit: A Biologically Grounded Neural Network for Efficient Control of Exploration。这项研究不仅创新性地揭示了大脑在解决探索-利用平衡问题上算法机制，还开发了一种基于生物神经网络的AI算法，能够在复杂任务中超越传统方法。

今天，我们就来聊聊这项研究，看看它如何从大脑的“冒险精神”中汲取灵感，推动人工智能的发展。

01 —— 探索还是利用？这是个问题

想象一下，你站在一家陌生的美食广场，面前有两家餐厅。你是选择去那家昨天去过的（利用已知信息），还是冒险尝试一家从未光顾过的新店（探索未知）？这就是经典的“探索-利用困境”（Exploration-Exploitation Dilemma）（图一左）。

在强化学习（Reinforcement Learning）中，AI智能体也面临类似的抉择（图一右）：是继续利用已知的最佳策略，还是探索未知的可能性？过多的探索可能导致效率低下，就像一个在学习走路的孩子，如果一直乱试动作，而不去总结经验，可能很久都学不会怎么走路。而过多的利用则可能让AI陷入局部最优，错过更好的解决方案。就像孩子在学走路时一直迈小步，完全不尝试其他动作，当有天他遇到一个需要迈大步才能跨过去的小沟时，难免会卡住。

尽管科学家们已经开发了许多算法来解决这个问题，但在复杂的、奖励稀疏的任务中，高效的探索仍然是一个难题。

图一. 强化学习中的“探索-利用困境”

有趣的是，人类和动物在这方面表现得非常出色。我们不仅能随机探索，还能根据环境的变化调整策略。吉妮实验室的研究正是从这一点出发，试图揭开大脑高效探索的秘密。

02 —— 从大脑到AI：神奇的Hopfield网络

要理解这项研究，我们得先聊聊一个有趣的概念——Hopfield网络。1982年，科学家John Hopfield受大脑结构的启发，提出了一种名为Hopfield网络的循环神经网络模型。这个网络的特点是能够通过对称的连接权重和能量函数，自动收敛到稳定的状态（科学家们称之为“吸引子”）。简单来说，Hopfield网络就像是一个智能的“记忆盒子”，能够存储特定的模式，比如一张人脸或一段旋律，并在给定部分信息的情况下恢复完整的记忆。

Hopfield网络的提出不仅为联想记忆和优化问题提供了新思路，还启发了后来的AI研究。上世纪80年代，“深度学习之父”Geoffrey Hinton在Hopfield网络的基础上引入了随机性，并进一步合作提出了玻尔兹曼机——一种能够从数据中学习概率分布的无监督学习模型。这些开创性工作让Hopfield和Hinton在2024年共同获得了诺贝尔物理学奖，成为AI领域的传奇人物。

更有趣的是，科学家们最近在一种叫做秀丽隐杆线虫（C. elegans）的微小生物中，发现了一种调控探索-利用行为的生物神经网络。这个网络的决策单元（图二右，红色虚线框部分）竟然与随机Hopfield网络非常相似！这一发现为研究团队提供了重要灵感。

图二. Hopfield网络以及控制探索-利用平衡的生物神经网络

03 —— 数学建模与理论分析：生物神经网络的启示

研究团队首先对调控探索-利用的生物神经网络进行了数学建模，称之为BBN模型（BRAIN-INSPIRED BANDIT NETWORK）。

BBN模型的核心是一组随机微分方程，描述了神经元之间的相互作用和带有随机不确定性输入的影响。理论分析表明，这个模型能够实现贝叶斯后验采样，即根据输入信息推测最可能的网络状态。更重要的是，BBN模型能够通过不同的参数，灵活地调整探索策略——有时乐观（偏向探索），有时保守（偏向利用），有时中立（没有偏向）。

图三. BBN模型架构与理论分析

04 —— 人类行为拟合：AI也能“像人一样思考”

为了验证BBN模型的有效性，研究团队用它来拟合人类和动物在探索任务中的行为。例如，在多臂老虎机任务（一种经典的决策实验）中，BBN模型成功模拟了人类的选择行为。通过调整模型参数，它甚至能够模拟不同人群的行为差异，比如焦虑症患者或老年人的探索策略。

图四. BBN模型可拟合人类和动物的探索行为

这意味着，BBN模型不仅可以用于AI算法设计，还能为心理学研究提供定量化工具。例如，未来我们可以用它来分析不同人群在探索任务中的行为差异，甚至为心理健康评估提供新的视角。

05 —— 强化学习任务：BBN的强大探索能力

在经典的多臂老虎机和马尔可夫决策过程（MDP）任务中，BBN模型展现出了强大的探索能力。尤其是在奖励稀疏的环境中，BBN能够快速覆盖整个环境，找到奖励所在区域。与其他算法相比，BBN在探索效率和覆盖率上具有显著优势。

举个例子，在一个叫做FourRooms的任务中（图五），BBN模型像一位“探险家”一样，迅速探索了整个地图，找到了隐藏的宝藏。而传统的算法则像一位“保守派”，迟迟不敢迈出关键一步。

图五. UBE-BBN算法在强化学习任务中的优秀表现

06 —— 应用前景：从机器人到心理学

BBN算法的成功表明，生物系统中的探索策略可以为人工智能算法设计提供宝贵的灵感。未来，这项技术有望在多个领域大展身手：

- 机器人控制：让机器人在未知环境中高效探索，比如灾难救援或太空探测。

- 推荐系统：帮助平台在推荐已知热门内容和探索新内容之间找到平衡。

- 心理学研究：为探索-利用决策机制的研究提供定量化工具。

- 脑机接口：通过模拟大脑的探索策略，开发更智能的脑机交互系统。

尽管BBN模型目前计算成本较高，但通过类脑芯片加速和算法优化，它有望在人工智能和神经科学领域产生深远影响。

07 —— AI的未来，从大脑中寻找灵感

吉妮实验室的这项研究不仅揭示了大脑高效探索的奥秘，还为人工智能的发展提供了新的思路。正如研究团队所期望的：“未来的AI系统可以更多地借鉴生物神经网络的工作原理，从而实现更高效、更灵活的决策。”

所以，下次当你犹豫要不要尝试一家新餐厅时，不妨想想你的大脑正在上演一场精妙的“探索-利用”博弈。而AI，或许正在悄悄学习你的“冒险精神”呢！

（本文参考ICLR 2025会议论文Brain Bandit: A Biologically Grounded Neural Network for Efficient Control of Exploration，作者：姜晨、安佳晖、刘雅婷，通讯作者：吉妮。）

《北京日报》：“意念控制”或成真？“北脑一号”脑机系统今年将带来惊喜！

1月内第3例手术！这项技术有望让瘫痪患者重弹钢琴

返回上一级