为光子AI加速器铺路，用于强化学习的激光动力学混沌巡回控制

光子人工智能在加速机器学习方面引起了相当大的兴趣；然而，这种独特的光学特性还没有被充分利用来实现更高阶的功能。混沌巡回（Chaotic Itinerancy）及其在多个准吸引子之间的自发瞬态动力学，可用于实现类脑功能。

近日，来自日本埼玉大学的研究人员研究了一种控制多模半导体激光器中混沌巡回的方法，以解决机器学习任务，即多臂老虎机（Multiarmed Bandit）问题，这是强化学习的基础。所提出的方法在通过光注入控制的模式竞争动力学中使用混沌巡回运动。

研究发现该探索机制与传统的搜索算法完全不同，且具有高度可扩展性，优于针对大规模老虎机问题的传统方法。这项研究为使用混沌巡回有效解决作为光子硬件加速器的复杂机器学习任务铺平了道路。

该研究以「Controlling chaotic itinerancy in laser dynamics for reinforcement learning」为题，于 2022 年 12 月 7 日发布在《Science Advances》上。

论文链接：https://www.science.org/doi/10.1126/sciadv.abn8325

多臂老虎机、混沌巡回与光子加速器

光子加速器通过使用光子技术克服半导体技术中集成电路密度的限制，提供快速高效的信息处理，被称为摩尔定律的终结。光子加速器可以被认为是使用光信号与电子计算相结合的预处理器。

在强化学习（RL）中，智能体通过反复试验学习行为，以最大限度地从与动态环境的交互中获得回报。强化学习已被广泛用于围棋游戏、弹性光网络中的信号传输和机器人控制中获得卓越的性能。

多臂老虎机问题是概率论中一个经典问题，也属于强化学习的范畴。设想，一个赌徒面前有 N 个老虎机，事先他不知道每台老虎机的真实盈利情况，他如何根据每次玩老虎机的结果来选择下次拉哪台或者是否停止赌博，来最大化自己的从头到尾的收益。

解决多臂老虎机问题对于光子决策至关重要。这个问题的目标是最大化来自多项选择或老虎机的总奖励，其命中概率是未知的。多臂老虎机问题解决了强化学习中最关键的挑战之一，即最大化总奖励的探索-利用困境。使用光子动力系统已经成功地实现了选择具有最高命中概率的老虎机。

决策的可扩展性，即如何应对越来越多的老虎机或选择，是至关重要的。

混沌巡回是一种现象，其中多个不稳定的吸引子（称为准吸引子）共存，并且动力系统的变量围绕这些准吸引子移动。混沌巡回被认为对于理解大脑中自发活动的出现至关重要。此外，混沌巡回已被用于实现联想记忆。最近，通过使用混沌巡回设计了自发行为切换。通过用于机器学习的实用工程平台实现的混沌巡回是实现大脑高功能的一种有前途且令人兴奋的方法。

在光子系统中观察到混沌巡回作为多模半导体激光器中多个纵模之间的混沌模式竞争动力学。多模半导体激光器中的混沌模式竞争动力学可能是实现有效自发搜索能力的合适平台，以在存在多重不确定性的情况下探索最优选择。尽管确定性混沌系统的可控性会导致混沌巡回的功能性，但在基于强化学习的应用中开发一种控制混沌巡回的方案是一项相当大的挑战。

在此，研究人员设计并进行了研究，以通过在具有光学反馈和注入的多模半导体激光器中通过数值和实验控制混沌巡回（即模式竞争动力学）来评估光子决策的可行性。通过使用混沌巡回对多种选择进行有效探索来解决作为强化学习基础的多臂强老虎机问题。研究了选择数量的可扩展性，并证明基于混沌巡回的方法优于置信上限 1 (UCB1) 调整方法，后者是最著名的软件算法之一。

本研究旨在研究混沌巡回，以利用激光动力学的独特物理特性，并解决光子决策原理的可扩展性问题。据我们所知，这是使用混沌巡回加速强化学习任务，并建立包含技术上可行的设备元素的具体光子硬件架构的首次演示。

具有光反馈和注入的多模半导体激光器

图 1 示意性地显示了具有光反馈和注入的多模半导体激光器的系统架构和动力学。假定多模半导体激光器的五个纵模被激发，其光频率表示为 νm，表示第 m 个模态强度（m = 1, 2, …, 5, νi < νj 表示 i < j）。此外，具有光频率 fm 的单模半导体激光器用于光注入。单模激光器的光输出被注入多模半导体激光器中频率为 νm 的第 m 模态强度，以控制模式竞争动力学，如图 1 所示。fm 与 νm 略微失谐以实现注入锁定。

图 1：具有光反馈和注入的多纵模半导体激光器。（来源：论文）

研究人员使用具有光反馈的多纵模半导体激光器的数值模型，该模型方程是 Lang-Kobayashi 方程的扩展，这是具有光反馈的半导体激光器的著名数值模型方程。

还添加了来自单模半导体激光器的光注入项。模式 1、2、…、M 是从低频模式到高频模式分配的。这种多模半导体激光系统是一个没有光注入的自主系统。

图 2：光反馈多模半导体激光器的时间波形。（来源：论文）

研究了在没有光注入的情况下发生混沌巡回时总强度在其中一种模式上的停留时间。

图 3：不同振荡频率的五种模态总强度的混沌巡回。（来源：论文）

发现停留时间概率的指数关系为 P = Ae^βt，其中 t 表示停留时间，A 和 β 为实数。当模式位于中心时，激光动力学极有可能提供相对稳定的驻留，而当模式位于远离中心模式时，它会探索其他模式。

图 3D 显示了模式 3 中光注入下每个模态强度的总强度停留时间的概率。模式 3 中的停留时间通过光注入增强，概率曲线斜率的绝对值减小。相反，其他模式的停留时间减少，斜率的绝对值增加。值得注意的是，在所有模式的短（<1 ns）和长（>1 ns）停留时间区域观察到不同的斜率。因此，混沌巡回的统计特性可以通过光注入来改变。

图 4：五种模式的主模比与光注入强度的函数关系。（来源：论文）

研究得出，可以通过改变光注入强度来配置特定模式成为主导模式的概率。换句话说，可以通过将光学注入设计为特定模式来控制模式竞争动力学。

决策性能的可扩展性

接下来，研究了老虎机数量变化时决策性能的可扩展性。

图 5：多模半导体激光器（红色）和 UCB1 调谐软件算法（蓝色）的可扩展性比较。

研究发现，当老虎机数量非常大（超过 100 台）时，使用多模激光动力学的方法优于 UCB1 调优算法。UCB1-tuned 算法基于置信区间并行选择老虎机，逐渐降低熵；但是，无法诱导加速。因此，当老虎机数量较多时，基于多模激光动力学的方法可以比 UCB1 调整算法更快地选择正确的老虎机。

所提出的基于混沌巡回的方法的标度指数为 0.70。这表明所提出的方法在大量老虎机下的优势，与现有的软件算法和其他光子方法相比。UCB1 调优算法的指数为 1.06，而 UCB1 调优算法的指数为 1.06，文献中报告的光子方法分别为 1.16 和 1.85从许多具有未知回报的选择中识别最佳选择在实际应用中至关重要，所提出的光子方法可能为解决此类大规模强盗问题开辟一条途径。

研究人员所提的决策方法可以应用于产生混沌巡回的其他非线性动力系统。混沌巡回支持的自发搜索能力对于解决复杂的机器学习任务以及理解大脑的自发活动非常有前途。

总之，这项研究表明，多模激光动力学中的混沌巡回是解决作为光子加速器的机器学习任务的有前途的资源。所提出的基于混沌巡回的原理利用了光的高带宽属性以及复杂的激光动力学，这通过停留时间统计和熵分析得到体现。

基于通过本研究获得的见解，所提出的结合混沌巡回和复杂激光动力学的方法可以扩展到解决未来的高阶问题和复杂的机器学习任务。

转载请注明出处。

• 锐科激光：2023年度净利润约2.17亿元，同比增加	• 锂电及光伏业务狂飙！海目星2023年营收48亿
• 莱赛激光业绩说明会：自主研发模式稳步发展进	• 大族激光年报出炉，净利下降逾三成
• 英诺激光去年四季度扭转势头新老业务展现强劲	• 英诺激光2023年转亏 2021年上市募3.59亿元
• 投资总额不超过2000万美元！联赢激光拟设立美国	• 这一光学企业又获得近亿元B+轮融资
• 光电企业戈碧迦光电登陆北交所！	• 华工科技：2023年度净利润增11.14%至10.07亿元