Nat. Mach. Intell. 速递：强化学习实现磁性微型机器人的自主三维定位控制

关键词：微型机器人，生物医学工程，强化学习

论文题目：Autonomous 3D positional control of a magnetic microrobot using reinforcement learning论文期刊：Nature Machine Intelligence论文地址：https://www.nature.com/articles/s42256-023-00779-2
微型机器人的小尺寸使得它们可以进入身体的所有部位，促进有针对性的治疗和诊断，最近的研究揭示了微型机器人在生物医学工程和生物医学领域的巨大潜力。然而，微型机器人的小尺寸对于内置电子设备造成了限制，只有通过光学、化学或磁性手段进行无线操作是可行的。而考虑到高渗透能力、生物相容性和良好的自由度控制能力，磁性驱动是首选方法。该研究采用强化学习实现磁性微型机器人的自主三维定位控制。
磁性微型机器人在生物医学工程领域显示出了潜力，可以促进精确药物递送、无创诊断和基于细胞的治疗。目前控制这类微型机器人运动的技术依赖于均匀磁场假设，并且受到微型机器人的特性和周围环境的显著影响。这些策略在改变环境或微型机器人时缺乏普遍性和适应性，并且由于电磁驱动系统和微型机器人位置的独立控制而出现适度延迟。
为了解决这些问题，该研究提出了一种基于机器学习的通过电磁线圈产生的梯度场来控制磁性微型机器人位置的方法。该研究使用强化学习和渐进训练方法通过直接管理线圈电流来控制微型机器人在定义的工作区域内的三维位置。研究开发了一个模拟环境进行初步探索，以减少整体训练时间。在模拟训练之后，学习过程被转移到反映真实世界复杂性的物理电磁驱动系统上。该研究提出的方法相较于传统的比例-积分-微分控制（PID control, proportional-integral-derivative control）更准确和高效。该方法还结合了路径规划算法，实现了全自主控制。并且，这种方法是对微型机器人设计、环境和磁性系统的非线性都非常敏感的复杂数学模型的一种替代方案。

图1 a、基于强化学习的磁性微型机器人导航。该研究开发了一种使用强化学习控制外部激励系统（EAS）在复杂环境中导航微型机器人的自主方法。b、RL 代理通过改变 EAS 线圈电流来精确控制 MR 的位置 PMR。MR 按照策略π（神经网络， RL 代理的一部分）以最少的步数达到目标位置 PT，同时必须保持在定义的工作区感兴趣区域（ROI, region of interest）内。c、该研究采用了一个四步的训练过程，以减少代理的训练时间并提高准确性。这有助于初始探索并逐渐增加复杂性，确保准确的导航。

图2 在仿真环境中的评估和训练结果。a、在Unity 3D中开发的一个仿真环境，用于具有八个线圈的EAS和一个磁性微型机器人（一个带有南向北磁化方向的永磁体，如白色箭头所示）浸泡在350cSt硅油中，NdFeB代表钕铁硼材料。b、环境评估。c、训练过程的第一步中强化学习代理模型的训练结果，以随时间步骤变化的平均奖励值表示。d、距离误差（从微型机器人到目标点的距离）随着强化学习代理在不同训练步骤中导航的变化。e、整个工作区的距离误差热力图。

图3 使用EAS（真实环境）重新训练强化学习代理模型。a、使用EAS对RL代理进行了2×106个时间步长的重新训练，并在每个饱和点（步骤2-4）后更改了训练条件。b、距离误差（从微型机器人到目标点的距离）随着强化学习代理在各种训练间隔中导航MR而变化。c、整个工作区域的距离误差热力图。d、给予强化学习代理的螺旋轨迹用于导航微型机器人。该任务涉及到三个轴的变化，验证了代理的性能。e、在xy平面上，将MR沿S形轨迹导航；z轴被固定。这种方法验证了强化学习代理的悬停能力。f、在流体流动条件下对RL代理进行了重新训练，涉及到流体速度分别为1 mm/s和1.5 mm/s 的300,000和200,000个时间步长。g、在动态流体环境中重新训练时，两种不同速度的距离误差。h、对抗流体流向（1 mm/s）进行导航。i、顺着流体流向（1 mm/s）进行导航。

图4 该方法与使用PID控制器进行闭环控制的对比。a、使用这两种方法，通过在当前MR位置创建一个距离目标点4mm的目标点来评估到达目标点所需的时间。b、通过将MR导航到随机目标点并记录与目标点的最小距离，比较了准确性。c、用于比较（固定z轴）的悬停性能的轨迹。d、用于评估（固定y轴）在重力下的性能的轨迹。

图5 在脑血管仿真模型中导航MR。a、缩小比例的MCA截面的复制品作为脑血管仿真模型，用于评估RL代理作为潜在医疗应用的性能。b、RL代理从指定的起点导航到目标点，即仿真模型内的动脉瘤。

图6 在不同环境下对MR进行完全自主控制。a、RL代理用于生成三维闭环位置控制的最优电流（假设非线性系统和非线性环境）的”大脑”（导航轨迹是由人类选择的）。RL代理与路径规划算法合并，生成通向目标的轨迹；这构成了完全自主控制。b、c、使用A*生成的轨迹的两个不同的MR导航场景：第一个包含虚拟障碍物（两个圆柱体）（b），第二个包含一个三维虚拟通道（c）。d、使用图像处理检测障碍物和开放空间，然后进行环境映射。使用带有障碍物的立方体通道来测试路径规划和导航。e、路径规划的结果。f、在带有物理障碍物的通道中导航。g、h、i、MR导航中遇到单个动态障碍物（g）、两个动态障碍物（h）和两个动态障碍物加一个静态障碍物（i）。

使用深度强化学习结合神经网络策略可以建模复杂问题，该研究使用了无模型的强化学习方法来控制磁性MR的导航。强化学习能够探索超出专家理解范围的问题并有效解决问题。研究者提出了提出了逐步训练过程解决了在物理环境中使用强化学习进行训练时遇到的需要手动干预的长时间的训练和系统不可逆状态的主要问题，不仅减少了总体训练时间，而且提高了准确性。由此，强化学习主体学会了控制MR的位置，在工作区内将其导航到定义的目标。同时，使用蠕动泵在流体通道内产生的流量进行训练，该方法在动态流体环境中的潜力也得到了测试，这意味着训练有素的策略可以作为导航梯度型MR的通用策略，允许重新训练强化学习主体以适应各种MR。相较于PID控制器，该方法实现了显著更高的准确性和更短的达到目标时间。此外，该方法实现静态和动态障碍物的完全自主导航。
在未来，研究者认为该方法有潜力帮助控制旋转和振荡磁场中3D动态环境中的MR的位置、方向和速度。该技术还可以用于通过专注于远离中心的非均匀磁场上的MR训练来增加现有EAS的工作区大小。该方法可以与各种成像和磁性驱动系统以及促进3D路径规划和导航的算法相结合。这种结合将扩展该方法到实际医学成像应用和实验。

编译｜余孟君

大语言模型与多智能体系统读书会

详情请见：大语言模型与多智能体系统读书会：大模型赋能机器人涌现群体智能

点击“阅读原文”，报名读书会

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

Nat. Mach. Intell. 速递：强化学习实现磁性微型机器人的自主三维定位控制

北京人形开源最新VLM模型，推动具身智能再迈关键一步 !

openEuler发布超节点操作系统，引领AI时代

雷军下铺的兄弟，创业家务机器人

世界模型和具身大脑最新突破：90%生成数据，VLA性能暴涨300%｜开源

李飞飞和LeCun的世界模型之争

雷军下铺的兄弟，创业家务机器人

AI Coding最贵300人：2年2050亿估值，刚又被塞了160亿

腾迈医药获2200万美元A轮追加融资，加速AI驱动药物创新

北京人形开源最新VLM模型，推动具身智能再迈关键一步 !

发布即开放：百度猎户座葫芦里卖的什么药？