从炒菜到缝针!斯坦福炒虾团队打造自主「AI达芬奇」,苦练神指当外科医生
新智元报道 编辑:编辑部 【新智元导读】斯坦福炒虾机器人作者,又出新作了!通过模仿学习,达芬奇机器人学会了自己做「手术」——提起组织、拾取针头、缝合打结。最重要的是,以上动作全部都是它自主完成的。 斯坦福炒虾机器人作者,又出新作了。 这次,机器人不是给我们炒饭了,而是给我们做外科手术! 最近,约翰霍普金斯和斯坦福大学的研究者们,进行了一项新的探索—— 著名的医疗机器人达芬奇,是否可以通过模仿学习,来学习外科手术的操作任务呢? 经过实验后,他们成功了! 组织操作、针头处理和打结这三项基本的手术任务,达芬奇都可以自己独立完成了。 首先是需要医学生苦练指法的缝合打结技术,只见达芬奇「飞针走线」,很熟练地就可以把结打好: 接下来是针的拾取和移交,达芬奇也能够一次精准操作,动作绝无拖泥带水。 第三大任务是提起组织,可以看到达芬奇选择了正确着力点,轻松提起了组织。 最重要的是,以上动作全部都是达芬奇自主完成的! 翻开研究作者一栏,赫然出现了炒虾机器人的作者Tony Zhao和Chelsea Finn。 果然,这种程度的精细操作,怎么看都有一股熟悉的味道。 论文地址:https://arxiv.org/abs/2407.12998 博客地址:https://surgical-robot-transformer.github.io/ 要知道,跟家庭环境中的桌面操作相比,手术任务需要精确操纵可变形物体,还要面对不一致的照明和遮挡的硬感知问题。 另外,手术机器人通常可能还有不准确的本体感觉和迟滞。 这些问题,他们都是如何克服的? 大型临床数据存储库,机器人可以学习了 大规模模仿学习,在操作任务的通用系统上显示出了巨大的前景,比如让机器人给我们做家务。 不过这次研究者们盯上的,是外科领域。 外科领域是一个尚未开发、潜力巨大的领域,尤其是在达芬奇手术机器人的加持之下。 截止2021年,全球已经有67个国家使用了6500套达芬奇系统,进行了超过1000万例手术。 而且,这些手术的过程都被全程记录了下来,从而让我们有了大量的演示数据存储库。 如此大规模的数据,能否利用起来,构建一个自主手术的通才系统? 然而,当研究者们下手研究时却发现:让达芬奇机器人通过模仿学习来做外科手术,存在一个难点—— 由于达芬奇系统本身的特殊性,就导致了独特的挑战,阻碍了模仿学习的实施。 右上是真实的医疗环境,右下是研究人员的实验设置 而且,由于联合测量不精确,其正向运动学就会不一致,如果只是简单地使用这种近似运动学数据训练一个策略,通常会导致任务的失败。 很简单的视觉伺服任务,机器人也无法执行。训练输出绝对末端执行器姿势的策略(这是训练机器人策略的常用方法),在所有任务中的成功率都接近于0。 怎样克服这种限制? 团队发现,达芬奇系统的相对运动,比它的绝对正向运动学更加一致。 因此,他们想到一个办法:引入一种相对动作公式,使用它的近似运动学数据,来进行策略训练和部署。 他们考虑了以下三个选项:以相机为中心、以工具为中心和混合相关操作。 以相机为中心的动作表示是一种基线方法,它将动作建模为末端执行器相对于内窥镜尖端的绝对姿势。另外两个是定义相对于当前工具(即末端执行器)框架或内窥镜尖端框架的动作的相对公式 然后,使用图像作为输入和上述动作表示,来训练策略。 这一点,他们的做法跟此前的工作不一样,后者会使用运动学数据作为输入,然而在这项工作中,达芬奇的运动学数据可能并不可靠。 他们的模型基于ACT,一种基于Transformer的架构。 团队提出了一种策略设计,仅将图形作为输入,并输出相对姿态轨迹 如果这种方法成功,那么包含近似运动学的大型临床数据存储库,就可以直接用于机器人学习,而无需进一步校正了。 这对于机器人的临床手术操作,无疑意义重大。 果然,在引入相对动作公式后,团队便利用近似运动学数据,在达芬奇上成功地演示了模仿学习,不仅不需要进一步的运动学矫正,而且效果也大大优于基线方法。...