【《Science Robotics》, 2026年1月14日】Science Robotics刊登了来自哥伦比亚大学机械工程系博士胡宇航团队的一项研究成果《Learning realistic lip motions for humanoid face robots》。该研究基于AI深度学习技术,开发出一种使类人机器人面部能够将逼真的唇部动作与音频同步、模仿类似人类多种语言的AI框架,旨在解决传统机器人唇音同步不自然的问题。
研究团队开发了具有10个自由度的软硅胶唇部驱动机制,结合变分自编码器和面部动作变换器模型,实现了无需预定义动作的实时唇音同步。研究人员还设计了一个仿人脸的人形机器人,配有柔软的硅胶皮肤和磁性连接器,使其能够在复杂的唇部动作上保持10度的自由度。实验表明,在均方误差指标上显著优于基线方法,在法语、汉语、阿拉伯语等11种语言的测试中表现出跨语言泛化能力,且支持ChatGPT生成的连续对话场景。研究还揭示了机械约束对真实机器人唇部运动的影响,提出通过数据驱动模型弥补物理限制的解决方案,为类人机器人的情感交互和多语言应用提供了技术路径。通过多个AI模型结合,可以产生逼真的唇部同步,使机器人的嘴部动作与理想视频中的不匹配性变得最小。项目技术将会推动类人机器人在教育或老年人护理方面的应用,但需防止这些技术被滥用。
(南阳理工学院电子信息学科研究院马聪聪编译)
