会“自学对口型”的仿人机器人EMO开始像人一样说话了

0 Win10s.COM 2026-01-17 03:33:31

摘要：

美国哥伦比亚大学的研究团队近日展示了一款名为 EMO 的新型仿人机器人头部，它不仅能做到嘴唇与语音高度同步的“完美对口型”，还可以通过自我学习逐步掌握类人发声方式，被视为向类《西部世界》式超拟真人形机器人迈出的重要一步。

这款机器人由机器人学博士生胡宇航（Yuhang Hu）、教授霍德·利普森（Hod Lipson）及其团队开发，本质上是一个覆盖柔性硅胶“皮肤”的机器人头部结构。在硅胶面部下方布置了 26 个微型电机，不同组合驱动时可以拉动面部产生各种表情，同时塑造不同形状的嘴唇。

为了让 EMO 学会如何用“表情肌肉”控制嘴型，研究人员首先将它放在镜子前，让其在无人干预的情况下随机做出成千上万种面部表情，并实时观察镜中反馈。在这一过程中，系统逐步建立起电机组合与视觉表情变化之间的对应关系，这种学习框架被称为“视觉到动作”（Vision-to-Action，VLA）语言模型。

在掌握“表情—电机”映射后，机器人开始进入“模仿人类说话”的阶段。研究团队为 EMO 输入了大量人类说话和唱歌的 YouTube 视频，用于分析不同语音在发出时嘴部应呈现的运动模式，进而学习各类声音对应的口形特征。其后，系统将这部分知识与先前获得的 VLA 模型融合，使机器人在通过合成语音模块发声时，能够同步生成与语音内容相匹配的唇部动作。

目前，这一技术仍然不算完美，EMO 在发出诸如“B”“W”等辅音时仍存在明显困难，整体口型协调度还有提升空间。研究人员表示，随着机器人不断练习说话，其口型控制精度和与人自然对话的流畅度都有望进一步改善。