会“自学对口型”的仿人机器人EMO开始像人一样说话了
美国哥伦比亚大学的研究团队近日展示了一款名为 EMO 的新型仿人机器人头部,它不仅能做到嘴唇与语音高度同步的“完美对口型”,还可以通过自我学习逐步掌握类人发声方式,被视为向类《西部世界》式超拟真人形机器人迈出的重要一步。

这款机器人由机器人学博士生胡宇航(Yuhang Hu)、教授霍德·利普森(Hod Lipson)及其团队开发,本质上是一个覆盖柔性硅胶“皮肤”的机器人头部结构。在硅胶面部下方布置了 26 个微型电机,不同组合驱动时可以拉动面部产生各种表情,同时塑造不同形状的嘴唇。
为了让 EMO 学会如何用“表情肌肉”控制嘴型,研究人员首先将它放在镜子前,让其在无人干预的情况下随机做出成千上万种面部表情,并实时观察镜中反馈。在这一过程中,系统逐步建立起电机组合与视觉表情变化之间的对应关系,这种学习框架被称为“视觉到动作”(Vision-to-Action,VLA)语言模型。
在掌握“表情—电机”映射后,机器人开始进入“模仿人类说话”的阶段。研究团队为 EMO 输入了大量人类说话和唱歌的 YouTube 视频,用于分析不同语音在发出时嘴部应呈现的运动模式,进而学习各类声音对应的口形特征。其后,系统将这部分知识与先前获得的 VLA 模型融合,使机器人在通过合成语音模块发声时,能够同步生成与语音内容相匹配的唇部动作。
目前,这一技术仍然不算完美,EMO 在发出诸如“B”“W”等辅音时仍存在明显困难,整体口型协调度还有提升空间。研究人员表示,随着机器人不断练习说话,其口型控制精度和与人自然对话的流畅度都有望进一步改善。
胡宇航指出,当这种对口型能力与 ChatGPT、Gemini 等对话式人工智能系统结合时,人类与机器人的互动将产生更加“有温度”的连接效果。他认为,机器人观看人类对话的次数越多,就越能逼真地模仿那些带有情感色彩的细微面部动作,而随着对话“上下文窗口”的延长,这些表情和动作也会变得更加贴合语境。
相关研究论文已发表于《Science Robotics》期刊,更多技术细节由哥伦比亚大学工程学院对外发布。这项工作被视为推动未来社交机器人、虚拟主持与人形服务机器人自然交互能力的一项关键进展。
