MIT CSAIL · 2025-01-21

MIT开发出模仿人类发声的AI模型

摘要

MIT计算机科学与人工智能实验室(CSAIL)的研究团队开发出一种革命性的AI模型,能够模拟人类发声器官的运作机制,生成类似人类的声音模仿。该模型通过认知启发式算法控制发声模型,既可以从现实世界声音生成人类发声模仿,也能反向从人类模仿推断真实声音。实验显示,AI生成的声音在某些情况下获得了高达75%的人类偏好率。

内容框架与概述

本研究受到人类自然发声行为的启发——人类经常通过声音模仿来传递信息,比如描述汽车发动机声音或模仿动物叫声,这种行为类似于用画笔快速勾勒图像来传达视觉概念。MIT研究团队将这一人类认知机制转化为AI算法,构建了一个完整的发声模拟系统。

模型设计采用了生物仿真路径,通过模拟声带振动以及喉咙、舌头、嘴唇的形状变化来产生声音。研究团队迭代开发了三个版本:基线模型仅追求声音接近真实;交际模型考虑声音对听众的独特性;完整模型则进一步融入发声努力程度的约束,避免过于极端的发声方式。

实验结果令人鼓舞,参与者在盲测中有时更偏好AI生成的声音而非人类生成的声音。该模型在声音设计、虚拟现实AI角色开发、语言学习辅助等场景具有广泛应用潜力。研究团队还计划探索该模型在语言发展研究、婴儿语言学习机制以及鸟类模仿行为研究等领域的延伸应用。

核心概念及解读

认知启发式算法:这是一种模仿人类认知过程的AI算法设计方法。在本研究中,算法并非简单优化声音相似度,而是模拟人类在发声模仿时的认知策略,例如重点关注最具辨识度的声音特征(如摩托艇发动机的轰鸣声),同时考虑发声的生理可行性限制。

双向发声映射:该模型实现了现实世界声音与人类发声模仿之间的双向转换。正向路径是从真实声音生成人类发声模仿,反向路径则是从人类发声模仿推断原始的真实声音。这种双向能力使得模型既能理解人类如何表达声音,也能从表达中还原声音本源。

发声努力约束:完整模型引入的重要概念,模拟人类在发声时的生理限制。人类不会发出过于快速、响亮或极端音调的声音,因为这样会超出舒适的发声范围。模型通过这一约束使生成的声音更接近真实的人类行为,这是从工程优化向认知仿真转变的关键一步。


原文信息

字段内容
原文Teaching AI to communicate sounds like humans do
作者MIT CSAIL研究团队
发表日期2025年1月9日

此文档由 AI 自动整理