Google近日在非洲推出名为 WAXAL 的全新语音数据集,涵盖包括阿乔利语、豪萨语、卢干达语、约鲁巴语在内的 21 种非洲语言,被视为在长期由跨国科技巨头主导的人工智能领域推动“数据主权”的一次重要尝试。 该项目最大的特点在于:数据集的所有权归参与建设的非洲本地机构所有,而非Google本身。

在当前主流人工智能系统中,非洲语言往往难以被准确识别和理解,即便生成回应也错误频出,这已成为非洲科技界普遍关注的“生存性问题”。 Google于 2 月 3 日正式发布 WAXAL 数据集,名称来自沃洛夫语中“说话”一词,项目历时三年开发,目标是为非洲的研究者和企业提供更具包容性的技术基础设施。
Google在官方说明中强调,WAXAL 是与多家非洲机构合作的成果,包括乌干达的马凯雷雷大学、加纳大学、卢旺达的 AI 与开源数据公司 Digital Umuganda 以及非洲数学科学研究院等。 Google表示,这一合作框架确保本地伙伴对其采集的数据保留所有权,同时又能将这些资源向全球研究社区开放,用以推动相关技术发展。
长期以来,美国和中国的科技公司掌控着来自全球的大规模数据集,部分数据在收集过程中缺乏明确告知与补偿,被用于训练各类 AI 模型。 随着数据驱动型商业每年被估计可创造逾 2 万亿美元产值,数据所有权及收益分配问题成为全球争议的焦点,许多国家尤其是新兴经济体开始制定框架,将数据留在本国并强化监管。
WAXAL 数据集本身规模庞大,包含超过 1.1 万小时的语音数据和近 200 万条独立录音,其中约 1250 小时为为自动语音识别准备的转写语音,另有 20 多小时的录音室级音频可用于文本转语音合成。 项目团队有意以宽松许可方式开放数据,允许商业使用,希望通过开源策略帮助非洲创业者绕开硅谷中介,直接在本地开展创新。
Google AI 研究项目经理阿卜杜拉耶·贾克指出,长期以来缺乏高质量、宽松授权的语音语料,是非洲语音技术发展的主要瓶颈,而“成功的关键在于本地对创新周期的所有权”。 他透露,已有多家本地机构开始基于 WAXAL 进行应用探索,例如加纳大学正在利用这些数据推进孕产妇健康研究,并逐步构建本地 AI 基础设施中心,而不仅仅扮演数据采集方。
尼日利亚语言学家与语言专家科拉·图博孙认为,由非洲机构掌控、同时又对外开源的数据,是未来构建非洲语言技术生态的重要基石。 他同时指出,数据质量仍需警惕隐患——例如有学者发现,WAXAL 中的约鲁巴语数据缺乏声调符号,而在约鲁巴语中,变音符号对语音与意义都至关重要,其缺失可能严重影响文本转语音系统的表现。
在项目推进过程中,技术与语言学挑战并存。贾克表示,非洲诸多语言结构复杂、语境层次丰富,方言差异显著,使得转写工作尤为艰巨,团队不得不高度依赖各大学语言学系来统一方言和正字法标准。 在硬件层面,要在千差万别的环境中录制接近录音室水准的音频,也迫使合作方“发挥真正的非洲式创造力”,包括自制便携录音箱、使用降噪技术,以满足高保真文本转语音模型的需求。
尽管 WAXAL 已覆盖大量语种和场景,贾克承认非洲大陆内部方言变化巨大,仍有许多社群需要被进一步纳入,避免在新一轮 AI 浪潮中再次被边缘化。 他透露,目前还有 6 种语言正在筹备中,预计将数据集扩展到 27 种语言,而长期战略将持续围绕“通过伙伴关系实现可持续性”这一核心展开。
在非洲 AI 基础设施竞争中,Google并非唯一行动者。微软近期推出了名为 Paza 的新工具与基准体系,支持 39 种非洲语言的自动语音识别,标志着全球科技公司在向“社区主导型” AI 基建模式转向。 随着更多开源数据集涌现,非洲各国在争取数据主权、推动本地科技创新和产业收益再分配方面,有望获得更大话语权。