返回上一页  首页 | cnbeta报时: 02:54:38
新项目使维基百科数据更易于让人工智能获取
发布日期:2025-10-01 16:39:48  稿源:Win10s.COM

德国维基媒体协会于10月1日宣布推出一项新数据库,将使维基百科丰富的知识库更易为AI模型获取与利用。这项名为“Wikidata Embedding Project”的新系统,通过向维基百科及其附属平台(包含近1.2亿条目)引入基于向量的语义搜索技术,来帮助计算机理解词语的含义和关系。

项目同时支持“模型上下文协议”(Model Context Protocol,MCP),这是一项帮助AI系统与数据源进行通信的标准,从而让大型语言模型(LLM)能以自然语言查询维基数据。

此次项目由德国维基媒体与神经搜索公司Jina.AI及IBM旗下实时训练数据公司DataStax共同协作完成。多年以来,Wikidata已为维基旗下平台提供可供机器读取的数据,但此前的工具只支持关键词搜索或SPARQL查询(一种专业语义查询语言)。新系统将更适合用于“检索增强生成”(RAG)系统,使AI模型能够接入外部权威知识,为开发者提供基于维基百科编辑审核过的信息内容,让模型具备更可靠的数据基础。

此外,新数据库强调语义上下文。例如,用户检索“科学家”一词,能获得知名核科学家名单、贝尔实验室科学家列表,也可查询“科学家”在多种语言中的翻译、维基官方授权的科学家工作图片,以及一系列相关概念如“研究人员”“学者”等的扩展信息。

该数据库已在Toolforge平台公开上线,Wikidata还将于10月9日为有兴趣的开发者举办线上研讨会。

在AI开发者普遍寻求高质量训练数据源以精调模型的背景下,本项目应运而生。随着训练系统日益复杂、趋向组成型环境而非单一数据集,对高度准确可靠数据的需求也更为迫切。虽然部分人士对维基百科持保留态度,但其数据已远比庞杂的网络爬虫数据集(如Common Crawl)更具事实基础。

AI实验室在追求高质量数据时,有时需付出高额代价。例如,今年8月,Anthropic公司为解决AI训练使用作家作品的相关法律纠纷,选择支付15亿美元达成和解。

Wikidata AI项目负责人Philippe Saadé在新闻通报中强调,该项目与主要AI实验室或大型科技公司无直接关联。“Embedding Project的发布证明,强大的AI不必被少数公司掌控,”他说,“它可以开放协作,并为所有人服务。”

我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道,更好阅读体验,更及时更新提醒,欢迎前来阅览和打赏。
查看网友评论   返回完整版观看

返回上一页  首页 | cnbeta报时: 02:54:38

文字版  标准版  电脑端

© 2003-2025