Cnbeta 04月17日 18:57
维基百科向AI开发者提供其数据以抵御机器人采集工具
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

维基百科与Kaggle合作,发布专门针对AI模型训练优化的数据集,旨在阻止AI开发者抄袭。该数据集包含英语和法语的结构化维基百科内容,采用JSON格式,方便AI开发者访问和使用。此举旨在减轻维基百科服务器压力,并促进小型公司和独立数据科学家获取数据。Kaggle将作为托管平台,确保数据的可访问性、可用性和实用性,为机器学习社区提供工具和测试平台。

💡维基百科与Kaggle合作发布数据集,旨在优化AI模型训练流程,方便开发者使用。

📚数据集包含英语和法语的结构化维基百科内容,格式为JSON,便于机器读取。

🔍数据集内容涵盖研究摘要、简短描述、图像链接等,但不包括参考文献和音频文件。

🚀Kaggle作为托管平台,将确保数据的可访问性和实用性,方便小型公司和独立数据科学家获取数据。

⚖️此举旨在应对AI机器人对维基百科服务器的压力,并促进内容共享。

维基百科正试图通过发布专门针对训练AI模型而优化的数据集,来阻止人工智能开发人员抄袭该平台。维基媒体基金会周三宣布,已与Google旗下托管机器学习数据的数据科学社区平台Kaggle合作,发布“英语和法语结构化维基百科内容”的测试版数据集。

维基百科表示,Kaggle 托管的数据集“在设计时充分考虑了机器学习的工作流程”,使 AI 开发人员能够更轻松地访问机器可读的文章数据,以进行建模、微调、基准测试、对齐和分析。数据集中的内容已公开授权,截至 4 月 15 日,内容包括研究摘要、简短描述、图像链接、信息框数据和文章章节,但不包括参考文献或音频文件等非书面元素。

维基百科表示,Kaggle 用户可以使用“结构良好的 JSON 格式维基百科内容”,这应该比“抓取或解析原始文章文本”更具吸引力。由于自动化 AI 机器人不断消耗平台带宽,维基百科的服务器目前承受着巨大的压力。维基百科已经与Google和互联网档案馆签署了内容共享协议,但与 Kaggle 的合作应该会让小型公司和独立数据科学家更容易获取这些数据。

Kaggle 合作伙伴负责人 Brenda Flynn 表示:“作为机器学习社区的工具和测试平台,Kaggle 非常高兴能够成为维基媒体基金会数据的托管平台。Kaggle 很高兴能够在确保这些数据的可访问性、可用性和实用性方面发挥作用。”

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

维基百科 Kaggle AI 数据集 机器学习
相关文章