IT之家 2024年12月13日
哈佛大学、谷歌发布 100 万本公共领域书籍,为 AI 训练提供合法数据
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

哈佛大学与谷歌宣布合作,将发布一个包含约100万本公共领域书籍的AI训练数据集。该数据集涵盖多种类型、语言和作者,包括狄更斯、但丁和莎士比亚等经典作家的作品。此举旨在降低AI训练数据的成本,并为研究机构和AI初创公司提供一个庞大的数据集,以帮助他们训练大型语言模型,从而促进AI领域的竞争和发展。

🤝哈佛大学与谷歌宣布合作,将发布一个包含约100万本公共领域书籍的AI训练数据集,为AI研究提供宝贵资源。

📚该数据集涵盖多种类型、语言和作者,包括已不再受版权保护的经典作家如狄更斯、但丁和莎士比亚等,这些作品的版权已随时间过期,因此可以作为公共资源使用。

💰AI训练所需的数据成本高昂,此举旨在降低获取高质量训练数据的门槛,让更多机构和公司能够参与到AI的研发中来。

📈该数据集的发布将“让竞争环境更加公平”,通过向包括研究机构和AI初创公司在内的各类机构开放,有助于推动AI技术的创新和进步。

🗓️该数据集来源于谷歌图书项目,虽然具体发布方式和时间尚未公开,但这一计划已获得微软和OpenAI的资金支持。

IT之家 12 月 13 日消息,据 TechCrunch 12 日报道,哈佛大学与谷歌宣布,联合发布 100 万本公共领域书籍作为 AI 训练数据集。

AI 训练所需的数据成本高昂,但却更适合资金充裕的科技公司。因此,哈佛大学计划发布一个包含约 100 万本公共领域书籍的数据集,这些书籍覆盖多种类型、语言和作者,包括已不再受版权保护的经典作家如狄更斯、但丁和莎士比亚等,因这些作品的版权已随时间过期。

图源 Pexels

虽然这个新数据集尚未公开,也不清楚具体的发布方式和时间,但它来源于谷歌的长期项目 —— 谷歌图书(Google Books)。因此,谷歌将参与这次“宝贵财富”的广泛发布。

据IT之家了解,早在今年 3 月,哈佛大学就曾透露其“机构数据计划(IDI)”,并表示这一计划旨在为 AI 提供“合法数据的可信通道”。直到正式启动后,该计划才确认得到了微软和 OpenAI 的资金支持

IDI 的执行董事格雷格・莱佩特(Greg Leppert)表示,该数据集的目标是“让竞争环境更加公平”,通过向包括研究机构和 AI 初创公司在内的各类机构开放这一庞大的数据集,以帮助他们训练大型语言模型。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

哈佛大学 谷歌 AI训练 数据集 公共领域
相关文章