AI & Big Data 11小时前
非營利的EleutherAI釋出集結合法開放資料的AI訓練資料集
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

EleutherAI发布了Common Pile v0.1,这是一个完全由开放授权或公有领域数据组成的AI训练数据集,包含超过30种来源的逾8TB纯文本数据。该数据集严格筛选,仅保留符合创用CC BY、CC BY-SA或CC0协议的内容。EleutherAI利用该数据集训练了两个7B参数模型,Comma v0.1-1T和Comma v0.1-2T,它们在多项基准测试中表现出色,甚至优于LLaMA、MPT等知名模型。EleutherAI旨在通过开放数据推动AI模型发展,避免版权争议,并鼓励社区构建合法、可持续和伦理的AI模型。

📚 Common Pile v0.1是一个由EleutherAI发布的AI训练数据集,其数据来源多样,涵盖了PubMed Central、ArXiv、GitHub Archive、StackExchange等,总数据量超过8TB。

✅ 该数据集的核心特征是所有数据都属于开放授权或公有领域,严格筛选,仅包含创用CC BY、CC BY-SA或CC0协议的内容,以避免侵权问题,并提升训练数据的透明度。

💡 EleutherAI利用Common Pile v0.1训练了两个7B参数模型,Comma v0.1-1T和Comma v0.1-2T。实验结果显示,这些模型在ARC-C、MMLU、BoolQ、SIQA、HumEval及MBPP等基准测试中表现出色,甚至优于LLaMA、MPT等知名模型。

🌱 EleutherAI认为,使用开放授权的数据集能够促进AI模型的合法、可持续和伦理发展,并鼓励社区持续扩充开放授权数据,推动AI技术的进步。

非營利的AI研究組織EleutherAI上周發布了Common Pile v0.1,這是個AI訓練資料集,所蒐集的資料全部屬於開放授權或公有領域,且利用該資料集訓練出的2個7B模型,發現它們的表現並不亞於LLaMA、MPT、PRJ-INCITE或Qwen等知名模型。

EleutherAI創立於2020年,是個非營利的AI研究機構,亦被稱為OpenAI的開源版。 甫釋出的Common Pile v0.1收錄超過30種來源的逾8TB的純文字,該資料集採用嚴格的授權過濾機制,僅保留採用創用CC BY、CC BY-SA或CC0協議的內容,涵蓋生物醫學領域的PubMed Central、數理科學領域的ArXiv、GitHub Archive、StackExchange、Ubuntu IRC、USPTO專利資料集及維基百科等。

Common Pile v0.1的重點是它們皆屬於公開授權及公有領域,明確排除了不符合開放意義的資料,避免侵權問題,並提升訓練資料集的透明度。

EleutherAI還利用Common Pile v0.1訓練了兩個7B參數模型,其中的Comma v0.1-1T以1兆個Token作為訓練量,Comma v0.1-2T則使用了2兆個Token進行訓練。

當比較Comma v0.1-1T與LLaMA、MPT及PRJ-INCIT等模型時,發現Comma v0.1-1T在ARC-C、MMLU、BoolQ、SIQA、HumEval及MBPP等基準測試上勝出。

若是比較Comma v0.1-2T與OLMo Twin、Llama 2及DeepSeekLLM,Comma v0.1-2T也在ARC-E、MMLU、SIQA及HumEval上的表現最為突出。

EleutherAI認為,使用未授權資料可能引發法律與倫理爭議,因此應該建立一套完全由開放授權或是公有領域組成的資料集,而且實驗也發現,這些基於開放資料集的模型在許多測試中的表現也與主流模型相當,彰顯出開放資料也能訓練出高品質的語言模型,將能鼓勵社群持續蒐集與擴展開放授權資料,朝向合法、可持續及倫理的AI模型發展路線。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

EleutherAI Common Pile v0.1 AI训练数据集 开源
相关文章