非營利的EleutherAI釋出集結合法開放資料的AI訓練資料集

AI & Big Data 11小时前

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

EleutherAI发布了Common Pile v0.1，这是一个完全由开放授权或公有领域数据组成的AI训练数据集，包含超过30种来源的逾8TB纯文本数据。该数据集严格筛选，仅保留符合创用CC BY、CC BY-SA或CC0协议的内容。EleutherAI利用该数据集训练了两个7B参数模型，Comma v0.1-1T和Comma v0.1-2T，它们在多项基准测试中表现出色，甚至优于LLaMA、MPT等知名模型。EleutherAI旨在通过开放数据推动AI模型发展，避免版权争议，并鼓励社区构建合法、可持续和伦理的AI模型。

📚 Common Pile v0.1是一个由EleutherAI发布的AI训练数据集，其数据来源多样，涵盖了PubMed Central、ArXiv、GitHub Archive、StackExchange等，总数据量超过8TB。

✅ 该数据集的核心特征是所有数据都属于开放授权或公有领域，严格筛选，仅包含创用CC BY、CC BY-SA或CC0协议的内容，以避免侵权问题，并提升训练数据的透明度。

💡 EleutherAI利用Common Pile v0.1训练了两个7B参数模型，Comma v0.1-1T和Comma v0.1-2T。实验结果显示，这些模型在ARC-C、MMLU、BoolQ、SIQA、HumEval及MBPP等基准测试中表现出色，甚至优于LLaMA、MPT等知名模型。

🌱 EleutherAI认为，使用开放授权的数据集能够促进AI模型的合法、可持续和伦理发展，并鼓励社区持续扩充开放授权数据，推动AI技术的进步。

非營利的AI研究組織EleutherAI上周發布了Common Pile v0.1，這是個AI訓練資料集，所蒐集的資料全部屬於開放授權或公有領域，且利用該資料集訓練出的2個7B模型，發現它們的表現並不亞於LLaMA、MPT、PRJ-INCITE或Qwen等知名模型。

EleutherAI創立於2020年，是個非營利的AI研究機構，亦被稱為OpenAI的開源版。甫釋出的Common Pile v0.1收錄超過30種來源的逾8TB的純文字，該資料集採用嚴格的授權過濾機制，僅保留採用創用CC BY、CC BY-SA或CC0協議的內容，涵蓋生物醫學領域的PubMed Central、數理科學領域的ArXiv、GitHub Archive、StackExchange、Ubuntu IRC、USPTO專利資料集及維基百科等。

Common Pile v0.1的重點是它們皆屬於公開授權及公有領域，明確排除了不符合開放意義的資料，避免侵權問題，並提升訓練資料集的透明度。

EleutherAI還利用Common Pile v0.1訓練了兩個7B參數模型，其中的Comma v0.1-1T以1兆個Token作為訓練量，Comma v0.1-2T則使用了2兆個Token進行訓練。

當比較Comma v0.1-1T與LLaMA、MPT及PRJ-INCIT等模型時，發現Comma v0.1-1T在ARC-C、MMLU、BoolQ、SIQA、HumEval及MBPP等基準測試上勝出。

若是比較Comma v0.1-2T與OLMo Twin、Llama 2及DeepSeekLLM，Comma v0.1-2T也在ARC-E、MMLU、SIQA及HumEval上的表現最為突出。

EleutherAI認為，使用未授權資料可能引發法律與倫理爭議，因此應該建立一套完全由開放授權或是公有領域組成的資料集，而且實驗也發現，這些基於開放資料集的模型在許多測試中的表現也與主流模型相當，彰顯出開放資料也能訓練出高品質的語言模型，將能鼓勵社群持續蒐集與擴展開放授權資料，朝向合法、可持續及倫理的AI模型發展路線。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签