非營利的AI研究組織EleutherAI上周發布了Common Pile v0.1,這是個AI訓練資料集,所蒐集的資料全部屬於開放授權或公有領域,且利用該資料集訓練出的2個7B模型,發現它們的表現並不亞於LLaMA、MPT、PRJ-INCITE或Qwen等知名模型。
EleutherAI創立於2020年,是個非營利的AI研究機構,亦被稱為OpenAI的開源版。 甫釋出的Common Pile v0.1收錄超過30種來源的逾8TB的純文字,該資料集採用嚴格的授權過濾機制,僅保留採用創用CC BY、CC BY-SA或CC0協議的內容,涵蓋生物醫學領域的PubMed Central、數理科學領域的ArXiv、GitHub Archive、StackExchange、Ubuntu IRC、USPTO專利資料集及維基百科等。
Common Pile v0.1的重點是它們皆屬於公開授權及公有領域,明確排除了不符合開放意義的資料,避免侵權問題,並提升訓練資料集的透明度。
EleutherAI還利用Common Pile v0.1訓練了兩個7B參數模型,其中的Comma v0.1-1T以1兆個Token作為訓練量,Comma v0.1-2T則使用了2兆個Token進行訓練。
當比較Comma v0.1-1T與LLaMA、MPT及PRJ-INCIT等模型時,發現Comma v0.1-1T在ARC-C、MMLU、BoolQ、SIQA、HumEval及MBPP等基準測試上勝出。
若是比較Comma v0.1-2T與OLMo Twin、Llama 2及DeepSeekLLM,Comma v0.1-2T也在ARC-E、MMLU、SIQA及HumEval上的表現最為突出。
EleutherAI認為,使用未授權資料可能引發法律與倫理爭議,因此應該建立一套完全由開放授權或是公有領域組成的資料集,而且實驗也發現,這些基於開放資料集的模型在許多測試中的表現也與主流模型相當,彰顯出開放資料也能訓練出高品質的語言模型,將能鼓勵社群持續蒐集與擴展開放授權資料,朝向合法、可持續及倫理的AI模型發展路線。