今年3月鴻海揭露自家首款繁體中文大型語言模型(LLM)FoxBrain,宣稱具備優秀的繁體中文能力及推理能力,鴻海近期準備在5月底之前開源FoxBrain供外界使用。
鴻海去年宣布將打造智慧製造、智慧電動車、智慧城市三大平臺,在這樣的策略之下,鴻海從硬體跨足到智慧平臺服務,然而,在硬體與平臺之間缺乏基礎模型,為此,鴻海研究院投入訓練在地化的大語言模型,訓練模型學習更多資訊,以模型為基礎開發模組,再打造平臺服務。今年3月鴻海首個繁中大型語言模型FoxBrain亮相,為700億參數語言模型。
「我們的策略是在現在的AI時代,成為平臺的提供者、打造者」,鴻海研究院人工智慧研究所所長栗永徽今天在一場AI論壇上說,鴻海深知開發基礎模型需要投入大量資源,並非一般企業可以負擔,因此鴻海決定以自身的資源投入自主訓練大語言模型FoxBrain,未來將會透過開源,讓平臺策略夥伴及外界都能夠使用基礎模型。
許多人可能會問國際上已有很多LLM,臺灣為什麼需要打造自己的LLM?栗永徽提出幾個原因,首先是語言文化不對等,國際的模型對繁中、本地的用語、文化理解有限,其次是資安風險,使用國際大語言模型通常掌控在國外業者,如果使用國際模型可能導致敏感資料外洩風險,最後是模型掌控在國外業者,難以針對本地的需要客製化,其他原因還有掌握自己的大語言模型,需要加強資料治理,建立資料主權,同時在過程中有助於培養AI人才。
「保護核心技術、建立領域內獨特資料、培育AI人才、掌握AI關鍵技術是鴻海自主訓練模型四大重要因素」,他說。
栗永徽表示,鴻海從ChatGPT後,歷經20多個月訓練出第一代的模型,將其命名為FoxBrain,這個模型具備臺灣的價值觀、優秀的繁體中文能力,更重要的是,它是第一個具備推理能力的繁體中文LLM。
他表示,在模型的訓練中秉持用AI訓練AI,一開始資料量不足,同時也有許多的資料治理專案正在進行,因此可用的繁中資料並不是很多,為擴增資料,鴻海團隊提出自己的Data Pipeline,從資料清理、增強、評估三個階段,以最小化人力,最大化資料品質,生成針對臺灣使用的語種資料,驅動模型的預訓練。
團隊採用低成本、高效率訓練,以開源的Llama 3.1 70B模型為基礎,持續預訓練、微調,利用AI作資料治理、資料品質篩選,結合多GPU協同運算技術,訓練完成FoxBrain後,正在測試應用於鴻海的三大平臺。
栗永徽指出,在國內常用的TMMLU+評測中,測試模型在數學、機器學習、化學、科學等幾個領域的表現,以FoxBrain和另外兩個模型Taiwan-Llama、Meta Llama 3.1相比,FoxBrain在數學、科學幾個領域有比較好的表現;另外,在Taiwan MTBench的測試中,比較三個模型的多輪對話、指令遵循、推理、多語言、臺灣在地知識,評測表現也相當好。FoxBrain未來可用於文書處理、決策輔助、數據分析等工作。
目前FoxBrain 70B模型為1.0階段,強調輸出控制、安全測試,鴻海揭露未來的發展藍圖,在未來的1.x版本裡將增強模型的工具調用能力、蒸餾小模型,2.0版模型將向100B發展,以多模態模型為目標,以理解三大平臺的問題,並且強化學習。
栗永徽表示,未來FoxBrain的下個版本將會用於自駕車,自駕車整合大語言模型,不僅可以自動駕駛,而且可將駕駛行為變為AI可解釋性,可解釋自駕車為什麼停下來、往前行駛或轉彎,將人的智慧應用於輔助駕駛,建立自駕系統和使用者間的信任。
他表示,在分工、分享及合作、共榮的願景下,透過模型開源協助臺灣的產業,在AI時代下攜手向前走,未來預期在5月底之前,於Hugging Face開源,包含8B與70B模型、相關技術文件。另外,也會在Computex中與Nvidia合作,說明如何將模型整合進Nvidia的NIM微服務框架,讓使用Nvidia平臺的開發社群能夠使用FoxBrain開發應用。