鴻海擬於5月底前開源繁中大語言模型FoxBrain

今年3月鴻海揭露自家首款繁體中文大型語言模型（LLM）FoxBrain，宣稱具備優秀的繁體中文能力及推理能力，鴻海近期準備在5月底之前開源FoxBrain供外界使用。

鴻海去年宣布將打造智慧製造、智慧電動車、智慧城市三大平臺，在這樣的策略之下，鴻海從硬體跨足到智慧平臺服務，然而，在硬體與平臺之間缺乏基礎模型，為此，鴻海研究院投入訓練在地化的大語言模型，訓練模型學習更多資訊，以模型為基礎開發模組，再打造平臺服務。今年3月鴻海首個繁中大型語言模型FoxBrain亮相，為700億參數語言模型。

「我們的策略是在現在的AI時代，成為平臺的提供者、打造者」，鴻海研究院人工智慧研究所所長栗永徽今天在一場AI論壇上說，鴻海深知開發基礎模型需要投入大量資源，並非一般企業可以負擔，因此鴻海決定以自身的資源投入自主訓練大語言模型FoxBrain，未來將會透過開源，讓平臺策略夥伴及外界都能夠使用基礎模型。

許多人可能會問國際上已有很多LLM，臺灣為什麼需要打造自己的LLM？栗永徽提出幾個原因，首先是語言文化不對等，國際的模型對繁中、本地的用語、文化理解有限，其次是資安風險，使用國際大語言模型通常掌控在國外業者，如果使用國際模型可能導致敏感資料外洩風險，最後是模型掌控在國外業者，難以針對本地的需要客製化，其他原因還有掌握自己的大語言模型，需要加強資料治理，建立資料主權，同時在過程中有助於培養AI人才。

「保護核心技術、建立領域內獨特資料、培育AI人才、掌握AI關鍵技術是鴻海自主訓練模型四大重要因素」，他說。

栗永徽表示，鴻海從ChatGPT後，歷經20多個月訓練出第一代的模型，將其命名為FoxBrain，這個模型具備臺灣的價值觀、優秀的繁體中文能力，更重要的是，它是第一個具備推理能力的繁體中文LLM。

他表示，在模型的訓練中秉持用AI訓練AI，一開始資料量不足，同時也有許多的資料治理專案正在進行，因此可用的繁中資料並不是很多，為擴增資料，鴻海團隊提出自己的Data Pipeline，從資料清理、增強、評估三個階段，以最小化人力，最大化資料品質，生成針對臺灣使用的語種資料，驅動模型的預訓練。

團隊採用低成本、高效率訓練，以開源的Llama 3.1 70B模型為基礎，持續預訓練、微調，利用AI作資料治理、資料品質篩選，結合多GPU協同運算技術，訓練完成FoxBrain後，正在測試應用於鴻海的三大平臺。

栗永徽指出，在國內常用的TMMLU+評測中，測試模型在數學、機器學習、化學、科學等幾個領域的表現，以FoxBrain和另外兩個模型Taiwan-Llama、Meta Llama 3.1相比，FoxBrain在數學、科學幾個領域有比較好的表現；另外，在Taiwan MTBench的測試中，比較三個模型的多輪對話、指令遵循、推理、多語言、臺灣在地知識，評測表現也相當好。FoxBrain未來可用於文書處理、決策輔助、數據分析等工作。

目前FoxBrain 70B模型為1.0階段，強調輸出控制、安全測試，鴻海揭露未來的發展藍圖，在未來的1.x版本裡將增強模型的工具調用能力、蒸餾小模型，2.0版模型將向100B發展，以多模態模型為目標，以理解三大平臺的問題，並且強化學習。

栗永徽表示，未來FoxBrain的下個版本將會用於自駕車，自駕車整合大語言模型，不僅可以自動駕駛，而且可將駕駛行為變為AI可解釋性，可解釋自駕車為什麼停下來、往前行駛或轉彎，將人的智慧應用於輔助駕駛，建立自駕系統和使用者間的信任。

他表示，在分工、分享及合作、共榮的願景下，透過模型開源協助臺灣的產業，在AI時代下攜手向前走，未來預期在5月底之前，於Hugging Face開源，包含8B與70B模型、相關技術文件。另外，也會在Computex中與Nvidia合作，說明如何將模型整合進Nvidia的NIM微服務框架，讓使用Nvidia平臺的開發社群能夠使用FoxBrain開發應用。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签