AI & Big Data 02月17日
聯發科一口氣開源2款繁中多模態小模型、符合臺灣口音的語音合成模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

联发科创新基地最近开源了两款繁中多模态基础模型:Llama-Breeze2-3B(手机版)和Llama-Breeze2-8B(PC版)。这些模型不仅支持繁体中文,还具备多模态和函数调用功能,能够调用外部工具。联发科还基于Llama-Breeze2-3B开发了一款Android App,旨在增强手机AI助理的能力,如读取图片和调用外部工具。此外,还开源了可以合成台湾口音的语音合成模型BreezyVoice。这些开源内容包括模型权重和部分执行用程式。

💡Llama-Breeze2系列模型基于Llama 3.2大模型,通过繁中数据优化,具备繁中优化、图像分析和调用外部工具三大特色。例如,在生成台湾夜市小短文时,Llama-Breeze2-3B能准确列出著名夜市,而Llama 3.2 3B Instruct模型则会出现错误。

🖼️Llama-Breeze2具备多模态能力,可以理解和分析图像,包括图表、光學文字辨識(OCR)或景點照片。例如,模型可以根据图片中的奖金信息计算前三名的总奖金。

📱联发科开源的Android App基于Llama-Breeze2-3B,可直接部署到手机,作为AI助理协助即时翻译、景点推荐等任务,甚至还能生成语音,用于智慧导览等情境。

🗣️BreezyVoice是一个语音合成模型,经过繁中加强训练,只需输入5秒的范例音讯,就能即时产出拟真的台湾口音语音,可作为AI助理的语音输出。

聯發創新基地(MediaTek Research)最近開源2款繁中多模態基礎模型,分別是能在手機上執行的羽量級Llama-Breeze2-3B版本,以及能在個人電腦上執行的輕量級Llama-Breeze2-8B版本。這系列模型不只具備繁中能力,還有多模態和函式呼叫功能,可調用外部工具。他們還以Llama-Breeze2-3B為基礎,打造一款Android App並開源,要來強化手機AI助理的能力,比如讀取圖片、調用外部工具。同時,聯發科也一併釋出可以合成臺灣口音的語音合成模型BreezyVoice。以上3款模型和App的開源內容包括模型權重和部分執行用程式。以Llama 3.2大模型為基礎,催生出繁中多模態語言模型Llama-Breeze2進一步來說,Llama-Breeze2是基以Llama 3.2大型語言模型為基礎,再以繁中資料來優化模型繁體中文理解力,並整合視覺語言模型、函式呼叫(Function Calling)功能,讓Llama-Breeze2具備繁中優化、能看圖、可調用外部工具等3大特色。就繁中能力來說,聯發科列出對比,相較於同參數量的Llama 3.2 3B Instruct模型,Llama-Breeze2-3B撰寫的臺灣夜市小短文,能準確列出著名夜市,如士林夜市、饒河街夜市和羅東夜市,而Llama 3.2 3B Instruct只正確說出士林夜市,但生成了兩個不存在的夜市(電信夜市和世貿夜市)。就多模態能力來說,Llama-Breeze2-3B除了理解文字,還能分析圖像,如圖表、光學文字辨識(OCR)或景點照片,模型都能理解和回答。舉例來說:USER:請問前三名總共可獲得多少錢?Llama-Breeze2-8B:根據圖片,第一名的獎金為30萬元整,第二名為20萬元整,第三名為15萬元整。將這些數字相加,我們得到前三名獎金總和為65萬元整。不只如此,Llama-Breeze2因為具備呼叫函式功能,因此可以調用外部工具,來完成特定任務。比如,使用者詢問天氣情況時,模型可以調用天氣應用程式API來獲取最新資訊,再回覆給使用者。Llama-Breeze2-3B模型驅動Android App除了開源2款多模態語言模型,聯發創新基地還開源可直接部署到手機、以Llama-Breeze2-3B為基礎的Android App。這個App可作為AI助理,來協助即時翻譯、景點推薦等任務(如下圖),甚至還能生成語音,使用者只要輸入文字,模型就能生成自然的語音回應,可用於智慧導航等情境。只需5秒,就能生成臺灣口音的語音合成模型BreezyVoice這次,聯發科創新基地還開源了語音合成模型BreezyVoice,特別以繁中加強訓練而成。這個模型採輕量架構,只需輸入5秒的範例音訊,就能即時產出擬真的語音,可作為AI助理語音輸出。聯發科表示,BreezyVoice現已能在筆電上使用,也能結合任何LLM或語音轉文字架構,來發展更多應用。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

联发科 多模态模型 繁中AI 开源 AI助理
相关文章