AI趨勢周報第276期：Google釋出經典編碼器-解碼器T5Gemma系列模型

重點新聞（0704～0710）

編碼器-解碼器 T5Gemma Google

Google重拾經典編碼器-解碼器架構，釋出T5Gemma系列模型

Google最近發布T5Gemma系列大型語言模型（LLM），重拾經典的編碼器-解碼器（encoder-decoder）架構，不論是產出結果還是推論效率，都比現有主流的解碼器模型（decoder-only）要好。

T5Gemma以Gemma 2框架為基礎，透過適應性轉換技術，將預訓練的解碼器模型調配為編碼器-解碼器架構，不僅保留原有能力，還降低重新訓練的運算成本。T5Gemma包含小型、基礎、大型和XL級別的模型，另也有2B、9B參數版本，以及9B編碼器+2B解碼器等這類不對稱的組合，這種組合能用來調整輸入或輸出的效率，比如提高輸入理解力、保持簡單的輸出。

在SuperGLUE和GSM8K測試中，T5Gemma精準度和延遲表現皆媲美甚至超越同級模型，特別是2B-2B模型經指令微調後，MMLU分數比Gemma 2 2B模型高出12分，GSM8K準確率也從58%衝上70.7%。T5Gemma現已在Hugging Face、Kaggle、Vertex AI平臺上開放使用。（詳全文）

Java Llama 3 GPU加速

曼徹斯特大學開源Java Llama3 GPU加速工具，要追上原生CUDA效能

AI大模型當道，曼徹斯特大學Beehive實驗室團隊6月釋出一款加速工具GPULlama3.java，透過TornadoVM運算框架，自動對Java程式編譯、優化，不必寫任何CUDA或OpenCL程式碼，就能在GPU上快速執行大型語言模型（LLM）推論。該工具目前支援Llama3和Mistral這兩種熱門模型（GGUF格式）。

目前，TornadoVM可在三種後端加速，包括OpenCL、PTX、SPIR-V。不過，Apple推出的OpenCL早已棄用，因此在Apple Silicon上的加速效能不會太好，因此團隊建議在Nvidia GPU環境下測試，以達到最佳表現。團隊表示，接下來打算支援Metal，讓蘋果裝置用戶也能享受快速執行模型的效能。雖然這款加速工具的速度還追不上專業版llama.cpp或原生CUDA，但團隊以此為目標，希望繼續加速至原生CUDA效能。（詳全文）

Line Yahoo! AI代理

Line合併日本Yahoo！今年要轉型成AI公司

Line日本與Yahoo! Japan合併為LY Corporation，日前在技術年會上宣布轉型為AI公司，提出兩大行動方針，包括全面導入AI Agent、提高內部生產力。LYC CTO朴懿彬進一步說明兩大策略進展，他們已在服務中導入44個GenAI應用，且已有35個專案用AI來提高內部營運效率。比如，Yahoo! Japan App用GenAI強化抽象語言搜尋功能，Line則在通訊功能中用GenAI支援基本問答、翻譯、PDF文件摘要、照片編輯和文字識別等能力。甚至在生產力部分，已應用GenAI客服來處理Yahoo購物、拍賣、Email、旅遊等服務，可以自動回覆處理92%的客服案件。

LYC還導入RAG工具Seek AI，作為內部知識管理工具，員工可註冊工作空間或應用程式，讓Seek AI學習內容、回答營運相關問題並整理所需資訊。目前他們已註冊490個應用程式給Seek AI學習。LYC還用自家程式碼，訓練出內部GenAI軟體開發助手Ark Developer，可支援程式碼建議、技術文件生成、自動程式碼測試、QA和程式碼審查等。在初期測試中，程式碼建議正確率高達96%、文件生成與審查時間減少62%、測試時間減少95%，一天能支援超過5,000次程式碼審查，預計7月正式上線。

為達成兩大AI轉型目標，LYC還要強化AI代理記憶（Agentic Memory），來強化AI代理執行複雜任務能力；也要結合數據治理及MCP技術應用，讓AI代理能在更安全的環境中執行任務。同時也會發展LLMOps，妥善管理LLM用例及數據傳輸機制的效能和品質；另要強化RAG平臺，讓AI應用更好地使用內部數據，以及強化整體數據處理和數據治理做法，來支援AI發展。（詳全文）

機器人模型 Google DeepMind 視覺

IMA發起Taiwan Tongues，推動臺灣語料庫

生成式AI當道，但主流模型多以英文、簡體中文訓練。為此，IMA資訊經理人協會推動Taiwan Tongues臺灣通用語料庫計畫，攜手作家組成Team Taiwan，累計貢獻逾500萬字文學作品，涵蓋臺灣華語、臺語、客語、原住民語，要讓AI真正聽懂臺灣話。

IMA協會理事長蔡祈岩表示，AI需理解臺灣語言、文化與價值觀，才能展現臺灣主體性。該計畫由作家胡長松領軍，他率先釋出150萬字著作，目前已上架Hugging Face，開源非商業使用。測試顯示，透過Taiwan Tongues語料，臺語AI模型正確率從31.5提升至42.6，成效顯著。

Taiwan Tongues也與群聯電子合作，打造具多元觀點與語境辨識的模型訓練框架，並攜手陽明交大建立臺灣語境評測指標。未來，數發部也將統籌政府語料，推動公私合作、擴大語料開源。IMA也計畫啟動Wiki Taiwan，提升臺灣語言在全球網路世界的能見度。（詳全文）

Veo 3 影片生成 Google

Veo 3影片生成功能在臺推出了

前幾周，Google在I/O大會上亮相最新AI影片生成模型Veo 3，日前則正式將Veo 3導入所有支援Gemini應用程式的國家和地區，包括臺灣在內。只要訂閱Google AI Pro，用戶就能用Veo 3生成短影片。

Veo 3結合Gemini模型，能根據相片、提示詞自動生成影片，無論是重現歷史、創意實驗，還是捕捉「大腳怪」出沒的虛構場景，都能輕鬆搞定。Google重視Veo 3的安全性，影片會自動加入可見浮水印，以及隱形的SynthID數位浮水印，防止被誤用。Google也透過大規模紅隊演練來確保內容安全，並透過「喜歡/不喜歡」功能來讓用戶反應、持續改進。（詳全文）

VIDEO

思覺失調 臺北榮總 腦影像

臺北榮總打造AI腦影像平臺，輔助思覺失調診斷

臺北榮總精神醫學部楊智傑教授團隊開發出智慧腦影像平臺，結合核磁共振和AI深度學習，來輔助評估思覺失調症，診斷準確率高達91.7%。這項做法突破傳統靠臨床觀察的限制，提供客觀的生物指標，改善精神疾病診斷與個人化治療。

思覺失調症影響全球約1%人口，常見幻聽、妄想等症狀。北榮智慧腦影像平臺以1,500名本土受試者數據打造，能三維視覺化大腦異常、精準定位病灶，協助醫師與患者家屬溝通；該平臺也具備腦磁振影像導引功能，可進一步研發精準的經顱磁刺激等非侵入性神經調控，作為臨床治療輔助工具。

這套智慧腦影像平臺已獲美國愛迪生獎、醫策會等獎項肯定，並取得臺美及PCT等專利。臺北榮總也啟用新建的身心智慧創新治療區，透過該平臺來與病人及家屬深入討論大腦變化、提高患者病識感，推動精神疾病診斷邁向AI精準醫學。（詳全文）

Midjourney 影片生成 V1

Midjourney推出首個影片生成AI模型V1

美國AI新創Midjourney繼推出圖像生成服務後，6月下旬又發表旗下首款影片生成模型V1，可用圖像生成影片，費用約是生成圖像的8倍，一上線就獲好評。進一步來說，它的工作流程是圖像轉影片（Image-to-Video），一開始上傳圖像後，就成為影像的第一幀圖，按下「Animate」就能讓圖動起來，使用者也能客製化調整速度或移動方向等細節。V1會先生成一個5秒、解析度為480p的影片，之後可選擇延長影片，每次延長時間為4秒，最多可延長4次，最長可建立21秒的影片。

2022年創立的Midjourney表示，他們的目標是建置一個可即時模擬開放世界的模型，就好比一個可即時生成影像的AI系統，使用者可命令它在3D空間移動，環境和角色也會跟著移動並互動。為達到該目標，Midjourney需要建立各種模組，像是圖像生成模型、圖像轉影片模型，以及可在空間中移動的3D模型等。而明年起，Midjourney將分別建置並發布這些元件，再將它們整合成一個統一的系統，目標是讓大眾使用。（詳全文）

微軟 醫學診斷 MAI-DxO

微軟MAI-DxO系統診斷準確率高達85％

微軟發表最新研究，展示 AI 在臨床診斷的突破性進展。其開發的MAI-DxO系統，針對《新英格蘭醫學期刊》（NEJM）收錄的304個高難度病例進行測試，診斷正確率高達85%，遠勝21位美英專科醫師僅20%的表現。

MAI-DxO結合了GPT、Llama、Claude、Gemini等模型協作，模擬虛擬醫師小組逐步問診、安排檢查並調整推論，更貼近真實臨床情境。除了準確率提升，系統也能在虛擬成本限制下，合理規畫檢查，避免過度使用醫療資源。微軟強調，MAI-DxO能根據不同場景調整診斷策略，強化可靠性與可追溯性。不過，AI診斷大規模落地仍需通過更多實證、法規和治理挑戰。（詳全文）

VIDEO

圖片來源／Google、曼徹斯特大學、LYC、臺北榮總、Midjourney、微軟

AI近期新聞

1. Cursor推出手機版和網頁版開發助理

2. Gemini正式登陸Wear OS智慧手錶

3. Hugging Face聯手機器人業者，推出2款Reachy Mini桌上型機器人

資料來源：iThome整理，2025年7月

重點新聞（0704～0710）

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签