在去年底的十二天發表會期間,OpenAI以新一代推理模型o1正式上線啟用揭開序幕。執行長Sam Altman表示,OpenAI的模型技術,開始從通用型的LLM,轉向具有複雜推理能力的新一代模型系列。第一天:新一代推理模型o1正式上線正式版的o1比先前的預覽版本更強大,開始支援多模態的輸入,不只文字,還可以輸入圖片。o1也能支援結構化輸出,可以指定輸出JSON格式的內容,可以保證產生有效的JSON,但不一定會依據使用者透過推斷 API 呼叫提供的JSON 結構描述定義來生成。OpenAI採取了一套人工評估作法,發現o1正式版比o1預覽版的錯誤率,減少了34%,平均回答速度也快了50%。預覽版回應太慢的問題也獲得不少改善,現在輸入第一句話後,只需要10秒就可以獲得回應,甚至會依據問題難易度,簡單問題的回應快,而複雜問題回應速度才會較慢。在推理能力上,OpenAI特別在意o1模型對於輔助開發的成效,以全球程式競賽平臺Codeforces的得分來說,GPT-4o可以得到11%(解出11%的問題),o1預覽版62%,但是正式版o1達到89%的高分,可以解答近9成的程式問題。不只是推出了新一代推理模型,OpenAI還發表了要價高達每月200美元的ChatGPT Pro訂閱模式,在這個模式下可以取得o1 Pro Mode,用更多算力來提高難題的回答準確度。也就是說,ChatGPT可以按算力提供分級服務,意味著,這款o1模型是一款可以增加算力,來提高準確度的模型,因此,未來是可以購買更多算力,來提高o1的推理能力。目前,微軟Azure AI也開始提供o1推理模型,目前在美國和瑞典各有一個雲端區域提供這項模型。第二天:全新的模型客製化作法RFT正式推出o1模型的發表會之後,OpenAI研究副總裁Mark Chen緊接著登場,公布了新的模型客製新功能,增強式微調(Reinforcement Fine-tuning,RFT),可以讓企業用自己的資料來微調o1模型,但不只是過去的標準微調作法,而是新的增強式微調作法。Mark強調,RFT作法可以讓高中生的能力,變成博士等級的模型。微軟Azure AI已經開始提供o1模型,同時也開始提供新的增強式微調模式。Mark Chen強調,RFT適合用於特定領域的任務,透過增強式學習模式,來建立專家級的模型,像是法務,金融,工程,保險,都可以適用。增強學習微調的原理是,提供一個問題讓模型回答,依據不同的思考路線產生一系列的多個答案,針對每一個答案的正確程度,來提供獎勵分數,針對得到正確答案的思考線路進行增強,而同時抑制得到錯誤答案的思考線路。不過,使用者不用考慮背後的運作過程,只需要上傳訓練資料和驗證資料集即可。「這讓模型用一種全新的方式,也是更有效的方式,來學會特定領域的推理方式。」Mark解釋,增強式學習不是優化模型的輸出,而是讓模型學會「推理」方法,只要十幾個訓練案例,就可以有效果。這也是OpenAI用來訓練GPT4o和o1模型的訓練方式,變成一項平臺功能。進行RFT微調時,企業需要先上傳JSON格式的訓練資料集,每一行是一筆資料,也可以加入提示工程的指令,產生推論結果後,還要上傳一份驗證用的資料。透過一個評分器機制,將推論產生的答案和正確答案比較,模型會回傳0到1的分數,1代表完全正確,0則代表完全錯誤。OpenAI將會提供不同類型的評分器,作為增強式微調使用,也開放企業可以自己用Python來定義自己的評分器,上傳使用。目前執行一次RFT的時間,可能從數小時到數天不等。微軟Azure AI服務在12月18日也新增了這項功能,先提供給9月釋出的o1-mini可以用RFT,也先在美國North Central US和瑞典 Sweden Central這兩個區域提供,支援UI介面操作。 微軟Azure AI服務在去年12月18日開始提供新的增強式微調RFT功能,先開放對9月釋出的o1-mini模型使用RFT,目前先在美國North Central US和瑞典 Sweden Central這兩個區域提供。(圖片來源/微軟)目前已有搶先試用RFT的大型企業,例如Thomson Reuter法律顧問公司用RFT來微調o1-mini模型,用於自家GAI 法務助理Co-Counsel。Thomson Reuter公司在2024年2月發表了用GPT-4打造的法務助理Co-Counsel,更在2024年11月時,宣布開始測試客製化版的o1-mini。這個客製化就是用了RFT來客製化法律事務專門的推理能力。Thomson Reuter這款AI助理混用了三家公司的LLM模型,處理不同任務。用Google的Gemini處理超長上下文的大型法律文件整合。用Anthropic的Claude處理稅務和合規等需要高度流程客製化的作業,最後則是用客製化版的o1-mini來處理法院訴訟案件摘要中,需要專業人員才能辨識的細微用語差異。根據他們目前的POC測試結果,RFT微調後的o1-mini模型,可以辨識出律師與當事人往來的保密信件中的用語差異,這是連GPT-4都無法辨識的細節,甚至,過去得靠專門律師才能判斷的用詞,這也加速了他們文件審查,法律研究,訴訟申請等作業。OpenAI線上發表時揭露了一項遺傳基因研究的RFT應用案例,用了1,100個案例微調o1-mini的正確率達到31%,比單純用o1-mini的17%高了不少,甚至比沒有微調的o1模型的25%還要高。這也反映出微調的效果。微軟官網上也介紹了另一個適合RFT的場景是物理學量子光學數學方程式的生成。第三天,Sora正式上線,開放付費用戶使用Sam Altman親自主持第三場發表,也就是影片生成服務Sora的上線,開放所有付費用戶使用。他指出,AI影片工具是新型態的共同創造模式,他們希望AI可以理解影片,「生成影片將會深深地改變人們使用電腦的方式。」不只如此,Sora服務對OpenAI有更大的戰略意義,Sam Altman強調,AI生成影片是通用人工智慧藍圖的重要一環。他表示「因為影片是AI學習的重要環境,可以讓AI從中學到人類在真實世界中的行為。」目前正式推出的影片生成模型不是去年2月公布的預覽版,而是新的進階版Sora Turbo,可以提供文字生成影片,圖片生成影片,影片生成影片等,可選擇生成480P到1080P不等影片畫質,5秒到20秒長度的影片。影片生成服務Sora服務採用了新的進階版Sora Turbo模型,可提供文字生成影片、圖片生成影片、影片生成影片等,也能選擇生成480P到1080P不等影片畫質,或是5到20秒長度的影片。(圖片來源/OpenAI)另外在Sora服務中也推出故事版功能,可以讓使用者像是導演般的設計和安排一整個影片的生成,像是描述角色,也可以下提示指令來建立一系列的行為。生成的影片可以用來重新編輯和混合,或是跟另一部影片後製成一個新影片。特別的是,因為這些是AI生成的影片,使用者可以透過提示,來改變影片中的角色。在發表會的展示中,直接把影片中在沙漠中移動的猛瑪象,要Sora模型替換成了機器人在沙漠中的移動,場景和移動方式都一樣,但是影片主角變成了類似大象的四腳機器人。目前Plus版訂閱用戶每個月可以生成50次影片,而Pro版訂閱者才能夠更多使用量,另外,Sora服務也搭配了避免生成影片濫用的控管機制。第四到六天:ChatGPT大升級,全新人機協作,深度整合蘋果生態接著連續三場,從第四天到第六天,主要聚焦在ChatGPT產品的大升級,將原本以對話形式為主的功能,發展成多型態的人機協作平臺,也跨入更大的蘋果產品生態圈。第四天正式推出了ChatGPT的人機協作新工具Canvas,讓使用者與ChatGPT對話,來生成和編輯一篇文章,Canvas讓ChatGPT變成了以文件寫作為主的創作工具,可以一邊和AI討論和修改,並行畫面中的文件內容,提供了新的人機協同寫作方式。不只用於文件寫作,甚至可以用來撰寫Python程式碼,Canvas提供了Python直譯器,可以直接在線上執行這段Python程式碼,甚至呼叫常用的函式庫,繪製圖表等。ChatGPT也能補齊程式碼的註解,甚至是進行除錯,提供建議修改的正確程式碼段落,只要同意就可以套用。在GPT商店中,有許多客製化GPTs,使用特定提示和設計,打造的GPT機器人,可以與其他人分享。現在可以將Canvas模式,加入到客製化GPTs中,讓使用這款客製GPTs的其他人,不用刻意打開Canvas,也能使用。換句話說,客製GPT可以把人機協作寫作工具Canvas加入到GPTs的生成結果,直接生成一份可以人機共同編輯的文件。與蘋果生態圈的整合上,ChatGPT提供了三種整合方式。第一種是與Siri整合。使用者向Siri提出要求後,Siri會自動建議是否更適合使用ChatGPT,詢問使用者同意後就會自動換手來處理。第二項整合ChatGPT和蘋果系統內建寫作工具,可以套用到全系統各處的寫作功能,對文件內容進行修改、摘要或畫重點等。第三項整合是相機控制,ChatGPT現在可以控制iPhone 16的相機功能,將畫面和聲音傳到ChatGPT上,讓ChatGPT了解使用者的世界,使用者可以自己控制要不要讓ChatGPT取得鏡頭控制權。蘋果則在公布與ChatGPT深度整合計畫的同時宣布,蘋果智慧服務將開始支援更多地區和語言,一方面在澳洲、加拿大、愛爾蘭、紐西蘭、南非和英國等國提供在地化英語支持,另一方面也在語言支援上,將會支援中文、印度英語、新加坡英語、法語、德語、義大利語、日語、韓語、葡萄牙語、西班牙語和越南語等,預計2025年4月開始透過軟體更新陸續升級這些支援。ChatGPT另外一項重要的大升級,則是進階語音對話功能,開始支援影音對話,這是第六天發表會的重點。這項具備影音能力的進階語音對話功能,使用了4o模型,可以支援50種語言,以更自然的方式與人對話,現在更可以支援即時影音,也能將使用者的螢幕分享給ChatGPT來剖析。這項功能也開啟了全新的人與ChatGPT互動的方式,從文字互動,跨入了影音互動的模式,在第六天的線上發表會中,OpenAI工程師用手機拍攝自己沖咖啡的過程,ChatGPT可以監看手沖咖啡的過程,一步步指示,現在要倒多少咖啡粉,如何移動熱水壺來倒水的過程,就像旁邊有一位資深咖啡師的指導一般。(圖片來源/OpenAI)在OpenAI十二天發表中的前半段,大多聚焦在全新的模型,全新的ChatGPT服務,這些服務不只是增強原本的服務,而是讓人與GAI的互動,從文字互動模式,進入了影音互動,甚至可以說是彷彿是人與機器在真實世界中互動的新典範。變革關鍵是多模態模型(Large Multimodal Model,簡稱LMM)技術的成熟,去年還只是一項熱門的前瞻技術,到了今年,則變成了人人可用的新型態GAI產品。我們將在下一期繼續剖析十二天發表會的下半場。