從2年多前,台積就開始積極擁抱GAI,今年更要加碼發展各式各樣的AI技術,不只原本的智慧製造,甚至是營運、全球擴廠,連台積IT自己都開發了不少AI代理應用來輔助。如何打造一支成功的AI或生成式AI服務?台積也在IT日中分享了自家打造AI產品的成功心法。
以終為始,先思考什麼才是一隻成功的AI產品
台積IT的開發策略是以終為始,先思考什麼是成功的AI產品,這是他們打造任何AI產品的設計起點,從四大面向來思考AI產品的成功條件,不只要評估成效,還會考慮使用體驗,使用者採用率,以及最後一項「擴充和適應力」。
台積希望成功AI產品可以達到的成效,像是可以對關鍵挑戰帶來突破性的功能,或是可以優化改善目標的正確性,或是可以超越統計與傳統ML做法的精確度。
而在使用者採用率提升上,則希望一隻AI服務可以運用到不同系統,能夠整合到多元化的場域或環境中,也能提供整合與串接做法,來提高採用率。甚至要提供使用者對新AI技術的運用能力,像是不只是與GenAI對話,還要能引導使用者運用提示指令。在使用者體驗考量上,台積IT希望AI服務的介面必須直觀,使用者可以輕鬆上手,甚至能支援個人化功能或提供自動化決策輔助,來提高操作的方便性。
最後一項成功條件是平臺角度的考慮,一隻成功的AI服務也要具備擴充與適應力,能夠適應不同專業領域(尤其是各種半導體製造場域)的需求,遇到爆量流量或用戶成長,也能維持穩定和擴充能力。
台積IT對成功AI服務的定義,從四大面向來思考。(圖片來源/台灣積體電路製造股份有限公司)
打造成功AI產品三大要素:商業目標、跨職能團隊、平臺
如何打造出這樣的成功AI產品有三個要素,第一是要定義出明確的商業目標,其次是善用不同職能的團隊,最後一項是平臺,從設計、開發、部署到維運,台積IT都提供了相對應的平臺來協助AI產品的開發。
進一步來說,商業目標又可細分成三類,一類是效率提升,像是工作流程改善、可以更自動化或更智慧化,減少重複性任務、降低人為操作成本、提升生產效率等。以產線瑕疵檢測工作來說,採用新技術後,台積IT會希望可以比傳統ML做法,進一步再減少60%到70%的人工檢測時間,來提高生產效率。
使用者體驗改善是另一類常見的商業目標,台積IT會發展一些AI驅動的工具,像是Chatbot、個人化推薦、預測分析等,像是打造一些專業知識的AI代理,當資淺使用者提問時,AI代理會連結到企業知識管理系統,就能獲得過去得靠大量人際溝通,才能獲得的背景知識。最後一類商業目標是創新,台積IT內部相當鼓勵用AI創新,可以借鏡學界、業界經驗,專研相關技術後,提出全新的AI功能,嘗試導入台積內部,來驗證這些應用的可行性。
有了明確產品目標後,台積開發一項AI產品所需的開發團隊,往往組合了多種角色,常見包括使用者族群、PM、資料科學家、UI/UX設計師、前端工程師、後端工程師和SRE工程師。
因為台積內部有很多不同的使用者族群,例如不同製造領域的專家,許多AI專案並非是通用型應用,而會涉及特定領域的專業知識,開發過程必須考量不同使用者族群來設計或者調整架構。PM需要經常與使用者溝通,負責收集這些產品的需求。資料科學家則會負責專研最新AI技術,提供AI解方,也可能參與部分開發的實作。
團隊中的UI/UX設計師則不只是考量傳統的網站使用者體驗設計,還要思考如何凸顯這項AI產品的AI能力,讓使用者更方便使用。前後端工程師是前後端AI功能的主要開發者,也要負責各項資源整合工作。SRE也是開發團隊中的重要角色,負責讓AI服務可以建立一個穩定且有延展性的架構。
台積IT不只開發AI代理,自己也用了不少AI代理,光是DevOps團隊就有源源不絕的AI代理開發需求,導入了不少AI助手和AI代理來協助開發工作。從日常工作的報告撰寫、翻譯、資料彙整等,甚至可以提供一個專業知識領域的AI代理來協助新人訓練,讓新人了解SOP、工作流程,解決問題等。也有輔助開發者的Copilot,來提升程式碼品質,統一風格的一致性、確保程式碼的安全性等。
整合AI技術和IT基礎架構,打造AI協作開發平臺
為了支援AI服務的開發,台積IT整合了AI技術和雲端基礎架構,打造了一個AI協作開發平臺,涵蓋了機器學習開發平臺、部署、評估和維運類機制等構成。
台積IT的AI開發平臺架構示意圖,包括機器學習開發平臺、維運類機制,評估類機制、部署類機制等。(圖片來源/台灣積體電路製造股份有限公司)
這個ML平臺上還可細分出四大類功能,包括ML開發功能,提供了資料通路、IDE開發環境、訓練服務和多種開發框架,也能提供一些自動化機制,像是資料收集機制、模型訓練流程等。另外還支援常見AI開發流程,如快速交付用的CI/CD流程、從模型開發、訓練到發布階段的MLOps開發流程。透過MLOps模型自動化訓練所迭代的不同版本和Finetune微調後的所有版本,都會保存下來。
部署機制主要提供模型Registry和多種K8s環境配置,也提供了維運用的完整監控功能,像是Log紀錄、錯誤偵測、診斷、告警機制等,甚至導入了AI診斷輔助功能,AI輔助問題除錯等。
在評估機制類,則提供了積分排行榜(LeaderBoard)和AI試驗場(Playground)。台積IT會搜集多種開源或開放的模型,自己執行各種評估來建立自己的模型積分排行榜。在開發AI產品過程中,若上線階段需要讓少數使用者先試用時,則會以最小AI元件或最小AI功能的方式,串接到AI試驗場(Playground)上讓使用者適用,類似POC驗證或MVP(最小可行性產品)試驗的做法。
台積IT會廣泛地使用不同AI技術,主要有四類常見的AI技術,第一類是語言類AI技術,包括了AI代理、RAG流程、Deep Research和知識圖譜技術(Knowledge Graph)。另外也使用了大量的視覺AI技術,包括了物件偵測、影像分割(Image segmentation),以及熱門的Diffusion Model與VLM(Vision Language Model)。第三類是優化類AI技術,像是聯邦式學習、蒙地卡羅方法、增強式學習(Reinforcement learning)、AutoML等。最後一類是傳統的數值AI技術,像是統計工具、ML回歸、時間序列分析、物理模型建模等技術。
台積IT慣用AI應用主流的開發語言,如Python、JavaScript、Go等,也用了不少AI開發工具。對于AI新工具的採用,台積IT有一套控管做法,也需經過內部機密資料保護相關規範的審查後,才會使用。
台積IT打造AI服務常用四大類技術,包括語言類AI技術、視覺類AI技術、優化類AI技術和數值類AI技術。(圖片來源/台灣積體電路製造股份有限公司)
AI服務上線之後,台積IT也相當重視維運,從四個角度來維運,監控服務的健康度,例如偵測相關API的請求數據,定義臨界值,一旦超過就觸發警告,自動通知維運人員處理。其次也會即時監控流量的回應時間,來確保服務品質。在故障排除上,發生錯誤時有一套標準通報程序和作業流程,讓維運人員遵循SOP進行故障排除,找出根因,進行回報。還有一套自動化復原機制,來提供伺服器和資料的備援等。
從實戰歸納AI服務開發的四大挑戰
要打造一隻成功的AI服務,台積IT從實戰經驗中,歸納出四大挑戰,包括了問題界定挑戰,分段進行(Phasing)的挑戰、規劃的挑戰和導入挑戰。
台積AI從AI服務開發實戰中,歸納出這四大挑戰。(圖片來源/台灣積體電路製造股份有限公司)
在問題界定挑戰上,開發AI服務常見問題就是找到需要解決的問題,才知道需要什麼樣的解方。開發團隊透過PM與使用者大量溝通,建立對使用者的背景知識,了解他們的痛點,對使用者端的業務影響,像是資安考量等,也要考量使用者應用場域的資源和成本考量。
界定問題後,下一個挑戰是如何分階段實施,將一項大AI專案劃分出清楚的階段來管理複雜的任務。分階段執行專案時,還會定義明確的里程碑,作為查核開發團隊進度的里程碑。
常用的階段劃分方式有幾種,像是進行POC階段或MVP階段,也會從使用者、資料面或功能面來區分劃分階段。例如挑選不同的使用者族群分階段讓他們適用AI產品,或者從資料面來看,模型訓練先涵蓋7成的訓練資料,再逐漸導入更多資料來強化模型。也會按照功能來拆分執行階段,例如不是打造一隻做十件事的AI代理,而是區分不同面向的功能,逐漸提升AI代理的功能。還有一種劃分做法是依照不同的實體環境來上線,像是針對不同工廠分段導入。
在開發規畫挑戰上,台積IT採取敏捷開發,以兩周一個衝刺(Sprint)的方式來規畫,也會將任務拆解得更細,估算開發成本和代價。最後一項導入的挑戰,包括了風險評估,品質確保、版本控制,參考文件的課題。在風險評估上,需要符合台積內部資安規範或是應用場域的資料限制。也要確保AI功能的品質,像是準確度,以及不同功能或階段的一致性等。在AI服務的文件上,台積IT會明確落實建立完整的參考文件,像是包括使用者指南、SOP標準作業方式等,也為提供維運人員相對應的參考資料。
台積IT開發AI服務的六大流程,從專案發起,原型,驗證,模擬,產品開發到部署。(圖片來源/台灣積體電路製造股份有限公司)
為了因應這些挑戰,台積自己有一套嚴謹的AI服務開發流程,分為六個階段,先從專案發起階段開始,先要確定商業目標同時就要評估可能的成本。接著進入第二階段雛形開發階段(Prototype),進行可行性研究(Feasibility Study)、最小單位的AI元件或功能實作,再來進行第三階段的驗證,這也是測試執行(Trial Run)階段,像是打造最小可行性產品來驗證,或用已知案例來評估可行性。第二階段和第三階段就是一個POC概念驗證的過程。
通過概念驗證後,就進入第四階段,前測執行(Pilot Run)的模擬階段,這個階段跟測試執行最大不同是,會嘗試在類似正式上線的測試環境中模擬執行,也會用正式資料來驗證要前測的AI功能,甚至會找一些使用者來試用。開發團隊在第三、第四階段也會針對使用者的需求進行微調。
第五階段是Production階段,前後端團隊要完成這隻AI服務需要的各項開發工程和架構。最後一步,第六階段是部署,會整合所有的系統監控功能,包括異常偵測,都在部署階段整合到這隻AI服務中,來確保正式上線所有功能的正常運作。
為了打造AI服務,台積IT和使用者單位等不同角色展開來回多層次的團隊協作,(圖片來源/台灣積體電路製造股份有限公司)
在團隊協作分工流程上,第一步是先進行使用者需求文件製作,由PM先和使用者族群討論需求,也會和內部AI專家討論這些需求,由這些AI專家組成一個資料科學家團隊來參與概念驗證,利用最少的資源來測試一項技術、想法或解決方案的可行性。
接著展開開發程序後,開發團隊成員,如前後端工程師、UI/UX設計師、SRE人員都會參與,以產品化的角度來打造這一隻AI服務。然後就進入使用者測試階段(UAT),PM會帶著AI服務的雛形,找來熟悉使用端的領域專家試用,參考他們的回饋意見來微調。
使用者完整確認過系統功能符合需求後,才會進入正式上線階段(Production),這個階段同樣會由資料科學家來確認所打造的AI服務功能符合標準後,就可以宣布正式推出這項AI產品,SRE也會提出配套的服務可靠性機制、備援機制等,再提供給終端使用者運用。
台積對於AI服務的導入和協作,從角色分工到平臺資源的運用,有一套明確規畫、完整的執行流程,一方面鼓勵台積內部團隊的創新,另一方面也將更多業界AI技術落地到台積的環境中。
繼續看更多【台積電IT卓越新戰略】
【台積電IT卓越新戰略1】台積IT數位轉型下一步,四大原則加速邁向數位卓越
【台積電IT卓越新戰略2】台積IT怎麼用GenAI?生成式AI發展路線圖首度大公開
【台積電IT卓越新戰略3】全球擴廠三大難題,台積IT如何善用GenAI因應的關鍵(超長文)