從2年多前，台積就開始積極擁抱GAI，今年更要加碼發展各式各樣的AI技術，不只原本的智慧製造，甚至是營運、全球擴廠，連台積IT自己都開發了不少AI代理應用來輔助。如何打造一支成功的AI或生成式AI服務？台積也在IT日中分享了自家打造AI產品的成功心法。

以終為始，先思考什麼才是一隻成功的AI產品

台積IT的開發策略是以終為始，先思考什麼是成功的AI產品，這是他們打造任何AI產品的設計起點，從四大面向來思考AI產品的成功條件，不只要評估成效，還會考慮使用體驗，使用者採用率，以及最後一項「擴充和適應力」。

台積希望成功AI產品可以達到的成效，像是可以對關鍵挑戰帶來突破性的功能，或是可以優化改善目標的正確性，或是可以超越統計與傳統ML做法的精確度。

而在使用者採用率提升上，則希望一隻AI服務可以運用到不同系統，能夠整合到多元化的場域或環境中，也能提供整合與串接做法，來提高採用率。甚至要提供使用者對新AI技術的運用能力，像是不只是與GenAI對話，還要能引導使用者運用提示指令。在使用者體驗考量上，台積IT希望AI服務的介面必須直觀，使用者可以輕鬆上手，甚至能支援個人化功能或提供自動化決策輔助，來提高操作的方便性。

最後一項成功條件是平臺角度的考慮，一隻成功的AI服務也要具備擴充與適應力，能夠適應不同專業領域（尤其是各種半導體製造場域）的需求，遇到爆量流量或用戶成長，也能維持穩定和擴充能力。

台積IT對成功AI服務的定義，從四大面向來思考。（圖片來源／台灣積體電路製造股份有限公司）

打造成功AI產品三大要素：商業目標、跨職能團隊、平臺

如何打造出這樣的成功AI產品有三個要素，第一是要定義出明確的商業目標，其次是善用不同職能的團隊，最後一項是平臺，從設計、開發、部署到維運，台積IT都提供了相對應的平臺來協助AI產品的開發。

進一步來說，商業目標又可細分成三類，一類是效率提升，像是工作流程改善、可以更自動化或更智慧化，減少重複性任務、降低人為操作成本、提升生產效率等。以產線瑕疵檢測工作來說，採用新技術後，台積IT會希望可以比傳統ML做法，進一步再減少60%到70%的人工檢測時間，來提高生產效率。

使用者體驗改善是另一類常見的商業目標，台積IT會發展一些AI驅動的工具，像是Chatbot、個人化推薦、預測分析等，像是打造一些專業知識的AI代理，當資淺使用者提問時，AI代理會連結到企業知識管理系統，就能獲得過去得靠大量人際溝通，才能獲得的背景知識。最後一類商業目標是創新，台積IT內部相當鼓勵用AI創新，可以借鏡學界、業界經驗，專研相關技術後，提出全新的AI功能，嘗試導入台積內部，來驗證這些應用的可行性。

有了明確產品目標後，台積開發一項AI產品所需的開發團隊，往往組合了多種角色，常見包括使用者族群、PM、資料科學家、UI/UX設計師、前端工程師、後端工程師和SRE工程師。

因為台積內部有很多不同的使用者族群，例如不同製造領域的專家，許多AI專案並非是通用型應用，而會涉及特定領域的專業知識，開發過程必須考量不同使用者族群來設計或者調整架構。PM需要經常與使用者溝通，負責收集這些產品的需求。資料科學家則會負責專研最新AI技術，提供AI解方，也可能參與部分開發的實作。

團隊中的UI/UX設計師則不只是考量傳統的網站使用者體驗設計，還要思考如何凸顯這項AI產品的AI能力，讓使用者更方便使用。前後端工程師是前後端AI功能的主要開發者，也要負責各項資源整合工作。SRE也是開發團隊中的重要角色，負責讓AI服務可以建立一個穩定且有延展性的架構。

台積IT不只開發AI代理，自己也用了不少AI代理，光是DevOps團隊就有源源不絕的AI代理開發需求，導入了不少AI助手和AI代理來協助開發工作。從日常工作的報告撰寫、翻譯、資料彙整等，甚至可以提供一個專業知識領域的AI代理來協助新人訓練，讓新人了解SOP、工作流程，解決問題等。也有輔助開發者的Copilot，來提升程式碼品質，統一風格的一致性、確保程式碼的安全性等。

整合AI技術和IT基礎架構，打造AI協作開發平臺

為了支援AI服務的開發，台積IT整合了AI技術和雲端基礎架構，打造了一個AI協作開發平臺，涵蓋了機器學習開發平臺、部署、評估和維運類機制等構成。

台積IT的AI開發平臺架構示意圖，包括機器學習開發平臺、維運類機制，評估類機制、部署類機制等。（圖片來源／台灣積體電路製造股份有限公司）

這個ML平臺上還可細分出四大類功能，包括ML開發功能，提供了資料通路、IDE開發環境、訓練服務和多種開發框架，也能提供一些自動化機制，像是資料收集機制、模型訓練流程等。另外還支援常見AI開發流程，如快速交付用的CI/CD流程、從模型開發、訓練到發布階段的MLOps開發流程。透過MLOps模型自動化訓練所迭代的不同版本和Finetune微調後的所有版本，都會保存下來。

部署機制主要提供模型Registry和多種K8s環境配置，也提供了維運用的完整監控功能，像是Log紀錄、錯誤偵測、診斷、告警機制等，甚至導入了AI診斷輔助功能，AI輔助問題除錯等。

在評估機制類，則提供了積分排行榜（LeaderBoard）和AI試驗場（Playground）。台積IT會搜集多種開源或開放的模型，自己執行各種評估來建立自己的模型積分排行榜。在開發AI產品過程中，若上線階段需要讓少數使用者先試用時，則會以最小AI元件或最小AI功能的方式，串接到AI試驗場（Playground）上讓使用者適用，類似POC驗證或MVP(最小可行性產品)試驗的做法。

台積IT會廣泛地使用不同AI技術，主要有四類常見的AI技術，第一類是語言類AI技術，包括了AI代理、RAG流程、Deep Research和知識圖譜技術（Knowledge Graph）。另外也使用了大量的視覺AI技術，包括了物件偵測、影像分割（Image segmentation），以及熱門的Diffusion Model與VLM（Vision Language Model）。第三類是優化類AI技術，像是聯邦式學習、蒙地卡羅方法、增強式學習（Reinforcement learning）、AutoML等。最後一類是傳統的數值AI技術，像是統計工具、ML回歸、時間序列分析、物理模型建模等技術。

台積IT慣用AI應用主流的開發語言，如Python、JavaScript、Go等，也用了不少AI開發工具。對于AI新工具的採用，台積IT有一套控管做法，也需經過內部機密資料保護相關規範的審查後，才會使用。

台積IT打造AI服務常用四大類技術，包括語言類AI技術、視覺類AI技術、優化類AI技術和數值類AI技術。（圖片來源／台灣積體電路製造股份有限公司）

AI服務上線之後，台積IT也相當重視維運，從四個角度來維運，監控服務的健康度，例如偵測相關API的請求數據，定義臨界值，一旦超過就觸發警告，自動通知維運人員處理。其次也會即時監控流量的回應時間，來確保服務品質。在故障排除上，發生錯誤時有一套標準通報程序和作業流程，讓維運人員遵循SOP進行故障排除，找出根因，進行回報。還有一套自動化復原機制，來提供伺服器和資料的備援等。

從實戰歸納AI服務開發的四大挑戰

要打造一隻成功的AI服務，台積IT從實戰經驗中，歸納出四大挑戰，包括了問題界定挑戰，分段進行（Phasing）的挑戰、規劃的挑戰和導入挑戰。

台積AI從AI服務開發實戰中，歸納出這四大挑戰。（圖片來源／台灣積體電路製造股份有限公司）

在問題界定挑戰上，開發AI服務常見問題就是找到需要解決的問題，才知道需要什麼樣的解方。開發團隊透過PM與使用者大量溝通，建立對使用者的背景知識，了解他們的痛點，對使用者端的業務影響，像是資安考量等，也要考量使用者應用場域的資源和成本考量。

界定問題後，下一個挑戰是如何分階段實施，將一項大AI專案劃分出清楚的階段來管理複雜的任務。分階段執行專案時，還會定義明確的里程碑，作為查核開發團隊進度的里程碑。

常用的階段劃分方式有幾種，像是進行POC階段或MVP階段，也會從使用者、資料面或功能面來區分劃分階段。例如挑選不同的使用者族群分階段讓他們適用AI產品，或者從資料面來看，模型訓練先涵蓋7成的訓練資料，再逐漸導入更多資料來強化模型。也會按照功能來拆分執行階段，例如不是打造一隻做十件事的AI代理，而是區分不同面向的功能，逐漸提升AI代理的功能。還有一種劃分做法是依照不同的實體環境來上線，像是針對不同工廠分段導入。

在開發規畫挑戰上，台積IT採取敏捷開發，以兩周一個衝刺（Sprint）的方式來規畫，也會將任務拆解得更細，估算開發成本和代價。最後一項導入的挑戰，包括了風險評估，品質確保、版本控制，參考文件的課題。在風險評估上，需要符合台積內部資安規範或是應用場域的資料限制。也要確保AI功能的品質，像是準確度，以及不同功能或階段的一致性等。在AI服務的文件上，台積IT會明確落實建立完整的參考文件，像是包括使用者指南、SOP標準作業方式等，也為提供維運人員相對應的參考資料。

台積IT開發AI服務的六大流程，從專案發起，原型，驗證，模擬，產品開發到部署。（圖片來源／台灣積體電路製造股份有限公司）

為了因應這些挑戰，台積自己有一套嚴謹的AI服務開發流程，分為六個階段，先從專案發起階段開始，先要確定商業目標同時就要評估可能的成本。接著進入第二階段雛形開發階段（Prototype），進行可行性研究（Feasibility Study）、最小單位的AI元件或功能實作，再來進行第三階段的驗證，這也是測試執行（Trial Run）階段，像是打造最小可行性產品來驗證，或用已知案例來評估可行性。第二階段和第三階段就是一個POC概念驗證的過程。

通過概念驗證後，就進入第四階段，前測執行（Pilot Run）的模擬階段，這個階段跟測試執行最大不同是，會嘗試在類似正式上線的測試環境中模擬執行，也會用正式資料來驗證要前測的AI功能，甚至會找一些使用者來試用。開發團隊在第三、第四階段也會針對使用者的需求進行微調。

第五階段是Production階段，前後端團隊要完成這隻AI服務需要的各項開發工程和架構。最後一步，第六階段是部署，會整合所有的系統監控功能，包括異常偵測，都在部署階段整合到這隻AI服務中，來確保正式上線所有功能的正常運作。

為了打造AI服務，台積IT和使用者單位等不同角色展開來回多層次的團隊協作，（圖片來源／台灣積體電路製造股份有限公司）

在團隊協作分工流程上，第一步是先進行使用者需求文件製作，由PM先和使用者族群討論需求，也會和內部AI專家討論這些需求，由這些AI專家組成一個資料科學家團隊來參與概念驗證，利用最少的資源來測試一項技術、想法或解決方案的可行性。

接著展開開發程序後，開發團隊成員，如前後端工程師、UI/UX設計師、SRE人員都會參與，以產品化的角度來打造這一隻AI服務。然後就進入使用者測試階段（UAT），PM會帶著AI服務的雛形，找來熟悉使用端的領域專家試用，參考他們的回饋意見來微調。

使用者完整確認過系統功能符合需求後，才會進入正式上線階段（Production），這個階段同樣會由資料科學家來確認所打造的AI服務功能符合標準後，就可以宣布正式推出這項AI產品，SRE也會提出配套的服務可靠性機制、備援機制等，再提供給終端使用者運用。

台積對於AI服務的導入和協作，從角色分工到平臺資源的運用，有一套明確規畫、完整的執行流程，一方面鼓勵台積內部團隊的創新，另一方面也將更多業界AI技術落地到台積的環境中。

繼續看更多【台積電IT卓越新戰略】

【台積電IT卓越新戰略1】台積IT數位轉型下一步，四大原則加速邁向數位卓越

【台積電IT卓越新戰略2】台積IT怎麼用GenAI?生成式AI發展路線圖首度大公開

【台積電IT卓越新戰略3】全球擴廠三大難題，台積IT如何善用GenAI因應的關鍵（超長文)

【台積電IT卓越新戰略4】台積IT打造成功AI服務的實戰心法，從流程、平臺到協作模式大公開

【台積電IT卓越新戰略5】台積IT組織5年三次大調整，要靠平臺工程讓DevOps創新再加速

以終為始，先思考什麼才是一隻成功的AI產品

打造成功AI產品三大要素：商業目標、跨職能團隊、平臺

整合AI技術和IT基礎架構，打造AI協作開發平臺

從實戰歸納AI服務開發的四大挑戰

繼續看更多【台積電IT卓越新戰略】

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签