AI & Big Data 前天 11:23
數據架構經歷兩次脫胎換骨,成為支持AI轉型的重要基礎建設
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

TVBS在数字化转型初期,面临着数据处理架构的挑战。为了提升数字渠道的广告营收,TVBS在五年内两次翻新数据处理架构。第一次翻新明确了数据处理流程和技术,分离了不同数字渠道的后端系统。第二次则进一步定义了数据存取权限和最佳实践,打造了数据平台,以API模式处理数据存取。通过采用Airbyte、Fivetran、BigQuery DTS等工具,TVBS实现了数据提取和加载的自动化,降低了数据处理成本,并提高了数据应用的灵活性。

⚙️TVBS在数字化转型过程中,通过两次架构翻新,从单一工作站到前后端分离,再到数据平台的构建,逐步解决了数据处理的瓶颈,并降低了63%的数据处理成本。

🛡️为了应对非技术人员对数据使用不当导致的问题,TVBS在第三代架构中加入了FinOps实践,设计了数据平台,通过API管理数据存取,加强了数据权限的控制。

🌐TVBS参考Data Mesh和Data Fabric概念,将数据管控责任分配给更靠近数据的运营端,同时中心化定义关键数据格式和处理流程,促进跨团队协作,并确保内部人员遵循最佳实践。

🛠️TVBS未来将整合数据处理工具和基础设施资源,实现技术“车同轨、书同文”,并将部署新系统环境的流程自动化,同时统一公司内部不同系统所采用的技术,以方便管理和深度整合工具应用流程。

數位轉型初期,TVBS目標是活化電視臺以外的數位通路經營,來提升這些通路的廣告營收。不過,旗下5大數位品牌,橫跨不同裝置共十幾種通路,全都共用同一個後端資料庫,每天要處理TB級數據,從排程、提取、載入、轉換等作業,都在同一臺共用工作站上執行。

先前介紹TVBS數位轉型歷程的文章中,我們也介紹過,這個架構與工作模式,如何使他們難以運用數據,或導入更多新技術。TVBS意識到,要數位轉型,數據處理架構必須先支援。不只得排除高築的技術債,更要根據應用目標,重新設計基礎架構。


TVBS歷代數據處理架構

自2019年起,TVBS歷經了兩次大型數據處理架構翻新。第一次翻新的關鍵在於,明確定義資料處理的流程及技術,並將不同數位通路的後端系統分離。第二次則是進一步定義資料存取的權限和最佳實踐方法,並且打造出數據平臺,以API模式處理資料存取。圖片來源/TVBS


五年內翻新兩次數據處理架構,並根據轉型目標改造數據處理流程

TVBS第一代數據基礎架構相當簡單,所有資料來源匯入單一工作站,初步處理後存入資料庫。資料庫的資料需要再次處理,則會拋回工作站上執行。對外數位通路及對內應用程式,都從這一個後端資料庫提取所需資料。

TVBS第一代數據處理架構圖。圖片來源/TVBS

2019年,TVBS展開第一次翻新時,首先將架構改為前後端分離,獨立出各品牌的後端系統。有別與過往在單一VM上執行的做法,新架構明確區分出每一個處理階段及執行環境,也多採用MDS(Modern Data Stack,現代數據架構)常見的SaaS工具。

第二代數據基礎架構強調應用數據的速度及彈性。TVBS希望新架構有能力隨時整合新技術。當品牌產品團隊需要對市場做出反應,打造新功能時,不會受到技術限制。

轉換到新架構後,TVBS每2至4週即會更新旗下不同數位通路的App,以更新底層開發框架及函式庫版本,或優化系統架構。更新周期最快兩周,最慢一個月。這些都是為了盡可能降低未來技術債累積的速度。

第二代架構的資料處理流程是,利用Airbyte、Fivetran、BigQuery DTS等數據提取和載入工具,將社群媒體、數位通路、應用程式商城等各種來源的數據,拋轉到BigQuery。轉換時,利用學習曲線較低的DBT(Data Build Tool),輸出到BI工具Looker Studio,供IT及非IT數據使用者存取和分析。

TVBS第二代數據處理架構圖。圖片來源/TVBS

這一系列數據流程,則是用Apache Airflow來排程、監控。這些工具與技術,大部分都用SQL為核心語言,來一定程度降低學習這些工具的門檻。

費時兩年翻新後,資料處理流程更加明確、單點故障風險減少。有明確定義流程和工具後,更降低IT部門交流技術及學習使用工具的門檻。不只如此,根據TVBS計算,新架構的數據處理成本較舊架構低上63%。

這個時期,為了提高數據應用彈性,快速迭代版本,他們還導入敏捷方法Scrum,在數位團隊內設置專職Scrum Master,以及導入DevOps做法,改善IT團隊的DORA績效指標。導入容器化技術,來強化CI/CD及自動化部署能力。

2024年,TVBS以第二代架構為基礎,開始打造升級版的第三代架構。

幾年數位轉型下來,內部資料使用頻率增加,且更多非技術人員開始進行資料操作。伴隨而來的需求是,更嚴謹的定義資料處理流程與權限。「過往做法,大家都是一家人,要我的資料,我開權限給你,你自己來我的資料庫撈。一旦工具變多、資料處理量更大,就不可行。」策略與新創事業部數位開發中心副總監陳宏益解釋。

舉例來說,「有次,BigQuery當月費用暴增三倍。一問才知道,有團隊為了新專案,不斷存取資料來研究,以及製作素材,但不知道自己的做法超花錢。」陳宏益苦笑道。

為了讓非技術人員根據需求使用資料處理工具時,能避免發生此類問題,TVBS在第三代架構中,加入更多有助於FinOps的做法,來節省營運所需數據處理支出。例如,他們設計了數據平臺,作為系統間的資料存取介面。任何系統,包括外部系統要存取TVBS資料時,只能透過數據平臺提供API來存取資料,以方便管理資料存取格式。

TVBS參考了Data Mesh(數據網格)與Data Fabric(數據經緯)的概念來設計新架構,前者做法是,適當將控管數據的責任指派給最靠近數據的營運端,支援不同數位通路品牌及行銷等團隊,依據時事和當下策略需求,靈活發展數位應用。

後者則是中心化的定義關鍵資料格式與處理流程,讓數據能輕易流通於不同團隊和部門,促成更多跨團隊的協作,同時,確保內部人員都能遵循最佳實踐方法。

陳宏益說,第三代數據處理架構的設計,一方面是為了支援更大量數據應用,尤其是支援非技術人員應用。另一方面,還要支援他們未來導入新技術。

TVBS第三代數據處理架構圖與部分數據處理流程說明,點擊可放大。圖片來源/TVBS

未來要整合數據處理工具及基礎設施資源

陳宏益說,規定資料處理規格和流程,是TVBS技術「車同軌、書同文」計畫的第一步。下一步他們要定義基礎設施的最佳實踐方法,讓工程師了解內部哪些基礎設施和工具可用,以及如何使用。

甚至,他們還要將部署新系統環境的流程自動化。陳宏益說明:「架設一個新網站,除了程式開發,還要建立資料庫、EKS等固定流程,應該標準化、自動化。」他說,這是基礎建設資源應用的平臺,當工程師有新基礎架構資源需求,只要透過預先定義的方式請求,由系統或專人批准之後,就可以自動化完成部署、開始使用。

TVBS還計畫將老舊系統翻新,統一公司內部不同系統所採用的技術。

舉例來說,有10年歷史TVBS新聞網站,累積不少技術債,且採用AWS CloudSearch,而非TVBS其他系統搭配的Elasticsearch,作為搜尋系統。因此,重構時,TVBS即會將底層搜尋技術統一,以方便管理,更有助於另一項重要技術計畫。

這項計畫是深度整合工具應用流程,這包括整合內部資料應用工具,以及第一線人員使用數據的流程。

陳宏益指出,讓AI可以有效率、可靠的存取不同工具,是現在的顯學。對TVBS來說,深度整合內部工具,如更加密切整合資料傳輸流程,也能讓既有AI工具,甚至未來導入的代理型AI工具,更容易存取不同工具,來順利達成複雜的任務。

目前他們的AI特攻隊正在開發一套應用,能讓使用者可以透過自然語言要求AI自動撈取所需資料,就受益於內部系統深度整合。

整合CDP、MA等Martech系統資料,以及其他各式資料來源及分析工具,陳宏益希望能讓第一線人員能更全面地瀏覽、分析、應用資料。「搜尋流量、探索流量、自然流量,還有各式各樣的資料,如果不一起看,不容易看出個所以然。」他說,「所以要整合不同來源的資料,更要讓第一線人員學習,如何看懂這些資料。」

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

数字化转型 数据架构 TVBS 数据平台 FinOps
相关文章