Bill Inmon：为什么你的数据湖需要的是 BLM，而不是 LLM

当你尝试使用文本生成 AI 解决结构化数据问题时，你投资的数据湖就变成了‘污水池’ 。 ” —— Bill Inmon

根据 Gartner 的研究， 85% 的大数据项目都失败了。2023 年，规模达 152 亿美元的数据湖市场 增长了 20% 以上，但大多数企业却无法从文本数据中提取价值。

“数据仓库之父” Bill Inmon 将这些失败的实施称为 “污水池” 和 “数据沼泽”。 这就是为什么你现在的方法不起作用的原因。那么，什么才是有效的呢？

大语言模型的陷阱正在耗尽预算

供应商一直在推销同样不完善的解决方案：“只需将 ChatGPT 添加到您的数据湖中！”

这个建议会让你付出高昂的代价。

ChatGPT 每天要花费 70 万美元 才能维持运营。对于中型应用程序，企业实施 每月的运行成本为 3,000 至 15,000 美元 。对于处理 10 万次以上查询的组织来说，仅 API 成本 每月就高达 3,000 至 7,000 美元。

这还不包括基础设施开销。

但成本并不是真正的问题，根本问题更为严重。

ChatGPT 生成的是文本，而不是 结构化 数据

当您分析 10,000 张客户支持票时，您不希望 ChatGPT 撰写有关客户感受的文章。

您需要结构化数据。

情绪评分、分类问题、趋势指标、可操作的洞察，填充仪表板并推动决策。

ChatGPT 会给你更多文本阅读。这与你的需要恰恰相反。

95%的浪费问题

以下是 Inmon 的杀手级见解： ChatGPT 的知识中只有 5% 与您的特定业务相关。

大型语言模型涵盖了世间万物。军事地图、名人趣闻、体育统计数据、流行文化参考。您的银行业务不需要了解达拉斯牛仔队的统计数据。

但你却要为这一切付出代价。

对于关键任务决策来说不可靠

ChatGPT 会产生幻觉。它会生成看似合理但实际上完全错误的信息。

87% 的数据科学项目从未投入生产。 不可靠的人工智能使这一问题更加严重。

在企业环境中，可靠性每次都胜过创造力。

企业人工智能军备竞赛无人获胜

Inmon 称之为 “巨大的宇宙笑话”。

美国银行、花旗集团、富国银行、摩根大通等主要银行都投入了数百万美元来打造基本相同的大型语言模型。

保险公司、医疗保健机构、制造公司也都这么做。

每个人都在构建庞大的通用模型，但实际上他们只需要其中的一小部分功能。

2024 年，人工智能市场规模达到 2350 亿美元 ，到 2028 年将超过 6310 亿美元。 然而， 70% 的组织仍在进行试验， 而不是部署可用于生产的解决方案。

与此同时， 54% 的组织在基本数据移动方面遇到困难 ——这是任何人工智能项目的基础要求。

这就像购买一把带有 500 种工具的瑞士军刀，而您只需要一把螺丝刀。

BLM 商业语言模型：外科手术解决方案

商业语言模型 (BLM) 不是采用通用的万能模型，而是采用精确的方法。

它们恰好包含两个组件：

行业特定词汇 (ISV) ：您所在行业独有的术语

通用商业词汇（GBV） ：通用商业语言

这种有针对性的方法与 Gartner 的预测 相一致，即企业将转向 特定领域的语言模型和可以微调的更轻量级模型。

微软最近推出了 针对特定行业的定制化人工智能模型。他们正在与拜耳在农业领域合作，与 Cerence 在汽车领域合作，与罗克韦尔自动化在制造业合作。

市场认识到行业特定的人工智能能够带来真正的价值。

现实世界的 BLM 示例

银行业 BLM 包括：

贷款、信用卡、储蓄账户

外汇兑换、出纳、支票

法案合规、付款保证金

存折条目、付款到期日

餐饮业 BLM 包括：

服务模式、菜系（墨西哥菜、中国菜、意大利菜）

餐具、烹饪方法、菜单规划

高级餐厅、牛排馆、快餐类别

厨房运营、服务员管理

关键的见解是： 这些词汇并不重叠。

银行术语从来不会出现在餐馆的语境中。餐馆术语从来不会出现在银行的语境中。

这种分离可以实现激光聚焦的准确性和效率。

真正有效的情境智能

BLM 不仅能识别术语，还能理解关系：

法律法规 → 认定为立法

发薪日贷款 →与信用卡功能挂钩

付款银行 →归类为银行机构

APR（年利率） →连接到利率规范

AFN → 被认定为阿富汗货币

这种情境理解确实能带来成效。麦肯锡报告称，如果高级文本分析部署得当， 呼叫处理时间 可减少40%，转化率可提高50% 。

普通的 LLM 无法达到这种精度。

你不想构建 BLM 的 69 个复杂因素

想要创建自己的 BLM 吗？不。

Inmon 的团队确定了 69 个必须解决的复杂因素 。以下是一些需要解决的问题：

语言挑战

邻近分辨率 ：“达拉斯牛仔队” vs. “达拉斯” vs. “牛仔队”

地区拼写 ：“colour”（英国）与“color”（美国）

否定处理 ：正确解释“不”、“从不”、“无”

技术障碍

同形异义词解析 ：“HA”可能表示心脏病发作、头痛或甲型肝炎

词干提取 ：识别“moving”与“move”相关

多语言支持 ：西班牙语、德语、法语、俄语、普通话

姓名识别 ：识别“Mary Levens”这个人

情境智能

火灾可能意味着建筑物紧急状况、武器发射或终止雇佣关系

每个上下文都需要不同的处理并产生不同的分析输出。

大多数组织都低估了这种复杂性。

从沼泽回到湖泊：转变

如果正确实施，BLM 会将非结构化文本转换为结构化的可查询数据。

这项功能解决了一个重大问题。 每天会产生 3.28 亿 TB 的数据。2025 年，每年将产生超过 181 ZB 的数据。

80% 到 90% 的商业数据都是非结构化的。 然而，根据德勤的研究， 只有 18% 的公司利用非结构化数据。

BLM 使组织能够应用熟悉的分析工具：

Tableau 用于可视化

Excel 分析

用于关系映射的 知识图谱

自定义仪表板 ，提供实时洞察

行业应用取得成果

医疗保健 ：医疗记录和药物试验分析。

财务：客户情绪和合同评估。FitBit 在六个月内分析了 33,000 条推文， 以自动识别产品痛点。

保险：保修索赔和风险评估与精确匹配。

法律：合同分析和合规性监控。 文本挖掘可识别案例先例 并撰写有影响力的法律论据。

制造业 ：用于预测见解的质量报告和维护日志。

模式很明显： 大多数组织缺乏资源或工具来解析 企业规模的非结构化数据。BLM 系统地解决了这个问题。

预先构建的优势改变一切 ！

这些特定于行业的 BLM 已经存在。

据 Inmon 称，预先构建的模型涵盖了大约 90% 的所有业务类型：

保险、银行、建筑

房地产、制药、航空

零售、酒店、石油和天然气

餐厅等等

只需极少的定制

虽然 BLM 涵盖了绝大多数行业术语，但每个组织都有独特的术语。

定制很简单，通常占总词汇量的不到 1%。 无需从头开始建造。

需要采取行动的数字

85% 的大数据项目失败。87 % 的数据科学项目从未投入生产。70 % 的组织仍在试验人工智能。 同时 2024年企业管理的非结构化数据将翻一番。

数据生成和数据利用之间的差距日益扩大。

商业语言模型代表着一种范式转变 ：从昂贵的通用人工智能到精确的、以行业为中心的、可立即获得投资回报的人工智能。

与 ChatGPT 每天 70 万美元的运营成本 不同，BLM 提供具有成本效益、有针对性且可有效扩展的解决方案。

实施路线图

前进的道路比大多数人意识到的要清晰得多：

1. 评估您当前的文本分析方法。54 %的 组织在数据迁移方面举步维艰 ， 85% 的大数据项目以失败告终 ，因此了解您当前的状况至关重要。

2. 确定您的行业特定词汇需求 请记住， 80-90％的业务数据是非结构化的 ， 只有18％的公司利用它 。

3. 评估适合您行业的预先构建的 BLM 选项， 而不是通过通用解决方案加入 价值 2350 亿美元的 AI 市场。

4. 计划最低限度的定制要求， 通常少于总词汇量的 1%。

5. 利用现有的分析工具来实施， 充分利用您当前的基础设施投资。

实施策略

问题不在于您的组织是否需要更好的文本分析。

随着 非结构化数据在 2024 年翻一番 ，且 70% 的组织仍在试验人工智能 ，紧迫性显而易见。

真正的问题是：你会选择高效、有针对性的商业语言模型吗？还是继续纠结于那些消耗资源、却提供极少价值的通用解决方案？

您的数据湖不必一直是一片沼泽。

如今，将人工智能重新转化为战略资产的工具已经面世。随着人工智能市场规模到2028年将增长至6310亿美元，商业语言模型就是您 将数据负债转化为竞争优势所需要的。

本文来自微信公众号 “数据驱动智能”（ID：Data_0101），作者：晓晓，36氪经授权发布。