36氪 - 科技频道 22小时前
Bill Inmon:为什么你的数据湖需要的是 BLM,而不是 LLM
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

文章指出,85%的大数据项目失败,原因在于通用大语言模型(如ChatGPT)无法有效处理企业结构化数据需求,且成本高昂、易产生幻觉。作者提出,行业特定的商业语言模型(BLM)通过聚焦行业词汇和通用商业词汇,能提供更精确、高效的解决方案。BLM通过理解术语间关系,实现情境智能,大幅提升数据分析效率。文章强调,现成的BLM已覆盖大部分行业,只需极少定制,能将非结构化数据转化为可查询的结构化数据,赋能企业将数据资产转化为竞争优势。

🎯 通用大语言模型(LLM)的局限性:文章引用“数据仓库之父”Bill Inmon的观点,指出将ChatGPT等通用LLM应用于数据湖会将其变成“污水池”,因为它们生成的是文本而非企业所需的结构化数据(如情绪评分、分类、趋势指标)。LLM的知识库庞杂,95%的内容可能与企业无关,导致成本浪费且难以支撑关键任务决策,同时其“幻觉”现象降低了可靠性。

💡 商业语言模型(BLM)的优势:BLM采用“外科手术式”的精确方法,包含行业特定词汇(ISV)和通用商业词汇(GBV),专注于特定领域。这种模式符合Gartner关于企业转向特定领域语言模型的预测。BLM不仅能识别术语,更能理解术语间的关系,实现“情境智能”,例如将“发薪日贷款”与“信用卡功能”关联,从而提高数据分析的准确性和效率,如麦肯锡报告指出可减少40%的呼叫处理时间和提高50%的转化率。

🚀 BLM的实际应用与效益:文章列举了银行业和餐饮业的BLM示例,强调了行业词汇的独立性。通过BLM,企业可以将非结构化文本转换为结构化可查询数据,并利用Tableau、Excel、知识图谱等现有工具进行分析和可视化。在医疗、金融、保险、法律、制造等行业,BLM已展现出显著成效,如FitBit通过分析推文识别产品痛点。

🛠️ BLM的易用性与实施路径:文章指出,构建BLM面临语言和技术上的69个复杂因素,但现成的、预先构建的BLM已覆盖约90%的业务类型,企业只需进行少于1%的总词汇量定制。实施步骤包括评估现有方法、确定行业词汇需求、评估预构建BLM选项、规划定制以及利用现有分析工具。

当你尝试使用文本生成 AI 解决结构化数据问题时,你投资的数据湖就变成了‘污水池’   ”  ——  Bill Inmon 

根据 Gartner 的研究, 85% 的大数据项目都失败了。2023 年,规模达 152 亿美元的数据湖市场 增长了 20% 以上,但大多数企业却无法从文本数据中提取价值。 

“数据仓库 之 父” Bill Inmon 将这些失败的实施称为 “污水池”“数据沼泽”。 这就是为什么你现在的方法不起作用的原因。那么,什么才是有效的呢? 

大语言模型的陷阱正在耗尽预算 

供应商一直在推销同样不完善的解决方案:“只需将 ChatGPT 添加到您的数据湖中!” 

这个建议会让你付出高昂的代价。 

ChatGPT 每天要花费 70 万美元 才能维持运营。对于中型应用程序,企业实施 每月的运行成本为 3,000 至 15,000 美元 。对于处理 10 万次以上查询的组织来说,仅 API 成本 每月就高达 3,000 至 7,000 美元。 

这还不包括基础设施开销。 

但成本并不是真正的问题,根本问题更为严重。 

ChatGPT 生成的是文本,而不是 结构化 数据 

当您分析 10,000 张客户支持票时,您不希望 ChatGPT 撰写有关客户感受的文章。 

您需要结构化数据。 

情绪评分 、 分类问题 、 趋势指标 、 可操作的洞察,填充仪表板并推动决策。 

ChatGPT 会给你更多文本阅读。这与你的需要恰恰相反。 

95%的浪费问题 

以下是 Inmon 的杀手级见解: ChatGPT 的知识中只有 5% 与您的特定业务相关。 

大型语言模型涵盖了世间万物。军事地图、名人趣闻、体育统计数据、流行文化参考。您的银行业务不需要了解达拉斯牛仔队的统计数据。 

但你却要为这一切付出代价。 

对于关键任务决策来说不可靠 

ChatGPT 会产生幻觉。它会生成看似合理但实际上完全错误的信息。 

87% 的数据科学项目从未投入生产。 不可靠的人工智能使这一问题更加严重。 

在企业环境中,可靠性每次都胜过创造力。 

企业人工智能军备竞赛无人获胜 

Inmon 称之为 “巨大的宇宙笑话”。 

美国银行、花旗集团、富国银行、摩根大通等主要银行都投入了数百万美元来打造基本相同的 大型语言模型 。 

保险公司、医疗保健机构、制造公司也都这么做。 

每个人都在构建庞大的通用模型,但实际上他们只需要其中的一小部分功能。 

2024 年,人工智能市场规模达到 2350 亿美元 ,到 2028 年将超过 6310 亿美元。 然而, 70% 的组织仍在进行试验, 而不是部署可用于生产的解决方案。 

与此同时, 54% 的组织在基本数据移动方面遇到困难 ——这是任何人工智能项目的基础要求。 

这就像购买一把带有 500 种工具的瑞士军刀,而您只需要一把螺丝刀。 

BLM 商业语言模型:外科手术解决方案 

商业语言模型 (BLM) 不是采用通用的万能模型,而是采用精确的方法。 

它们恰好包含两个组件: 

行业特定词汇 (ISV) :您所在行业独有的术语

通用商业词汇(GBV) :通用商业语言

这种有针对性的方法与 Gartner 的预测 相一致,即企业将转向 特定领域的语言模型和可以微调的更轻量级模型。 

微软最近推出了 针对特定行业的定制化人工智能模型。他们正在与拜耳在农业领域合作,与 Cerence 在汽车领域合作,与罗克韦尔自动化在制造业合作。 

市场认识到行业特定的人工智能能够带来真正的价值。 

现实世界的 BLM 示例 

银行业 BLM 包括: 

贷款、信用卡、储蓄账户

外汇兑换、出纳、支票

法案合规、付款保证金

存折条目、付款到期日

餐饮业 BLM 包括: 

服务模式、菜系(墨西哥菜、中国菜、意大利菜)

餐具、烹饪方法、菜单规划

高级餐厅、牛排馆、快餐类别

厨房运营、服务员管理

关键的见解是: 这些词汇并不重叠。 

银行术语从来不会出现在餐馆的语境中。 餐馆术语从来不会出现在银行的语境中。 

这种分离可以实现激光聚焦的准确性和效率。 

真正有效的情境智能 

BLM 不仅能识别术语,还能理解关系: 

法律 → 认定为立法

发薪日贷款 →与信用卡功能挂钩

付款银行 →归类为银行机构

APR(年利率)  →连接到利率规范

AFN  → 被认定为阿富汗货币

这种情境理解确实能带来成效。麦肯锡报告称,如果高级文本分析部署得当, 呼叫处理时间 可减少40%,转化率可提高50% 。 

普通的 LLM 无法达到这种精度。 

你不想构建 BLM 的 69 个复杂因素 

想要创建自己的 BLM 吗?不。 

Inmon 的团队确定了 69 个必须解决的复杂因素 。以下是一些需要解决的问题: 

语言挑战

邻近分辨率 :“达拉斯牛仔队” vs. “达拉斯” vs. “牛仔队” 

地区拼写 :“colour”(英国)与“color”(美国) 

否定处理 :正确解释“不”、“从不”、“无” 

技术障碍

同形异义词解析 :“HA”可能表示心脏病发作、头痛或甲型肝炎 

词干提取 :识别“moving”与“move”相关 

多语言支持 :西班牙语、德语、法语、俄语、普通话

姓名识别 :识别“Mary Levens”这个人 

情境智能

火灾 可能意味着建筑物紧急状况、武器发射或终止雇佣关系 

每个上下文都需要不同的处理并产生不同的分析输出。 

大多数组织都低估了这种复杂性。 

从沼泽回到湖泊:转变 

如果正确实施,BLM 会将非结构化文本转换为结构化的可查询数据。 

这项功能解决了一个重大问题。 每天会产生 3.28 亿 TB 的数据。2025 年,每年将产生超过 181 ZB 的数据。 

80% 到 90% 的商业数据都是非结构化的。 然而,根据德勤的研究, 只有 18% 的公司利用非结构化数据。 

BLM 使组织能够应用熟悉的分析工具: 

Tableau 用于可视化 

Excel 分析 

用于关系映射的 知识图谱 

自定义仪表板 ,提供实时洞察 

行业应用取得成果 

医疗保健 :医疗记录和药物试验分析。 

财务 :客户情绪和合同评估。FitBit 在六个月内分析了 33,000 条推文, 以自动识别产品痛点。 

保险 :保修索赔和风险评估与精确匹配。 

法律 :合同分析和合规性监控。 文本挖掘可识别案例先例 并撰写有影响力的法律论据。 

制造业 :用于预测见解的质量报告和维护日志。 

模式很明显: 大多数组织缺乏资源或工具来解析 企业规模的非结构化数据。BLM 系统地解决了这个问题。 

预先构建的优势改变一切  

这些特定于行业的 BLM 已经存在。 

据 Inmon 称,预先构建的模型涵盖了大约 90% 的所有业务类型: 

保险、银行、建筑 

房地产、制药、航空 

零售、酒店、石油和天然气 

餐厅等等 

只需极少的定制 

虽然 BLM 涵盖了绝大多数行业术语,但每个组织都有独特的术语。 

定制很简单,通常占总词汇量的不到 1%。 无需从头开始建造。 

需要采取行动的数字 

85% 的大数据项目失败。87 % 的数据科学项目从未投入生产。70 % 的组织仍在试验人工智能。 同时 2024年企业管理的非结构化数据将翻一番。 

数据生成和数据利用之间的差距日益扩大。 

商业语言模型代表着一种范式转变 :从昂贵的通用人工智能到精确的、以行业为中心的、可立即获得投资回报的人工智能。 

与 ChatGPT 每天 70 万美元的运营成本 不同,BLM 提供具有成本效益、有针对性且可有效扩展的解决方案。 

实施路线图 

前进的道路比大多数人意识到的要清晰得多: 

1. 评估您当前的文本分析方法。54  %的 组织在数据迁移方面举步维艰85% 的大数据项目以失败告终 ,因此了解您当前的状况至关重要。 

2. 确定您的行业特定词汇需求 请记住, 80-90%的业务数据是非结构化的只有18%的公司利用它 。 

3. 评估适合您行业的预先构建的 BLM 选项, 而不是通过通用解决方案加入 价值 2350 亿美元的 AI 市场。 

4. 计划最低限度的定制要求, 通常少于总词汇量的 1%。 

5. 利用现有的分析工具来实施, 充分利用您当前的基础设施投资。 

实施策略 

问题不在于您的组织是否需要更好的文本分析。 

随着 非结构化数据在 2024 年翻一番 ,且 70% 的组织仍在试验人工智能 ,紧迫性显而易见。 

真正的问题是:你会选择高效、有针对性的商业语言模型吗?还是继续纠结于那些消耗资源、却提供极少价值的通用解决方案? 

您的数据湖不必一直是一片沼泽。 

如今,将人工智能重新转化为战略资产的工具已经面世。随着人工智能市场规模到2028年将增长至6310亿美元,商业语言模型就是您 将数据 负债 转化为竞争优势所需要的。 

 

本文来自微信公众号 “数据驱动智能”(ID:Data_0101),作者:晓晓,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

商业语言模型 大语言模型 数据分析
相关文章