当你尝试使用文本生成 AI 解决结构化数据问题时,你投资的数据湖就变成了‘污水池’ 。 ” —— Bill Inmon
根据 Gartner 的研究, 85% 的大数据项目都失败了。2023 年,规模达 152 亿美元的数据湖市场 增长了 20% 以上,但大多数企业却无法从文本数据中提取价值。
“数据仓库 之 父” Bill Inmon 将这些失败的实施称为 “污水池” 和 “数据沼泽”。 这就是为什么你现在的方法不起作用的原因。那么,什么才是有效的呢?
大语言模型的陷阱正在耗尽预算
供应商一直在推销同样不完善的解决方案:“只需将 ChatGPT 添加到您的数据湖中!”
这个建议会让你付出高昂的代价。
ChatGPT 每天要花费 70 万美元 才能维持运营。对于中型应用程序,企业实施 每月的运行成本为 3,000 至 15,000 美元 。对于处理 10 万次以上查询的组织来说,仅 API 成本 每月就高达 3,000 至 7,000 美元。
这还不包括基础设施开销。
但成本并不是真正的问题,根本问题更为严重。
ChatGPT 生成的是文本,而不是 结构化 数据
当您分析 10,000 张客户支持票时,您不希望 ChatGPT 撰写有关客户感受的文章。
您需要结构化数据。
情绪评分 、 分类问题 、 趋势指标 、 可操作的洞察,填充仪表板并推动决策。
ChatGPT 会给你更多文本阅读。这与你的需要恰恰相反。
95%的浪费问题
以下是 Inmon 的杀手级见解: ChatGPT 的知识中只有 5% 与您的特定业务相关。
大型语言模型涵盖了世间万物。军事地图、名人趣闻、体育统计数据、流行文化参考。您的银行业务不需要了解达拉斯牛仔队的统计数据。
但你却要为这一切付出代价。
对于关键任务决策来说不可靠
ChatGPT 会产生幻觉。它会生成看似合理但实际上完全错误的信息。
87% 的数据科学项目从未投入生产。 不可靠的人工智能使这一问题更加严重。
在企业环境中,可靠性每次都胜过创造力。
企业人工智能军备竞赛无人获胜
Inmon 称之为 “巨大的宇宙笑话”。
美国银行、花旗集团、富国银行、摩根大通等主要银行都投入了数百万美元来打造基本相同的 大型语言模型 。
保险公司、医疗保健机构、制造公司也都这么做。
每个人都在构建庞大的通用模型,但实际上他们只需要其中的一小部分功能。
2024 年,人工智能市场规模达到 2350 亿美元 ,到 2028 年将超过 6310 亿美元。 然而, 70% 的组织仍在进行试验, 而不是部署可用于生产的解决方案。
与此同时, 54% 的组织在基本数据移动方面遇到困难 ——这是任何人工智能项目的基础要求。
这就像购买一把带有 500 种工具的瑞士军刀,而您只需要一把螺丝刀。
BLM 商业语言模型:外科手术解决方案
商业语言模型 (BLM) 不是采用通用的万能模型,而是采用精确的方法。
它们恰好包含两个组件:
行业特定词汇 (ISV) :您所在行业独有的术语
通用商业词汇(GBV) :通用商业语言
这种有针对性的方法与 Gartner 的预测 相一致,即企业将转向 特定领域的语言模型和可以微调的更轻量级模型。
微软最近推出了 针对特定行业的定制化人工智能模型。他们正在与拜耳在农业领域合作,与 Cerence 在汽车领域合作,与罗克韦尔自动化在制造业合作。
市场认识到行业特定的人工智能能够带来真正的价值。
现实世界的 BLM 示例
银行业 BLM 包括:
贷款、信用卡、储蓄账户
外汇兑换、出纳、支票
法案合规、付款保证金
存折条目、付款到期日
餐饮业 BLM 包括:
服务模式、菜系(墨西哥菜、中国菜、意大利菜)
餐具、烹饪方法、菜单规划
高级餐厅、牛排馆、快餐类别
厨房运营、服务员管理
关键的见解是: 这些词汇并不重叠。
银行术语从来不会出现在餐馆的语境中。 餐馆术语从来不会出现在银行的语境中。
这种分离可以实现激光聚焦的准确性和效率。
真正有效的情境智能
BLM 不仅能识别术语,还能理解关系:
法律 法 规 → 认定为立法
发薪日贷款 →与信用卡功能挂钩
付款银行 →归类为银行机构
APR(年利率) →连接到利率规范
AFN → 被认定为阿富汗货币
这种情境理解确实能带来成效。麦肯锡报告称,如果高级文本分析部署得当, 呼叫处理时间 可减少40%,转化率可提高50% 。
普通的 LLM 无法达到这种精度。
你不想构建 BLM 的 69 个复杂因素
想要创建自己的 BLM 吗?不。
Inmon 的团队确定了 69 个必须解决的复杂因素 。以下是一些需要解决的问题:
语言挑战
邻近分辨率 :“达拉斯牛仔队” vs. “达拉斯” vs. “牛仔队”
地区拼写 :“colour”(英国)与“color”(美国)
否定处理 :正确解释“不”、“从不”、“无”
技术障碍
同形异义词解析 :“HA”可能表示心脏病发作、头痛或甲型肝炎
词干提取 :识别“moving”与“move”相关
多语言支持 :西班牙语、德语、法语、俄语、普通话
姓名识别 :识别“Mary Levens”这个人
情境智能
火灾 可能意味着建筑物紧急状况、武器发射或终止雇佣关系
每个上下文都需要不同的处理并产生不同的分析输出。
大多数组织都低估了这种复杂性。
从沼泽回到湖泊:转变
如果正确实施,BLM 会将非结构化文本转换为结构化的可查询数据。
这项功能解决了一个重大问题。 每天会产生 3.28 亿 TB 的数据。2025 年,每年将产生超过 181 ZB 的数据。
80% 到 90% 的商业数据都是非结构化的。 然而,根据德勤的研究, 只有 18% 的公司利用非结构化数据。
BLM 使组织能够应用熟悉的分析工具:
Tableau 用于可视化
Excel 分析
用于关系映射的 知识图谱
自定义仪表板 ,提供实时洞察
行业应用取得成果
医疗保健 :医疗记录和药物试验分析。
财务 :客户情绪和合同评估。FitBit 在六个月内分析了 33,000 条推文, 以自动识别产品痛点。
保险 :保修索赔和风险评估与精确匹配。
法律 :合同分析和合规性监控。 文本挖掘可识别案例先例 并撰写有影响力的法律论据。
制造业 :用于预测见解的质量报告和维护日志。
模式很明显: 大多数组织缺乏资源或工具来解析 企业规模的非结构化数据。BLM 系统地解决了这个问题。
预先构建的优势改变一切 !
这些特定于行业的 BLM 已经存在。
据 Inmon 称,预先构建的模型涵盖了大约 90% 的所有业务类型:
保险、银行、建筑
房地产、制药、航空
零售、酒店、石油和天然气
餐厅等等
只需极少的定制
虽然 BLM 涵盖了绝大多数行业术语,但每个组织都有独特的术语。
定制很简单,通常占总词汇量的不到 1%。 无需从头开始建造。
需要采取行动的数字
85% 的大数据项目失败。87 % 的数据科学项目从未投入生产。70 % 的组织仍在试验人工智能。 同时 2024年企业管理的非结构化数据将翻一番。
数据生成和数据利用之间的差距日益扩大。
商业语言模型代表着一种范式转变 :从昂贵的通用人工智能到精确的、以行业为中心的、可立即获得投资回报的人工智能。
与 ChatGPT 每天 70 万美元的运营成本 不同,BLM 提供具有成本效益、有针对性且可有效扩展的解决方案。
实施路线图
前进的道路比大多数人意识到的要清晰得多:
1. 评估您当前的文本分析方法。54 %的 组织在数据迁移方面举步维艰 , 85% 的大数据项目以失败告终 ,因此了解您当前的状况至关重要。
2. 确定您的行业特定词汇需求 请记住, 80-90%的业务数据是非结构化的 , 只有18%的公司利用它 。
3. 评估适合您行业的预先构建的 BLM 选项, 而不是通过通用解决方案加入 价值 2350 亿美元的 AI 市场。
4. 计划最低限度的定制要求, 通常少于总词汇量的 1%。
5. 利用现有的分析工具来实施, 充分利用您当前的基础设施投资。
实施策略
问题不在于您的组织是否需要更好的文本分析。
随着 非结构化数据在 2024 年翻一番 ,且 70% 的组织仍在试验人工智能 ,紧迫性显而易见。
真正的问题是:你会选择高效、有针对性的商业语言模型吗?还是继续纠结于那些消耗资源、却提供极少价值的通用解决方案?
您的数据湖不必一直是一片沼泽。
如今,将人工智能重新转化为战略资产的工具已经面世。随着人工智能市场规模到2028年将增长至6310亿美元,商业语言模型就是您 将数据 负债 转化为竞争优势所需要的。
本文来自微信公众号 “数据驱动智能”(ID:Data_0101),作者:晓晓,36氪经授权发布。