[要闻] 豆包视觉理解模型发布

科技日报讯（记者杨雪）近日，字节跳动在火山引擎原动力大会上发布豆包视觉理解模型，为企业提供多模态大模型能力。豆包视觉理解模型千词元（tokens）输入价格仅为3厘，1元钱就可处理284张720P的图片，比行业平均价格便宜85%，以更低成本推动AI技术普惠和应用发展。

火山引擎总裁谭待介绍，豆包视觉理解模型通过算法、工程等技术创新，大幅优化使用成本。该模型不仅能精准识别视觉内容，还具备出色的理解和推理能力，可根据图像信息进行复杂的逻辑计算，完成分析图表、处理代码、解答学科问题等任务。

此前，豆包视觉理解模型已经接入豆包App和PC端产品。豆包战略研究负责人周昊表示，为了让用户的输入更快更方便，豆包非常注重多模态的输入和打磨，包括语音、视觉等能力，这些模型都已通过火山引擎开放给企业客户。

数据显示，截至12月中旬，豆包通用模型的日均tokens使用量已超过4万亿，较7个月前首次发布时增长了33倍。大模型应用正在向各行各业加速渗透。

据悉，豆包大模型已经与八成主流汽车品牌合作，并接入多家手机、PC等智能终端，覆盖终端设备约3亿台，来自智能终端的豆包大模型调用量在半年时间内增长达100倍。

“豆包大模型调用量的高速增长，是市场快速发展的一个缩影。大模型在各种场景中都在全面开花，尤其是和企业生产力相关的场景。”谭待介绍，最近3个月，豆包大模型在信息处理场景的调用量增长了39倍，客服与销售场景增长16倍，硬件终端场景增长13倍，AI工具场景增长9倍，学习教育等场景也有大幅增长。

Fish AI Reader