稀土掘金技术社区 2024年12月19日
豆包视觉理解模型正式发布,一元钱可处理近300张高清图片
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

字节跳动正式发布豆包视觉理解模型,该模型具备强大的内容识别能力、出色的理解推理和细腻的视觉描述表现。其千tokens输入价格仅为3厘,大幅降低了AI技术的使用成本。豆包视觉模型不仅能精准识别视觉内容,还能进行复杂的逻辑计算,并已接入豆包App和PC端产品。此外,豆包还推出了3D生成模型,并升级了多款产品,包括通用模型pro对齐GPT-4o、音乐模型升级到生成3分钟完整作品、文生图模型实现精准生成汉字和一句话P图等。豆包大模型应用正在各行业加速渗透,日均tokens使用量已超过4万亿,并与众多企业展开合作,助力AI创新。

🖼️ 豆包视觉理解模型具备强大的内容识别能力,能精准识别视觉内容,还能进行复杂的逻辑计算,完成分析图表、处理代码、解答学科问题等任务。

💡 豆包大模型进行了多项重要更新,包括豆包通用模型pro全面对齐GPT-4o,音乐模型从生成60秒升级到3分钟的完整作品,文生图模型首次实现精准生成汉字和一句话P图的产品化能力。

🚀 豆包大模型应用加速落地,日均tokens使用量已超过4万亿,与八成主流汽车品牌合作,并接入多家智能终端,在信息处理、客服销售、硬件终端等场景的调用量大幅增长。

张勇 2024-12-18 17:26 重庆

具备强大的内容识别能力,出色的理解推理和细腻的视觉描述表现。

点击关注公众号,“技术干货” 及时达!


今天,在火山引擎 Force 大会上, 字节跳动正式发布豆包视觉理解模型 ,为企业提供极具性价比的多模态大模型能力。豆包视觉理解模型千tokens输入价格仅为3厘,一元钱就可处理284张720P的图片,比行业价格便宜85%,以更低成本推动AI技术普惠和应用发展。

继大语言模型价格以厘计算之后,视觉理解模型也宣告进入“厘时代”。

豆包大模型全面升级

火山引擎总裁谭待介绍,豆包视觉理解模型不仅能精准识别视觉内容,还具备出色的理解和推理能力,可根据图像信息进行复杂的逻辑计算,完成分析图表、处理代码、解答学科问题等任务。此外,该模型有着细腻的视觉描述和创作能力。

图| 火山引擎总裁谭待

此前,豆包视觉理解模型已经接入豆包App和PC端产品。豆包战略研究负责人周昊表示:“豆包一直在努力,让用户的输入更快更方便。”为此,豆包产品非常注重多模态的输入和打磨,包括语音、视觉等能力,这些模型都已通过火山引擎开放给企业客户。

会上,豆包3D生成模型也首次亮相。该模型与火山引擎数字孪生平台veOmniverse结合使用,可以高效完成智能训练、数据合成和数字资产制作,成为一套支持 AIGC 创作的物理世界仿真模拟器。

豆包大模型多款产品也迎来重要更新:豆包通用模型pro已全面对齐GPT-4o,使用价格仅为后者的1/8;音乐模型从生成60秒的简单结构,升级到生成3分钟的完整作品;文生图模型2.1版本,更是在业界首次实现精准生成汉字和一句话P图的产品化能力,该模型已接入即梦AI和豆包App。

剪映业务负责人张楠认为,生成式AI技术可以把每个人脑子里的奇思妙想快速视觉化,“像做梦一样”。即梦希望成为“想象力世界”的相机,记录每个人的奇思妙想,帮助每个有想法的人轻松表达、自由创作。

图| 剪映业务负责人张楠

大会正式宣告,2025年春季将推出具备更长视频生成能力的豆包视频生成模型1.5版,豆包端到端实时语音模型也将很快上线,从而解锁多角色演绎、方言转换等新能力。谭待表示,豆包大模型虽然发布较晚,但一直在快速迭代进化,目前已成为国内最全面、技术最领先的大模型之一。

大模型应用加速落地

截至12月中旬,豆包通用模型的日均tokens使用量已超过4万亿,较七个月前首次发布时增长了33倍。大模型应用正在向各行各业加速渗透。

目前,豆包大模型已经与八成主流汽车品牌合作,并接入到多家手机、PC等智能终端,覆盖终端设备约3亿台,来自智能终端的豆包大模型调用量在半年时间内增长100倍。

与企业生产力相关的场景,豆包大模型也获得了众多企业客户青睐:最近3个月,豆包大模型在信息处理场景的调用量增长了39倍,客服与销售场景增长16倍,硬件终端场景增长13倍,AI工具场景增长9倍,学习教育等场景也有大幅增长。

谭待说:“今年是大模型高速发展的一年。当你看到一列高速行驶的列车,最重要的事就是确保自己要登上这趟列车。通过AI云原生和豆包大模型家族,火山引擎希望帮助企业做好AI创新,驶向更美好的未来。”

点击关注公众号,“技术干货” 及时达!

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

豆包视觉模型 多模态大模型 AIGC 火山引擎 字节跳动
相关文章