快科技资讯 01月28日
阿里云通义开源Qwen2.5-VL:最强视觉AI 超越GPT-4o
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阿里云通义千问开源了全新的视觉模型Qwen2.5-VL,包含3B、7B和72B三个版本。旗舰版72B在13项评测中荣获视觉理解冠军,性能超越GPT-4o和Claude3.5。该模型能更准确解析图像,支持超1小时视频理解,可搜索视频事件并总结要点。此外,Qwen2.5-VL无需微调即可成为AI视觉智能体,操控手机电脑完成复杂操作。它不仅能识别常见物体,还能分析图像中的文本、图表等,并大幅提升OCR识别能力和信息抽取能力,满足多场景需求。

🏆Qwen2.5-VL旗舰版在13项权威评测中夺冠,视觉理解能力超越GPT-4o与Claude3.5,展现了卓越的性能。

🎬该模型突破性地支持超1小时的视频理解,能搜索视频中的具体事件,并对不同时间段进行要点总结,高效提取视频关键信息。

🤖Qwen2.5-VL无需微调即可变身AI视觉智能体,操控手机电脑完成复杂操作,如送祝福、修图、订票等,展示了强大的应用潜力。

🔍模型不仅擅长识别花、鸟、鱼等常见物体,还能分析图像中的文本、图表、图标等,OCR识别能力大幅提升,满足多场景需求。

快科技1月28日消息,今天,阿里云通义千问开源全新的视觉模型Qwen2.5-VL,推出3B、7B和72B三个尺寸版本。

其中,旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理解冠军,超越GPT-4o与Claude3.5。

官方介绍称,新的Qwen2.5-VL能更准确地解析图像内容,突破性地支持超1小时的视频理解,可以在视频中搜索具体事件,并对视频的不同时间段进行要点总结,从而快速、高效地帮助用户提取视频中蕴藏的关键信息。

而且无需微调就可变身为一个能操控手机和电脑的AI视觉智能体(Visual Agents),实现给指定朋友送祝福、电脑修图、手机订票等多步骤复杂操作。

Qwen2.5-VL 不仅擅长识别常见物体,如花、鸟、鱼和昆虫,还能够分析图像中的文本、图表、图标、图形和布局。

此外,Qwen2.5-VL将OCR识别能力提升至一个新的水平,增强了多场景、多语言和多方向的文本识别和文本定位能力。同时,在信息抽取能力上进行大幅度增强,以满足日益增长的资质审核、金融商务等数字化、智能化需求。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

通义千问 视觉模型 Qwen2.5-VL AI智能体 视频理解
相关文章