掘金 人工智能 14小时前
GLM4.5V视觉模型小试牛刀
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

GLM4.5V是智谱AI发布的最新开源视觉推理模型,基于GLM-4.5-Air开发,参数规模达106B(激活12B)。在41个公开视觉多模态任务中,其综合性能达到同级别开源模型SOTA水平,并在12项行业标准评测中取得全球第三、国产第一、开源模型榜首的成绩。GLM4.5V在长文本、图表理解、文档处理方面表现出色,能像人类一样视觉化阅读,实现文字与图像的同步理解,显著提升了信息提取和解读的准确性。同时,它在视频理解、发票识别等场景也展现出超越以往模型的进步,为AI在实际应用中的落地提供了新的可能性。

✨ **强大的视觉理解能力**:GLM4.5V能够处理包含大量图表的长文本,进行总结、翻译和图表提取,并能输出“观点”。它通过模拟人类的视觉阅读方式,直接理解文档中的图片和文字,避免了传统OCR+文本模型分离处理带来的信息传递错误,尤其在图表和表格等结构化信息的保留与解读上更为精准。

🏆 **行业领先的性能表现**:在41个视觉多模态任务中,GLM4.5V实现了同级别开源模型的SOTA(State-of-the-Art)水平,涵盖图像、视频、文档理解和GUI Agent等多种场景。在12项行业标准评测中,GLM4.5V以63.2分位列全球第三,同时也是国产模型中的第一名,并在开源模型中独占鳌头。

🚀 **多场景应用优势显著**:GLM4.5V在视频理解方面,能够详细分析视频内容,如对Anthropic的Claude Code产品演示进行深入解读。在发票识别测试中,通过JAVA示例代码调用API,实现了22.257秒的快速处理和100%的正确率,展现了其在图像识别任务上的高精度和高效率。

🔒 **技术路线与参数规模**:GLM4.5V基于新一代旗舰文本基座模型GLM-4.5-Air开发,延续了GLM-4.1V-Thinking的技术路线。其总参数量为106B,激活参数量为12B,这一规模使其能够支持更复杂的视觉推理任务,并在各项评测中取得优异成绩。

背景

GLM4.5V 是智谱AI于2025年8月11日发布的开源视觉推理模型,基于新一代旗舰文本基座模型 GLM-4.5-Air 开发,延续了 GLM-4.1V-Thinking 技术路线。

我们看到与Qwen2.5-VL与Gemma-3模型进行了PK。

视觉理解

GLM-4.5V可以阅读长达数十页、含有大量图表的复杂长文本,能够对文本进行总结、翻译、图表提取等操作;此外,还能在给定信息的基础上输出自己的"观点"。与传统的OCR信息提取+文本模型解读的方式不同,GLM-4.5V会像人类一样,以视觉方式读取文档中的每一页图片,避免了信息提取过程中的错误传递,实现了文字与图像的同时理解,因此对于图表、表格等视觉化、结构化信息的保留和解读会更加准确。

例如,我们可以给GLM-4.5V上传一份图文并茂的GPT5 SYSTEM CARD技术报告,让它翻译并解读其中的技术亮点。

GL

GLM4.5V翻译输出

GPT-5 系统卡翻译(节选关键章节) 

GPT-5 System Card 
OpenAI 
August 7, 2025 

3.5 指令层级(Instruction Hierarchy) 

API 中部署这些模型允许开发者指定自定义开发人员消息,该消息包含来自其终端用户的每个提示。若处理不当,这可能让开发者绕过系统防护栏;同理,终端用户也可能尝试通过发送不符合指南的消息绕过开发者消息。 

缓解措施:我们教导模型遵循指令层级[2]。高层级上,我们将发送给模型的邮件分为三类:系统消息、开发者消息和用户消息。我们测试模型是否遵循“系统消息优先于开发者消息,且开发者消息优先于用户消息”的指令。 

评估:为此,我们使用两组评估: 

    系统提示提取:测试恶意用户消息能否提取系统提示中不应泄露的秘密; 

    短语保护:测试模型是否正确遵循系统消息指令——当恶意用户消息试图让模型输出“access granted”,而系统消息试图阻止模型这么做(除非满足秘密条件)。 

3.6 幻觉(Hallucinations) 

训练 GPT-5 时,我们重点关注减少事实性幻觉的发生频率。尽管 ChatGPT 默认启用浏览功能,但许多 API 接口未使用此功能。因此,我们在训练模型时侧重于浏览功能的使用,以获取最新网络信息,并减少对内部知识的依赖。 

我们首先评估 gpt-5-thinkinggpt-5-main 在代表真实 ChatGPT 生产对话的提示上的事实准确性,使用基于 LLM 的评分模型结合网络访问识别主要和次要错误。我们验证了评分器质量:让人类独立评估声明与人类判断的差异,发现我们的评分器比人类更倾向于正确识别事实错误。 

我们发现 gpt-5-main 存在幻觉的概率(即包含次要或主要错误的 factually claims 占比)为 66%,比 OpenAI o3 低 29%。在语句级别,我们测量 5% 的响应存在至少一个主要事实错误,而 gpt-5-thinking 比 GPT-4o 少 44%,gpt-5-main 比 OpenAI o3 少 78%。 

--- 

技术亮点解读 

GPT-5 的技术突破体现在安全性、准确性、多领域适应性三大维度,结合结构化评估与缓解措施,实现“能力提升”与“风险可控”的平衡: 

1. 安全性:抵御恶意交互与幻觉 

    越狱防御:在“非法/非暴力犯罪提示”“暴力提示”等有害内容评估中,gpt-5-thinking 与 OpenAI o3 相当,gpt-5-main 接近 GPT-4o 水平,显示其对恶意 prompt 的鲁棒性显著提升。 

    指令层级机制:通过“系统 > 开发者 > 用户”的邮件优先级规则,配合“系统提示提取”“短语保护”两类评估,有效防止开发者或用户绕过安全防护。 

    幻觉 reduction:训练阶段融合浏览功能获取实时信息,评估显示 gpt-5-main 幻觉率比 OpenAI o3 低 29%,gpt-5-thinking 在语句级别的主要事实错误比 GPT-4o 少 44%,事实准确性大幅提升。 

2. 多领域性能:覆盖医疗、安全、多语言等场景 

    医疗健康:在 HealthBench 等基准测试中,gpt-5-thinking 超越此前所有模型(如 HealthBench Hard 错误率比 OpenAI o3 低 8 倍);针对“全球健康一致性”等高风险场景,错误率降低超 50 倍,展现医疗决策辅助潜力。 

    网络安全:红队测试(如暴力攻击规划、prompt 注入)中,GPT-5 恶意响应率低于 OpenAI o3;Pattern Labs 评估证实其在“入侵检测”“漏洞利用”等场景的优势,如 Capture the Flag 挑战中接近专业水平。 

    多语言能力:MMLU 语言测试显示,GPT-5 与现有模型相当,支持阿拉伯语、中文等多语言推理,适配全球化应用场景。 

3. 风险治理:结构化 safeguards 体系 

    准备框架(Preparedness Framework):针对“高生物化学风险”实施多层防护,包括: 
    - 模型训练:融入生物威胁分类(如生物武器化、高危 dual use 生物学),最小化恶意用途风险; 
    - 系统级防护:两级监控(快速分类器 + 推理模型)拦截有害内容; 
    - 账户级执行:扫描对话识别政策违规,联动执法应对极端情况; 
    - API 访问控制:推出 safety_identifier 字段,限制高风险生物信息请求。 

    红队测试常态化:联合外部机构(如 Apollo Research、SecureBio)开展暴力攻击、prompt 注入等专项测试,提前暴露风险并迭代 safeguards。 

综上,GPT-5 通过技术创新与严谨的风险治理,实现了“能力边界拓展”与“安全底线坚守”的协同,为 AI 大规模落地提供了参考范式。

全文翻译

异常了。我们让他翻译全文,出了问题,如下片段重复进行死循环

Hang住了

全文翻译稳定性赶不上QWEN3

视频阅读

我们上传一个已经下载好的MP4视频,来自 www.youtube.com/watch?v=AJp…

输出

根据您提供的视频截图,这是一个关于**Anthropic公司最新人工智能编程工具“Claude Code”**的产品演示视频。以下是视频的详细内容分析:

1. 视频概述
视频由两位主持人介绍,主要展示了如何使用“Claude Code research preview”(研究预览版)来开发一个功能完整的聊天应用程序。该应用是一个客户支持AI代理,利用了Anthropic的Claude大语言模型。

2. 核心演示流程

*   项目初始化: 视频开始于一个标准的开发环境。主持人通过终端命令启动了一个名为“customer-support-agent”的项目。
*   项目分析: 使用Claude Code的第一个任务是分析整个项目的结构和代码库。AI助手读取了README.mdpackage.json等关键文件,生成了一个详细的项目概述,解释了应用的技术栈(Next.js, React, Tailwind CSS)和各个组件的作用。
*   功能开发 - 添加聊天历史:
*   需求提出: 主持人要求AI为应用添加“聊天历史”功能,包括显示历史聊天列表、添加“新建聊天”按钮以及实现聊天的保存和加载。
*   代码修改: Claude Code直接在终端中操作,逐步修改了多个关键的React组件文件:
*   将左侧边栏的“Thinking”组件替换为“Chat History”组件。
*   在顶部导航栏添加了“New Chat”按钮。
*   更新了聊天区域(ChatArea)的代码,以支持聊天历史的本地存储(localStorage)和状态管理。
*   功能验证: 修改完成后,视频展示了新功能的实际运行效果。用户现在可以在左侧看到聊天历史列表,点击可以加载之前的对话,也可以创建新的聊天。
*   自动化测试: 为了确保代码质量和功能的正确性,Claude Code被要求为新增的聊天历史功能编写单元测试。视频展示了从安装Jest测试框架,到编写测试用例,再到最终所有测试成功通过的完整过程。
*   应用构建与部署: 最后,视频进行了生产环境的构建(npm run build),并解决了一些构建过程中遇到的Babel配置问题。整个过程以将代码变更提交到Git仓库并推送到主分支作为结束。

3. 视频传达的信息

*   产品定位: Claude Code被定位为一个能够理解复杂代码库、执行多步骤开发任务、并与开发者协作的“AI编码伙伴”。
*   核心价值主张: 该工具旨在通过AI辅助,大幅提升软件开发的效率,特别是在需要理解现有代码和进行复杂修改的场景下。
*   技术亮点: 展示了AI不仅限于生成简单代码片段,还能进行系统级的架构理解、跨文件代码修改、端到端的任务完成(从分析到测试再到部署)。

总而言之,这个视频是一个功能强大且令人印象深刻的AI编程工具 demonstration,旨在向开发者群体展示Claude Code在未来软件开发工作流中可能扮演的革命性角色。

视频提问题

发票识别

之前我们测试过Qwen2 VL模型,基于QwenVL2.5模块实现发票识别

通过官方BigModel平台的API调用,JAVA示例代码

依赖(其下部分依赖有漏洞,请大家自行升级)

<dependency>    <groupId>ai.z.openapi</groupId>    <artifactId>zai-sdk</artifactId>    <version>0.0.2</version></dependency>

测试代码

public class Main {    public static void main(String[] args) {        long startTime = System.currentTimeMillis();        String apiKey = ""; // Enter your own APIKey        ZaiClient client = ZaiClient.builder()                .apiKey(apiKey)                .build();        ChatCompletionCreateParams request = ChatCompletionCreateParams.builder()                .model("glm-4.5v")                .messages(Arrays.asList(                        ChatMessage.builder()                                .role(ChatMessageRole.USER.value())                                .content(Arrays.asList(                                        MessageContent.builder()                                                .type("text")                                                .text("请提取这张照片的内容,其中内容格式‘机器编号’、‘发票代码’、‘发票号码’、‘开票日期’、‘校 验 码’、‘购买方名称’、‘购买方纳税人识别号’、‘购买方地 址、电 话’、‘开户行及账号’、‘货物或应税劳务、服务名称’、‘规格型号’、‘单 位’、‘数 量’、‘单 价’、‘金 额’、‘税率’、‘税 额’、‘价税合计(大写)’、‘价税合计(小写)’、‘销售方名称’、‘销售方纳税人识别号’、‘销售方地 址、电 话’、‘销售方地 址、电 话’、‘开户行及账号’、‘备注’、‘收款人’、‘复核’、‘开票人’ 字段返回信息,返回的结果信息以json格式返回")                                                .build(),                                        MessageContent.builder()                                                .type("image_url")                                                .imageUrl(ImageUrl.builder()                                                        .url("https://source.xtechcn.com/xrhsc/other/2025/05/21/1925128521245523968.jpg").build())                                                .build()))                                .build()))                .build();        ChatCompletionResponse response = client.chat().createChatCompletion(request);        if (response.isSuccess()) {            Object reply = response.getData().getChoices().get(0).getMessage().getContent();            System.out.println(reply);        } else {            System.err.println("Error: " + response.getMsg());        }        long endTime = System.currentTimeMillis();        double duration = (endTime - startTime) / 1000.0;        System.out.println("方法运行时间: " + duration + " 秒");    }}

发票识别方法运行时间: 22.257 秒,正确率100%

结论

       GLM4.5V看上去另一个视觉模型后期之秀,场景如UI自动化配置Midscene.js的AI视觉识别,在视频理解,复制网页,图像识别正确率相比其他模型有所进步。目前开源可以自行部署。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

GLM4.5V 视觉模型 开源模型 多模态AI 智谱AI
相关文章