V2EX 07月24日 10:23
[程序员] 私有化部署 OCR 解决方案请教
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

文章探讨了OCR识别在PDF和图片数据源中的应用,指出当前PaddleOCR-PP-OCRv5与Gemma 3 27b集成过程中存在的识别粘连和多行文本解析错误问题,并提出优化建议。

目前有 PDF 和图片两种数据源;又可细分为
PDF:标准 PDF 和扫描件 PDF
图片:截图形式及拍照形式

当前验证方案:PaddleOCR——PP-OCRv5 进行 OCR 识别,之后把解析结果传送至 Gemma 3 27b 进行结果分析,并把需要的内容转换为 json 输出
问题:部分业务场景 OCR 识别粘连,多个相近的文本识别为同一个检测框;以及原本就是多行的文本,但是需求是要转换成一行。这两种在直接把识别结果发送给 Gemma 的时候都会解析错误。即使提示词严格显示输出的内容和要求,依然会获取错误。有没有什么好的方案

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OCR识别 数据解析 PaddleOCR Gemma 3 27b 优化策略
相关文章