[程序员] 私有化部署 OCR 解决方案请教

V2EX 07月24日 10:23

[程序员] 私有化部署 OCR 解决方案请教

文章探讨了OCR识别在PDF和图片数据源中的应用，指出当前PaddleOCR-PP-OCRv5与Gemma 3 27b集成过程中存在的识别粘连和多行文本解析错误问题，并提出优化建议。

目前有 PDF 和图片两种数据源；又可细分为
PDF：标准 PDF 和扫描件 PDF
图片：截图形式及拍照形式

当前验证方案：PaddleOCR——PP-OCRv5 进行 OCR 识别，之后把解析结果传送至 Gemma 3 27b 进行结果分析，并把需要的内容转换为 json 输出
问题：部分业务场景 OCR 识别粘连，多个相近的文本识别为同一个检测框；以及原本就是多行的文本，但是需求是要转换成一行。这两种在直接把识别结果发送给 Gemma 的时候都会解析错误。即使提示词严格显示输出的内容和要求，依然会获取错误。有没有什么好的方案

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OCR识别数据解析 PaddleOCR Gemma 3 27b 优化策略

相关文章

淘宝“仅退款”新策略上线一周，“仅退款”场景下平台介入已减少20%

Google AI Announces Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters

GPU利用率背后的性能真相

Solving Deep Learning’s Toughest Challenges

公司服务搞容器化后，为什么性能下降这么多？

Claude 3拒答率优化：大模型从拒答到负责任回答的演进之路

别犯浑！这才是千万级数据全表 update 的正确姿势

How AI tools can help you build a business while working full-time

一款国外的图片处理网站！非常NB，建议收藏！！！

数字孪生心脏全球首次实现0.84秒超实时模拟，智源突破计算极限，180倍性能提升