目前有 PDF 和图片两种数据源;又可细分为
PDF:标准 PDF 和扫描件 PDF
图片:截图形式及拍照形式
当前验证方案:PaddleOCR——PP-OCRv5 进行 OCR 识别,之后把解析结果传送至 Gemma 3 27b 进行结果分析,并把需要的内容转换为 json 输出
问题:部分业务场景 OCR 识别粘连,多个相近的文本识别为同一个检测框;以及原本就是多行的文本,但是需求是要转换成一行。这两种在直接把识别结果发送给 Gemma 的时候都会解析错误。即使提示词严格显示输出的内容和要求,依然会获取错误。有没有什么好的方案