2026-03-25约 2 分钟阅读

扫描版合同怎么先处理再翻译:OCR 预处理实操指南

扫描版合同翻译前,如何判断是否需要 OCR、如何自检识别质量,以及如何降低后续翻译返工。

OCR合同翻译PDF

如果拿到的是扫描 PDF,直接翻译通常会踩坑:段落断裂、表格错位、专有名词漏识别。 先把 OCR 预处理做扎实,后面翻译和校对会省很多时间。

扫描合同 OCR 预处理示意图

先判断:你是不是扫描件

满足任一条,基本都建议先 OCR:

  • 全文无法直接复制文字
  • 放大后文字边缘明显锯齿
  • 页面是整张图片,没有可选中的文字层

OCR 预处理步骤

步骤 1:先抽样,不要整份直接跑

  • 先抽 3 页:封面、正文中段、附件页
  • 看字符识别率和段落连贯性
  • 抽样过关再批量处理

步骤 2:重点检查 4 类高风险字符

  • 公司名、人名(大小写与拼写)
  • 数字与符号(0/O1/l-
  • 日期格式(2026-03-2525/03/2026
  • 货币单位(USD、CNY、EUR)

步骤 3:导出可编辑文本型 PDF

  • 优先输出带文字层的 PDF
  • 不建议只导出图片 PDF
  • 附件页识别差时,建议拆分后单独处理

预处理质量自检清单

  1. 任意一页能否完整复制文本
  2. 条款编号是否连续
  3. 表格列标题是否可选中
  4. 页眉页脚编号是否识别正确

常见问题

问:OCR 后还需要人工复核吗?

需要。OCR 解决的是“能读”,不是“法律语义一定准确”。

问:可以跳过 OCR 直接翻译吗?

可以,但扫描件场景下,失败率和返工率通常会更高。

能力边界说明

  • 当前翻译流程不直接识别图片内文字。
  • 扫描件建议先 OCR 成文本型 PDF 再上传。
  • 如果遇到识别不稳页面,先做预处理再翻译更稳。