2026-03-25约 2 分钟阅读

扫描版合同怎么先处理再翻译：OCR 预处理实操指南

扫描版合同翻译前，如何判断是否需要 OCR、如何自检识别质量，以及如何降低后续翻译返工。

OCR合同翻译PDF

如果拿到的是扫描 PDF，直接翻译通常会踩坑：段落断裂、表格错位、专有名词漏识别。先把 OCR 预处理做扎实，后面翻译和校对会省很多时间。

扫描合同 OCR 预处理示意图

先判断：你是不是扫描件

满足任一条，基本都建议先 OCR：

全文无法直接复制文字
放大后文字边缘明显锯齿
页面是整张图片，没有可选中的文字层

OCR 预处理步骤

步骤 1：先抽样，不要整份直接跑

先抽 3 页：封面、正文中段、附件页
看字符识别率和段落连贯性
抽样过关再批量处理

步骤 2：重点检查 4 类高风险字符

公司名、人名（大小写与拼写）
数字与符号（0/O、1/l、-）
日期格式（2026-03-25 与 25/03/2026）
货币单位（USD、CNY、EUR）

步骤 3：导出可编辑文本型 PDF

优先输出带文字层的 PDF
不建议只导出图片 PDF
附件页识别差时，建议拆分后单独处理

预处理质量自检清单

任意一页能否完整复制文本
条款编号是否连续
表格列标题是否可选中
页眉页脚编号是否识别正确

常见问题

问：OCR 后还需要人工复核吗？

需要。OCR 解决的是“能读”，不是“法律语义一定准确”。

问：可以跳过 OCR 直接翻译吗？

可以，但扫描件场景下，失败率和返工率通常会更高。

能力边界说明

当前翻译流程不直接识别图片内文字。
扫描件建议先 OCR 成文本型 PDF 再上传。
如果遇到识别不稳页面，先做预处理再翻译更稳。

立即开始翻译