如果拿到的是扫描 PDF,直接翻译通常会踩坑:段落断裂、表格错位、专有名词漏识别。 先把 OCR 预处理做扎实,后面翻译和校对会省很多时间。

先判断:你是不是扫描件
满足任一条,基本都建议先 OCR:
- 全文无法直接复制文字
- 放大后文字边缘明显锯齿
- 页面是整张图片,没有可选中的文字层
OCR 预处理步骤
步骤 1:先抽样,不要整份直接跑
- 先抽 3 页:封面、正文中段、附件页
- 看字符识别率和段落连贯性
- 抽样过关再批量处理
步骤 2:重点检查 4 类高风险字符
- 公司名、人名(大小写与拼写)
- 数字与符号(
0/O、1/l、-) - 日期格式(
2026-03-25与25/03/2026) - 货币单位(USD、CNY、EUR)
步骤 3:导出可编辑文本型 PDF
- 优先输出带文字层的 PDF
- 不建议只导出图片 PDF
- 附件页识别差时,建议拆分后单独处理
预处理质量自检清单
- 任意一页能否完整复制文本
- 条款编号是否连续
- 表格列标题是否可选中
- 页眉页脚编号是否识别正确
常见问题
问:OCR 后还需要人工复核吗?
需要。OCR 解决的是“能读”,不是“法律语义一定准确”。
问:可以跳过 OCR 直接翻译吗?
可以,但扫描件场景下,失败率和返工率通常会更高。
能力边界说明
- 当前翻译流程不直接识别图片内文字。
- 扫描件建议先 OCR 成文本型 PDF 再上传。
- 如果遇到识别不稳页面,先做预处理再翻译更稳。