引言
目前开源翻译科研论文的工具有 pdf2zh(1.x) 与 pdf2zh-next(2.x)。后者在 2025 年 6 月 4 日 迁移到组织仓库并以 “next/2.0” 为主线持续迭代,核心更换为 BabelDOC 翻译内核。本文基于统一环境的实测,对两代引擎在使用体验与综合成本上的差异做纵向对比,并对 pdf2zh-next 下两类主流模型路径做横向讨论。
本次评测将围绕以下四个核心维度展开:
- 翻译质量:术语、公式、表格、图片、扫描件处理能力
- 成本与速度:API 调用开销与翻译吞吐效率
- 免费额度:内置免费翻译渠道的可用性
- 维护与活跃度:社区现状
介绍
pdf2zh 是什么
PDFMathTranslate(pdf2zh)是一款开源的专业pdf翻译工具,主打“保留排版 的全文双语翻译”。它支持多家翻译/模型服务(如 Google、DeepL、Ollama、OpenAI 等),并提供 CLI、GUI、MCP、Docker、Zotero 等多种使用方式,适合不同环境一键上手。
pdf2zh_next 是什么?和 pdf2zh 有什么不同?
PDFMathTranslate-next(pdf2zh_next / pdf2zh 2.0)2025 年 6 月 4 日,项目更名并迁移到组织仓库(由 awwaawwa 发起),随后以 “next” 版本持续迭代。与 1.x 相比,next 版将BabelDOC 作为核心翻译内核(BabelDOC 本身是由沉浸式翻译团队开源的文档翻译内核),并在此基础上接入了更多翻译/模型 API,同时针对自部署做了优化(如提供 Docker 与 Windows 可执行文件打包等)。
测试说明
- 测试对象与版本:选用pdf2zh v1.9.11和pdf2zh_next-v2.6.4-BabelDOC-v0.5.9版本进行对比测试。
- 运行方式统一:均在 Windows11 平台使用官方提供的 win.exe 压缩包版本,无额外安装步骤。
- 参数设置:两者均采用默认 Prompt;在 pdf2zh_next 中,额外勾选「无水印」「翻译表格文本(实验性功能)」「自动启用 OCR 变通方案」,其余设置保持默认。
- 测试样本:10 份不同特性的 PDF 文档,全面覆盖扫描件、矢量图、复杂表格、数学公式、超长篇幅(>100页)与短篇(<5页)等典型场景。
使用教程
若您想查看使用教程,可查看我的系列博文与视频:
新版本教程:【PDF2zh 2.0】三种部署指南与 Zotero 插件配置 - 她笑中藏泪花 & 视频教程
旧版本教程: 【PDFMathTranslate】保留原格式!!!超级好用的pdf翻译工具
zotero教程:【Zotero-pdf2zh】快速搞定 PDF 翻译,完美保留原文格式 - 她笑中藏泪花 & 视频教程
Part 1: 翻译质量深度对比
左图-原始文档;中间-pdf2zh_next翻译效果;右图-pdf2zh(旧版)翻译效果。翻译效果均 为Deepseek-V3.1 。
术语一致性
pdf2zh-next
的一项重要升级是原生集成了术语表 (Glossary) 功能且默认开启。用户可直接提供一个三列表格的 CSV
文件 (source,target,tgt_lng
),引擎在翻译时会将匹配到的术语精准注入到 Prompt 中,从而强制模型遵循统一译法。还能将提取结果保存,极大降低了长文档中“同物异译”现象的发生概率。
CLI 中用 --glossaries
指定术语表,--no-auto-extract-glossary
可关闭自动提取,--save-auto-extracted-glossary
可保存自动提取术语表。
同时pdf2zh默认开启自动术语提取,会保证专业术语前后翻译一致。但同时也会增加额外的消耗。
对比之下,pdf2zh 1.x 没有统一的术语表接口,效果完全依赖上游翻译服务自身的表现。
实测对比:在测试样本中,pdf2zh-next
借助术语表,将 “The One Number You Need to Grow” 在全文中稳定地翻译为“你需要增长的唯一数字”。而旧版则出现了“实现增长必须掌握的数字”和“增长唯一关键数字”等不一致译法。
数学公式保真度
两代工具都以“公式与版式保真”为核心要点。在实测对比中,它们都能很好地保留页内公式、目录和图表的宏观结构。但 pdf2zh-next
凭借 BabelDOC 内核,在细节处理上更胜一筹。它对文本、样式、公式及布局关系的解析更为精细,使得包含复杂数学公式的段落渲染结果更显整洁与健壮。
实测对比:
- 常规公式:两者均能完美保留,无明显差异。
复杂场景:面对极端复杂场景,两者仍会出现局部失真或错位。如下图所示:
- 对于公式$\frac{1}{q} \left( r + \sum_{i=1}^{m} p_i y_i \right)$,旧版渲染更佳;
- 而对于$\sum_{i=1}^{m} p_i y_i \equiv -r \pmod{q}$ 新版表现更好,虽然两者都将
mod
翻译为模
,但新版可通过术语表功能修正此问题。 - 对于 $\frac{1}{\det(E)}$,新版未能正确渲染,而旧版虽成功渲染,但破坏了原有排版。
表格翻译
pdf2zh-next
新增“表格文本翻译(实验性)”,在尽量不破坏原表线框的前提下翻译单元格文本(对应 CLI 参数为 --translate-table-text
。);旧版 pdf2zh
面对多数表格选择跳过。
图片翻译
对于包含可选中文本的横向矢量图,pdf2zh-next
能较好地识别并翻译其中的文字。
段落跨页翻译
pdf2zh-next
针对段落恰好被分页符或分栏符截断的场景进行了优化(目前主要对大语言模型生效)。它能够将跨页的上下文进行拼接处理,显著提升了翻译的连贯性和语义准确性。旧版则以页面或栏为绝对边界,导致跨页句子被生硬拆分,严重影响阅读体验。
实测对比:This finding is borne out by the short shrift that investors give to such reports as the American Consumer Satisfaction Index.
跨两栏;新版识别为一句完整译文:这一发现得到了投资者对诸如美国消费者满意度指数等报告的短暂关注所证实。
旧版则被切成两句,语义割裂。
扫描件支持
旧版 pdf2zh
几乎完全不支持扫描件 PDF。若强行处理,通常会输出文字重叠、无法阅读的结果。
pdf2zh-next
通过 OCR 变通方案 提供临时可用路径;复杂表格或公式页仍可能留白,但已能生成基本可读的译文。CLI:--auto-enable-ocr-workaround True
(或显式 --ocr-workaround
)。
强烈建议:在使用 pdf2zh-next
的扫描件翻译功能前,先使用专业的 OCR 工具对文档进行文本识别,以确保 PDF 中的文字是可选中和复制的状态。
富文本与特殊排版
- 富文本样式:部分 PDF 使用彩色文本等富文本。
pdf2zh-next
默认保留富文本样式(--disable-rich-text-translate
可关闭);旧版多统一为黑色文本。 - 竖排文本:新版在竖排元素(出版社信息、竖向表格)上倾向跳过以规避版式错乱;旧版在个别样例中出现渲染错位(见图示案例)。
Part 2: 平均成本与速度
此次对比选用 DeepSeek V3.1 模型作为本次测试的翻译引擎。其官方计费标准为(人民币/每百万 tokens):输入(缓存命中) ¥0.5,输入(缓存未命中) ¥4,输出 ¥12。
DeepSeek V3.1 实测数据
速度对比
速度受本地硬件配置、网络状况及 API 服务商速率限制影响,以下数据仅供参考。
测试环境:
CPU: AMD Ryzen 7 8745HS w/ Radeon 780M Graphics (3.80 GHz)
RAM: 16 GB
API 服务商: DeepSeek 官方
布局 | 页数 | pdf2zh (v1.x) 耗时 | pdf2zh_next 耗时(启用自动术语提取) |
---|---|---|---|
双栏 | 11 | 148s | 238s |
单栏 | 28 | 357s | 242s |
单栏 | 144 | 2953s | 613s |
双栏 | 14 | 221s | 371s |
单栏 | 18 | 272s | 214s |
单栏 | 94 | 2341s | 557s |
双栏 | 4 | 73s | 163s |
双栏-扫描件 | 13 | 10s* | 172s |
单栏-扫描件 | 18 | 220s | 172s |
多栏 | 12 | 106s | 102s |
总计 | 356 | 6701s | 2844s |
*旧版不支持扫描件,10s 的耗时可能是因其未调用大模型便提前终止,无对比意义。
API 成本对比
pdf2zh_next-deepseek-v3.1-chat:输入 (命中缓存):235136 tokens;输入 (未命中缓存):2128116tokens;输出:869317tokens;总花费¥19.06
pdf2zh_旧版-deepseek-v3.1-chat:输入 (命中缓存): 1984tokens;输入 (未命中缓存): 430277tokens;输出:251702tokens;总花费¥04.74
pdf2zh_next-qwen-plus-0911
开自动提取术语:输入 2479280;输出 990812;总花费 ¥3.965048关自动提取术语: 输入1464416;输出609708;总花费 ¥2.3909488
pdf2zh_next-deepseek-v3.2-chat:输入 (命中缓存) :238656;输入 (未命中缓存) :2120857;输出: 871172;总花费¥6.90
综合来看,在本次测试样本中,pdf2zh_next
的 API 总开销约为旧版本的 4倍。
评测结论
速度对比分析
- 总体效率:
pdf2zh_next
完成全部测试用时 2844秒,相较于旧版的 6701秒,实现了 2.36倍 的整体加速。平均速度达到 7.99 秒/页,远超旧版的 18.82 秒/页。 - 长文档优势巨大:在处理 144 页和 94 页的样本时,
pdf2zh_next
对比旧版分别快了 4.82倍 和 4.20倍 。 - 短文档场景:在页数较少(如小于15页)的情况下,旧版因其更简单的处理流程,耗时可能反而更短。
单位成本分析(本次样本 356 页)
pdf2zh_next
:≈ ¥0.054 / 页pdf2zh(旧版)
:≈ ¥0.013 / 页
结论
- 追求效率与吞吐量:若你的核心诉求是翻译速度,尤其需要处理大体量(>15页)的 PDF 文档,
pdf2zh_next
的效率优势是压倒性的。 - 成本敏感型用户:若API 成本是首要考量因素,旧版
pdf2zh
的开销显著更低。如果想享受新版的功能,可以关闭自动提取术语表,可以节省约40%的消耗。
Part 3: 免费额度与白嫖指南
对于不想配置 API 密钥的用户,两个项目都提供了免费使用途径。
pdf2zh (v1.x) 免费资源
- 官方公共免费服务 (pdf2zh.com): 无需安装,在线上传即可使用,是体验首选。
- HuggingFace Spaces 演示: 备用在线服务。
- ModelScope Studio 演示: 另一备用在线服务。
- 翻译引擎内具有免费的 bing 和 google 。
pdf2zh_next (v2.x) 免费资源
- 沉浸式翻译 - BabelDOC: 官方推荐的在线体验入口。
- 内置免费引擎 (siliconflowfree): 内置了由硅基流动提供的免费 LLM 通道,模型当前为
THUDM/GLM-4-9B-0414
,质量可靠。 - 内置免费引擎 (Bing / Google): 同样支持,但由于上游接口限制,稳定性不如
siliconflowfree
,且为传统机翻,因此不作为首要推荐。
Part 4: 维护状态与社区活跃度
pdf2zh 项目最初由个人开发者于2023-2024年创建,2024年底在开源社区迅速走红(GitHub上1年内累积⭐2万+)。2025年中,核心开发团队将代码迁移到新组织仓库并发布2.0版。pdf2zh-next
仓库继承了旧版的大部分代码和issues,但版本号重置为2.x。对于后续维护,pdf2zh-next是唯一活跃主线,旧版仅作为历史版本存在。若从代码维护上讲,建议使用新版本。
情景化选型建议
- 场景一:学术研究与专业报告,看重专业术语统一 → 选
pdf2zh-next
。原生术语表强制统一译法,是旧版不具备的能力。 - 场景二:论文包含大量复杂数学公式 → 两者皆可,
pdf2zh-next
更稳。 - 场景三:成本极度敏感 → 优先
pdf2zh (1.x)
;或在 next 关闭术语自动提取以降低消耗。 - 场景四:追求速度 → 以 15 页为界 → 15 页以上则选
pdf2zh-next
,极短文旧版可能更快。 - 场景五:需持续更新、体验新功能 → 选择
pdf2zh-next
(活跃主线,功能继续演进)。
Github代码厂库:
pdf2zh (v1.x) GitHub 仓库: https://github.com/Byaidu/PDFMathTranslate
pdf2zh-next (v2.x) GitHub 仓库: https://github.com/PDFMathTranslate/PDFMathTranslate-next
Zotero 插件 (zotero-pdf2zh): https://github.com/guaguastandup/zotero-pdf2zh
制作人名单
博文文案:她笑中藏泪花&awwaawwa
翻译测试:她笑中藏泪花&awwaawwa
视频录制:她笑中藏泪花
文献来源
[1] Guo D, Yang D, Zhang H, et al. DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning[J]. Nature, 2025, 645(8081): 633-638.
[2] Arriola M, Gokaslan A, Chiu J T, et al. Block diffusion: Interpolating between autoregressive and diffusion language models[J]. arXiv preprint arXiv:2503.09573, 2025.
[3] Murphy K. Reinforcement learning: an overview[J]. arXiv preprint arXiv:2412.05265, 2024.
[4] Kerbl B, Kopanas G, Leimkühler T, et al. 3D Gaussian splatting for real-time radiance field rendering[J]. ACM Trans. Graph., 2023, 42(4): 139:1-139:14.
[5] Haase C, Krishna S N, Madnani K, et al. An efficient quantifier elimination procedure for Presburger arithmetic[J]. arXiv preprint
[6] Wong L, Grand G, Lew A K, et al. From word models to world models: Translating from natural language to the probabilistic language of thought[J]. arXiv preprint arXiv:2306.12672, 2023.
[7] Rabiee A, Ghafoori S, Cetera A, et al. Wavelet Analysis of Noninvasive EEG Signals Discriminates Complex and Natural Grasp Types[J]. arXiv e-prints, 2024: arXiv: 2402.09447.
[8] Fornell C, Larcker D F. Evaluating structural equation models with unobservable variables and measurement error[J]. Journal of marketing research, 1981, 18(1): 39-50.
[9] Liyanage S, Mitchell H. A symbiotic model of innovation management for collaborative research[J]. Prometheus, 1994, 12(2): 207-224.
[10] Reichheld F F. The one number you need to grow[J]. Harvard business review, 2003, 81(12): 46-55.