引言
用过 pdf2zh-next 的朋友都知道,它在处理复杂排版、公式和跨页表格上表现确实出色。但一直以来有个痛点:大模型翻译的 Token 成本太高了。
性能强的模型贵,便宜的模型翻译质量又容易崩。那么有没有一种既省钱又不牺牲质量的办法?
还真有。最近 pdf2zh-next 更新了一个关键功能:支持把“术语提取”和“正文翻译”拆开配置。简单来说,就是先用一个模型通读全文,把专有名词拎出来定好译名,再把这些术语扔给翻译模型去跑全文。这样既能避免同一个词前后翻译不一致,也能减少模型胡乱发挥的风险。
为了找出最合适的搭配,我找来了七份不同领域的文档,实测了目前市面上主流的几个国产大模型:Kimi K2 (0905)、DeepSeek V3 以及 DeepSeek V3.2 (Exp),看看它们在术语提取上到底谁更靠谱。
一、 提取数量对比:多不一定就是好
首先看提取的数量。我在7个不同文件中测试了三个模型,结果如下:
| 序号 | kimi-k2 | deepseek-v3 | deepseek-v3.2 |
|---|---|---|---|
| 1 | 1743 | 1603 | 1625 |
| 2 | 190 | 248 | 283 |
| 3 | 359 | 364 | 481 |
| 4 | 956 | 902 | 927 |
| 5 | 459 | 607 | 703 |
| 6 | 1016 | 996 | 1074 |
| 7 | 2768 | 3242 | 3199 |
表1:各模型提取术语条目数量对比
乍一看,DeepSeek 系列提取的词条数量普遍更多。但检查具体内容后发现,多出来的这部分并不全是有效信息。DeepSeek 倾向于把年份、DOI 链接甚至公式编号也当成“术语”抓取出来。这些无效信息不仅没用,反而在增加了 Token 消耗,产生一些不必要的成本。
相比之下,Kimi K2 的数量虽然少一些,但含金量更高,很少有凑数的无效条目。
二、 质量深扒:谁更懂学术?
光看数量没用,关键是准不准。为了验证质量,我仔细核对了提取结果,发现几个模型各有特色。下面挑几个典型案例具体说说。
1. Kimi K2:克制、严谨
K2 给我最大的印象就是非常守规矩。遇到拿不准的专有名词,它宁愿保留英文原样也不乱翻,这一点在学术翻译里其实是个优点。
最明显的特点是会采用学术界约定俗成译名。 在文件一里,遇到 ACM CSUR 这个期刊名,K2 准确译为 “ACM计算综述”,贴合 Computing Surveys 的原意;而 V3 和 V3.2 都翻成了 “ACM计算调查”,稍微懂点计算机学术的人都知道前者才是圈内说法。 同样在文件一,对于 Sapienza University of Rome,K2 给出了 “罗马第一大学” 这个官方中文名,V3.2 则简单音译为 “罗马萨皮恩扎大学” ,V3翻译为 “罗马智慧大学”。
在文件三和文件六里,K2 甚至能识别出书名和期刊名,给 System of Logic 和 MIS Quarterly 加上了书名号,分别译为 “《逻辑体系》” 和 “《MIS季刊》”。这种细节处理,让译文看起来更有学术味。
最重要的一点是安全性高。文件二里有个大坑:Enterprise Rent-A-Car(企业号租车公司)。K2 老老实实保留了英文原样。但 DeepSeek 的两个版本竟然都把它强行翻译成了 “安飞士租车公司”。Avis(安飞士)是 Enterprise 的竞争对手,这种翻译错误如果出现在正式场合,后果会很严重。
当然,K2 也有缺点,就是有时候太保守。 在文件四中,面对 O-enhancing HRM practices 这种缩写,K2 直译为 “O 增强型人力资源管理实践”,读起来有点硬;而 V3.2 就很贴心地展开解释为 “机会增强型人力资源管理实践”。同样在文件四,对于 multiple NCA,K2 仅译为 “多重NCA”,不像 V3 系列那样完整展开为 “多元必要条件分析”。
2. DeepSeek V3.2:聪明、流畅,但爱脑补
V3.2 的中文表现力是最好的,它很擅长把生硬的术语转化为通顺的中文,适合辅助阅读,但脑补过头也带来了不少事实性错误。
先说优点,它真的很会说“人话”。 在文件二里,原文 Evangelistic customer loyalty,K2 翻成 “福音式客户忠诚”,虽然字面没大错但很生涩;V3翻译为 “狂热客户忠诚度” ;V3.2 翻成 “传道式客户忠诚”,那种“像传教士一样主动向别人安利”的意思一下子就出来了。 在文件一里,它也能识别 AIBOM 这种生僻缩写,译为 “人工智能物料清单”,而 K2 和 V3 都只是保留了 “AIBOM” 英文。
但它的短板也很明显:容易过度意译,甚至出现幻觉。
最典型的是文件六里的 visible colleges(显性学院)。V3.2 可能是联想到了更著名的 _invisible college_,竟然直接反向操作,把它翻译成了 “无形学院”,意思完全搞反了(V3 译为 “显性学院”,k2未提取该术语)。
在文件七里,它对人名的处理也过于激进。文中出现了 A. Ng,V3.2 不管三七二十一全部统一译成 “吴恩达”。虽然吴恩达确实叫 A. Ng,但你不能把论文里所有姓 A 名 Ng 的人都算在他头上吧?相比之下 K2 保留 “A. Ng” 就稳妥得多。
还有文件七里的 Amazon Mechanical Turk,K2 保留了英文,V3.2 和 V3 却都翻成了 “亚马逊土耳其机器人”,把众包平台理解成了机器人,这误差有点大。
3. DeepSeek V3:夹在中间
V3 的表现介于两者之间。它的语义稳定性比 V3.2 稍好(没那么爱乱改概念),但问题在于噪音偏大。
首先是无效信息多。 在文件六的术语表里,V3 抓取了大量的年份区间(如 “1980–2000”、“1937–2016”)和完整的 DOI 网址(如 “https://doi.org/10.1016/...”)。这些东西根本不需要翻译,放进术语表里纯属浪费 Token。
其次是译法摇摆。 它有时候像 K2 一样保留缩写,有时候又像 V3.2 一样强行展开。比如文件七的 RNN tree structure,V3.2 和 K2 都简洁地译为 “RNN树结构”,V3 却非要展开成 “循环神经网络树结构”,显得啰嗦。 不过它也有比 V3.2 好的地方。例如文件四里的 cultural and informal institutions,V3.2 漏译了 _informal_,变成了 “文化与制度”;V3 则完整译出了 “文化与非正式制度”。
三、一定要开启术语提取吗?
有人可能会问,关掉术语提取是不是更省钱?答案是肯定的,但我不建议这么做,因为质量损失很大。
我们可以看来自 BabelDOC 的线上反馈实际数据:开启自动提取后,单页平均需要 7000 tokens;关闭后,大约是 4500 tokens。这意味着你每页只需多投入 2500 tokens,翻译的精准度就会有质的飞跃。
至于 Token 的消耗结构,无论是否启用该功能,输入与输出的比例大概都在 75:25。
关闭自动术语提取时,输入 : 输出 token 比例大致为 3:1;开启自动术语提取时,输入 : 输出 token 比例大致为 4:1。
四、 总结与选型建议
测完这一圈,结论其实很清晰了。
Kimi K2 是目前最适合做术语提取的模型。虽然它有时候显得“死板”,保留英文较多,但它极少犯错,不会把A公司翻成B公司,也不会搞错学术概念。对于追求准确性的论文翻译来说,“不犯错”远比“好听”重要。
DeepSeek V3.2 的优势在于翻译出的中文最流畅、最像人话,但确实存在“脑补”过度的问题。不过他具有很强的缓存机制,这张牌直接把它的性价比打到了外太空,让我们很难完全忽略它。
💡 关于 DeepSeek 的“硬盘缓存”
在推荐具体组合前,必须得提一下 DeepSeek 官方 API 的上下文硬盘缓存。
简单说,DeepSeek 会自动把你看过的内容缓存在硬盘里。这项功能对所有用户自动开启,只要你的输入前缀和之前相同(且长度超过 64 tokens 这个极低的门槛),系统就会直接读取缓存,不再重复计算,同时价格极低,仅为 **0.2元/百万 token。
推荐组合
注:根据测试数据,术语提取阶段的 Token 输入量约为翻译阶段的 2 倍,但输出仅为翻译阶段的 1/2。所以,把好钢用在刀刃上。
方案 A:追求效果(质量优先)
- 术语提取:使用 SiliconFlow 平台的
Pro/moonshotai/Kimi-K2-Instruct-0905 - 正文翻译:使用 DeepSeek 官方的
deepseek-chat - 评价:利用 K2 的严谨把控术语准确性,再利用 DeepSeek 的高智商保证正文流畅度。这是目前最稳妥的搭配。
方案 B:极致省钱(高性价比)
- 术语提取:依然建议用 SiliconFlow 的
Pro/moonshotai/Kimi-K2-Instruct-0905 - 正文翻译:使用阿里云的
qwen-plus - 评价:Qwen-plus 翻译质量在线,配合阿里云的低价策略,成本控制极佳。
方案 C:懒人方案(省事、极低价)
- 全部阶段:全程使用 DeepSeek 官网的
deepseek-chat - 评价:虽然 V3.2 偶尔会意译过度,但配置最简单,不用切换平台。最关键的是,全程都能吃到 DeepSeek 的上下文缓存。一旦命中缓存,成本直接打一折,便宜到几乎可以忽略不计。
速率配置建议
为了避免并发过高导致报错,建议参考以下限速配置:
| 术语提取 | 正文翻译 | |
|---|---|---|
| QPS | 100 | 100 |
| pool-max-workers | 200 | 500 |
调试建议: Pool Worker 建议固定为:术语提取200,正文翻译500。QPS 受网络波动影响较大,建议从 100 开始测。如果控制台报 429 错误(Too Many Requests),就稍微调低一点,直到不再报错。
五、线上体验
如果您是沉浸式翻译的会员,现在可以直接体验到 Kimi + Qwen 以及 Kimi + DeepSeek 的组合服务。点击查看详情
点击这里快速体验Babeldoc。
制作名单
博文文案:她笑中藏泪花&awwaawwa
翻译测试:她笑中藏泪花&awwaawwa
视频录制:她笑中藏泪花
特别鸣谢:awwaawwa
文献列表
[1]MAZZOCCA C, ACAR A, ULUAGAC S, et al. A Survey on Decentralized Identifiers and Verifiable Credentials[J/OL]. IEEE Communications Surveys & Tutorials, 2025: 1-1. DOI:10.1109/COMST.2025.3543197.
[2]REICHHELD F F. The One Number You Need to Grow[J]. Harvard business review, 2003, 81(12): 46-55.
[3]DUL J. A different causal perspective with Necessary Condition Analysis[J/OL]. Journal of Business Research, 2024, 177: 114618. DOI:10.1016/j.jbusres.2024.114618.
[4]DUL J, HAUFF S, BOUNCKEN R B. Necessary condition analysis (NCA): review of research topics and guidelines for good practice[J/OL]. Review of Managerial Science, 2023, 17(2): 683-714. DOI:10.1007/s11846-023-00628-x.
[5]CHEN C. Science Mapping: A Systematic Review of the Literature[J/OL]. Journal of Data and Information Science, 2017, 2(2): 1-40. DOI:10.1515/jdis-2017-0006.
[6]MUKHERJEE D, LIM W M, KUMAR S, et al. Guidelines for advancing theory and practice through bibliometric research[J/OL]. Journal of Business Research, 2022, 148: 101-115. DOI:10.1016/j.jbusres.2022.04.042.
[7]SOCHER R. RECURSIVE DEEP LEARNING FOR NATURAL LANGUAGE PROCESSING AND COMPUTER VISION[J].