引言

用过 pdf2zh-next 的朋友都知道,它在处理复杂排版、公式和跨页表格上表现确实出色。但一直以来有个痛点:大模型翻译的 Token 成本太高了

性能强的模型贵,便宜的模型翻译质量又容易崩。那么有没有一种既省钱又不牺牲质量的办法?

还真有。最近 pdf2zh-next 更新了一个关键功能:支持把“术语提取”和“正文翻译”拆开配置。简单来说,就是先用一个模型通读全文,把专有名词拎出来定好译名,再把这些术语扔给翻译模型去跑全文。这样既能避免同一个词前后翻译不一致,也能减少模型胡乱发挥的风险。

为了找出最合适的搭配,我找来了七份不同领域的文档,实测了目前市面上主流的几个国产大模型:Kimi K2 (0905)DeepSeek V3 以及 DeepSeek V3.2 (Exp),看看它们在术语提取上到底谁更靠谱。


一、 提取数量对比:多不一定就是好

首先看提取的数量。我在7个不同文件中测试了三个模型,结果如下:

序号kimi-k2deepseek-v3deepseek-v3.2
1174316031625
2190248283
3359364481
4956902927
5459607703
610169961074
7276832423199

表1:各模型提取术语条目数量对比

乍一看,DeepSeek 系列提取的词条数量普遍更多。但检查具体内容后发现,多出来的这部分并不全是有效信息。DeepSeek 倾向于把年份、DOI 链接甚至公式编号也当成“术语”抓取出来。这些无效信息不仅没用,反而在增加了 Token 消耗,产生一些不必要的成本。

相比之下,Kimi K2 的数量虽然少一些,但含金量更高,很少有凑数的无效条目。


二、 质量深扒:谁更懂学术?

光看数量没用,关键是准不准。为了验证质量,我仔细核对了提取结果,发现几个模型各有特色。下面挑几个典型案例具体说说。

1. Kimi K2:克制、严谨

K2 给我最大的印象就是非常守规矩。遇到拿不准的专有名词,它宁愿保留英文原样也不乱翻,这一点在学术翻译里其实是个优点。

最明显的特点是会采用学术界约定俗成译名。 在文件一里,遇到 ACM CSUR 这个期刊名,K2 准确译为 “ACM计算综述”,贴合 Computing Surveys 的原意;而 V3 和 V3.2 都翻成了 “ACM计算调查”,稍微懂点计算机学术的人都知道前者才是圈内说法。 同样在文件一,对于 Sapienza University of Rome,K2 给出了 “罗马第一大学” 这个官方中文名,V3.2 则简单音译为 “罗马萨皮恩扎大学” ,V3翻译为 “罗马智慧大学”

文件三文件六里,K2 甚至能识别出书名和期刊名,给 System of LogicMIS Quarterly 加上了书名号,分别译为 “《逻辑体系》”“《MIS季刊》”。这种细节处理,让译文看起来更有学术味。

最重要的一点是安全性高文件二里有个大坑:Enterprise Rent-A-Car(企业号租车公司)。K2 老老实实保留了英文原样。但 DeepSeek 的两个版本竟然都把它强行翻译成了 “安飞士租车公司”。Avis(安飞士)是 Enterprise 的竞争对手,这种翻译错误如果出现在正式场合,后果会很严重。

当然,K2 也有缺点,就是有时候太保守。 在文件四中,面对 O-enhancing HRM practices 这种缩写,K2 直译为 “O 增强型人力资源管理实践”,读起来有点硬;而 V3.2 就很贴心地展开解释为 “机会增强型人力资源管理实践”。同样在文件四,对于 multiple NCA,K2 仅译为 “多重NCA”,不像 V3 系列那样完整展开为 “多元必要条件分析”

2. DeepSeek V3.2:聪明、流畅,但爱脑补

V3.2 的中文表现力是最好的,它很擅长把生硬的术语转化为通顺的中文,适合辅助阅读,但脑补过头也带来了不少事实性错误。

先说优点,它真的很会说“人话”。 在文件二里,原文 Evangelistic customer loyalty,K2 翻成 “福音式客户忠诚”,虽然字面没大错但很生涩;V3翻译为 “狂热客户忠诚度” ;V3.2 翻成 “传道式客户忠诚”,那种“像传教士一样主动向别人安利”的意思一下子就出来了。 在文件一里,它也能识别 AIBOM 这种生僻缩写,译为 “人工智能物料清单”,而 K2 和 V3 都只是保留了 “AIBOM” 英文。

但它的短板也很明显:容易过度意译,甚至出现幻觉

最典型的是文件六里的 visible colleges(显性学院)。V3.2 可能是联想到了更著名的 _invisible college_,竟然直接反向操作,把它翻译成了 “无形学院”,意思完全搞反了(V3 译为 “显性学院”,k2未提取该术语)。

文件七里,它对人名的处理也过于激进。文中出现了 A. Ng,V3.2 不管三七二十一全部统一译成 “吴恩达”。虽然吴恩达确实叫 A. Ng,但你不能把论文里所有姓 A 名 Ng 的人都算在他头上吧?相比之下 K2 保留 “A. Ng” 就稳妥得多。

还有文件七里的 Amazon Mechanical Turk,K2 保留了英文,V3.2 和 V3 却都翻成了 “亚马逊土耳其机器人”,把众包平台理解成了机器人,这误差有点大。

3. DeepSeek V3:夹在中间

V3 的表现介于两者之间。它的语义稳定性比 V3.2 稍好(没那么爱乱改概念),但问题在于噪音偏大

首先是无效信息多。 在文件六的术语表里,V3 抓取了大量的年份区间(如 “1980–2000”“1937–2016”)和完整的 DOI 网址(如 https://doi.org/10.1016/...”)。这些东西根本不需要翻译,放进术语表里纯属浪费 Token。

其次是译法摇摆。 它有时候像 K2 一样保留缩写,有时候又像 V3.2 一样强行展开。比如文件七RNN tree structure,V3.2 和 K2 都简洁地译为 “RNN树结构”,V3 却非要展开成 “循环神经网络树结构”,显得啰嗦。 不过它也有比 V3.2 好的地方。例如文件四里的 cultural and informal institutions,V3.2 漏译了 _informal_,变成了 “文化与制度”;V3 则完整译出了 “文化与非正式制度”


三、一定要开启术语提取吗?

有人可能会问,关掉术语提取是不是更省钱?答案是肯定的,但我不建议这么做,因为质量损失很大。

我们可以看来自 BabelDOC 的线上反馈实际数据:开启自动提取后,单页平均需要 7000 tokens;关闭后,大约是 4500 tokens。这意味着你每页只需多投入 2500 tokens,翻译的精准度就会有质的飞跃。

至于 Token 的消耗结构,无论是否启用该功能,输入与输出的比例大概都在 75:25。

关闭自动术语提取时,输入 : 输出 token 比例大致为 3:1;开启自动术语提取时,输入 : 输出 token 比例大致为 4:1。


四、 总结与选型建议

测完这一圈,结论其实很清晰了。

Kimi K2 是目前最适合做术语提取的模型。虽然它有时候显得“死板”,保留英文较多,但它极少犯错,不会把A公司翻成B公司,也不会搞错学术概念。对于追求准确性的论文翻译来说,“不犯错”远比“好听”重要。

DeepSeek V3.2 的优势在于翻译出的中文最流畅、最像人话,但确实存在“脑补”过度的问题。不过他具有很强的缓存机制,这张牌直接把它的性价比打到了外太空,让我们很难完全忽略它。

💡 关于 DeepSeek 的“硬盘缓存”

在推荐具体组合前,必须得提一下 DeepSeek 官方 API 的上下文硬盘缓存

简单说,DeepSeek 会自动把你看过的内容缓存在硬盘里。这项功能对所有用户自动开启,只要你的输入前缀和之前相同(且长度超过 64 tokens 这个极低的门槛),系统就会直接读取缓存,不再重复计算,同时价格极低,仅为 **0.2元/百万 token。

推荐组合

:根据测试数据,术语提取阶段的 Token 输入量约为翻译阶段的 2 倍,但输出仅为翻译阶段的 1/2。所以,把好钢用在刀刃上。

方案 A:追求效果(质量优先)

  • 术语提取:使用 SiliconFlow 平台的 Pro/moonshotai/Kimi-K2-Instruct-0905
  • 正文翻译:使用 DeepSeek 官方的 deepseek-chat
  • 评价:利用 K2 的严谨把控术语准确性,再利用 DeepSeek 的高智商保证正文流畅度。这是目前最稳妥的搭配。

方案 B:极致省钱(高性价比)

  • 术语提取:依然建议用 SiliconFlow 的 Pro/moonshotai/Kimi-K2-Instruct-0905
  • 正文翻译:使用阿里云的 qwen-plus
  • 评价:Qwen-plus 翻译质量在线,配合阿里云的低价策略,成本控制极佳。

方案 C:懒人方案(省事、极低价)

  • 全部阶段:全程使用 DeepSeek 官网的 deepseek-chat
  • 评价:虽然 V3.2 偶尔会意译过度,但配置最简单,不用切换平台。最关键的是,全程都能吃到 DeepSeek 的上下文缓存。一旦命中缓存,成本直接打一折,便宜到几乎可以忽略不计。

速率配置建议

为了避免并发过高导致报错,建议参考以下限速配置:

术语提取正文翻译
QPS100100
pool-max-workers200500

调试建议Pool Worker 建议固定为:术语提取200,正文翻译500QPS 受网络波动影响较大,建议从 100 开始测。如果控制台报 429 错误(Too Many Requests),就稍微调低一点,直到不再报错。


五、线上体验

如果您是沉浸式翻译的会员,现在可以直接体验到 Kimi + Qwen 以及 Kimi + DeepSeek 的组合服务。点击查看详情

点击这里快速体验Babeldoc。


制作名单

博文文案:她笑中藏泪花&awwaawwa
翻译测试:她笑中藏泪花&awwaawwa
视频录制:她笑中藏泪花
特别鸣谢:awwaawwa


文献列表

[1]MAZZOCCA C, ACAR A, ULUAGAC S, et al. A Survey on Decentralized Identifiers and Verifiable Credentials[J/OL]. IEEE Communications Surveys & Tutorials, 2025: 1-1. DOI:10.1109/COMST.2025.3543197.
[2]REICHHELD F F. The One Number You Need to Grow[J]. Harvard business review, 2003, 81(12): 46-55.
[3]DUL J. A different causal perspective with Necessary Condition Analysis[J/OL]. Journal of Business Research, 2024, 177: 114618. DOI:10.1016/j.jbusres.2024.114618.
[4]DUL J, HAUFF S, BOUNCKEN R B. Necessary condition analysis (NCA): review of research topics and guidelines for good practice[J/OL]. Review of Managerial Science, 2023, 17(2): 683-714. DOI:10.1007/s11846-023-00628-x.
[5]CHEN C. Science Mapping: A Systematic Review of the Literature[J/OL]. Journal of Data and Information Science, 2017, 2(2): 1-40. DOI:10.1515/jdis-2017-0006.
[6]MUKHERJEE D, LIM W M, KUMAR S, et al. Guidelines for advancing theory and practice through bibliometric research[J/OL]. Journal of Business Research, 2022, 148: 101-115. DOI:10.1016/j.jbusres.2022.04.042.
[7]SOCHER R. RECURSIVE DEEP LEARNING FOR NATURAL LANGUAGE PROCESSING AND COMPUTER VISION[J].

最后修改:2025 年 11 月 26 日
如果您觉得本文还不错,欢迎打赏支持