大模型翻译PDF太贵？pdf2zh-next 新流程实测：Kimi 提术语 + DeepSeek 翻正文，成本更低质量更稳

博主：她笑中藏泪花
发布时间：2025 年 11 月 26 日
16 次浏览
7147字数
分类：全部文章评测对比 pdf2zh

引言

用过 pdf2zh-next 的朋友都知道，它在处理复杂排版、公式和跨页表格上表现确实出色。但一直以来有个痛点：大模型翻译的 Token 成本太高了。

性能强的模型贵，便宜的模型翻译质量又容易崩。那么有没有一种既省钱又不牺牲质量的办法？

还真有。最近 pdf2zh-next 更新了一个关键功能：支持把“术语提取”和“正文翻译”拆开配置。简单来说，就是先用一个模型通读全文，把专有名词拎出来定好译名，再把这些术语扔给翻译模型去跑全文。这样既能避免同一个词前后翻译不一致，也能减少模型胡乱发挥的风险。

为了找出最合适的搭配，我找来了七份不同领域的文档，实测了目前市面上主流的几个国产大模型：Kimi K2 (0905)、DeepSeek V3 以及 DeepSeek V3.2 (Exp)，看看它们在术语提取上到底谁更靠谱。

一、提取数量对比：多不一定就是好

首先看提取的数量。我在7个不同文件中测试了三个模型，结果如下：

序号	kimi-k2	deepseek-v3	deepseek-v3.2
1	1743	1603	1625
2	190	248	283
3	359	364	481
4	956	902	927
5	459	607	703
6	1016	996	1074
7	2768	3242	3199

表1：各模型提取术语条目数量对比

乍一看，DeepSeek 系列提取的词条数量普遍更多。但检查具体内容后发现，多出来的这部分并不全是有效信息。DeepSeek 倾向于把年份、DOI 链接甚至公式编号也当成“术语”抓取出来。这些无效信息不仅没用，反而在增加了 Token 消耗，产生一些不必要的成本。

相比之下，Kimi K2 的数量虽然少一些，但含金量更高，很少有凑数的无效条目。

二、质量深扒：谁更懂学术？

光看数量没用，关键是准不准。为了验证质量，我仔细核对了提取结果，发现几个模型各有特色。下面挑几个典型案例具体说说。

1. Kimi K2：克制、严谨

K2 给我最大的印象就是非常守规矩。遇到拿不准的专有名词，它宁愿保留英文原样也不乱翻，这一点在学术翻译里其实是个优点。

最明显的特点是会采用学术界约定俗成译名。在文件一里，遇到 ACM CSUR 这个期刊名，K2 准确译为 “ACM计算综述”，贴合 Computing Surveys 的原意；而 V3 和 V3.2 都翻成了 “ACM计算调查”，稍微懂点计算机学术的人都知道前者才是圈内说法。同样在文件一，对于 Sapienza University of Rome，K2 给出了 “罗马第一大学” 这个官方中文名，V3.2 则简单音译为 “罗马萨皮恩扎大学” ，V3翻译为 “罗马智慧大学”。

在文件三和文件六里，K2 甚至能识别出书名和期刊名，给 System of Logic 和 MIS Quarterly 加上了书名号，分别译为 “《逻辑体系》” 和 “《MIS季刊》”。这种细节处理，让译文看起来更有学术味。

最重要的一点是安全性高。文件二里有个大坑：Enterprise Rent-A-Car（企业号租车公司）。K2 老老实实保留了英文原样。但 DeepSeek 的两个版本竟然都把它强行翻译成了 “安飞士租车公司”。Avis（安飞士）是 Enterprise 的竞争对手，这种翻译错误如果出现在正式场合，后果会很严重。

当然，K2 也有缺点，就是有时候太保守。在文件四中，面对 O-enhancing HRM practices 这种缩写，K2 直译为 “O 增强型人力资源管理实践”，读起来有点硬；而 V3.2 就很贴心地展开解释为 “机会增强型人力资源管理实践”。同样在文件四，对于 multiple NCA，K2 仅译为 “多重NCA”，不像 V3 系列那样完整展开为 “多元必要条件分析”。

2. DeepSeek V3.2：聪明、流畅，但爱脑补

V3.2 的中文表现力是最好的，它很擅长把生硬的术语转化为通顺的中文，适合辅助阅读，但脑补过头也带来了不少事实性错误。

先说优点，它真的很会说“人话”。在文件二里，原文 Evangelistic customer loyalty，K2 翻成 “福音式客户忠诚”，虽然字面没大错但很生涩；V3翻译为 “狂热客户忠诚度” ；V3.2 翻成 “传道式客户忠诚”，那种“像传教士一样主动向别人安利”的意思一下子就出来了。在文件一里，它也能识别 AIBOM 这种生僻缩写，译为 “人工智能物料清单”，而 K2 和 V3 都只是保留了 “AIBOM” 英文。

但它的短板也很明显：容易过度意译，甚至出现幻觉。

最典型的是文件六里的 visible colleges（显性学院）。V3.2 可能是联想到了更著名的 _invisible college_，竟然直接反向操作，把它翻译成了 “无形学院”，意思完全搞反了（V3 译为 “显性学院”，k2未提取该术语）。

在文件七里，它对人名的处理也过于激进。文中出现了 A. Ng，V3.2 不管三七二十一全部统一译成 “吴恩达”。虽然吴恩达确实叫 A. Ng，但你不能把论文里所有姓 A 名 Ng 的人都算在他头上吧？相比之下 K2 保留 “A. Ng” 就稳妥得多。

还有文件七里的 Amazon Mechanical Turk，K2 保留了英文，V3.2 和 V3 却都翻成了 “亚马逊土耳其机器人”，把众包平台理解成了机器人，这误差有点大。

3. DeepSeek V3：夹在中间

V3 的表现介于两者之间。它的语义稳定性比 V3.2 稍好（没那么爱乱改概念），但问题在于噪音偏大。

首先是无效信息多。在文件六的术语表里，V3 抓取了大量的年份区间（如 “1980–2000”、“1937–2016”）和完整的 DOI 网址（如 “https://doi.org/10.1016/...”）。这些东西根本不需要翻译，放进术语表里纯属浪费 Token。

其次是译法摇摆。它有时候像 K2 一样保留缩写，有时候又像 V3.2 一样强行展开。比如文件七的 RNN tree structure，V3.2 和 K2 都简洁地译为 “RNN树结构”，V3 却非要展开成 “循环神经网络树结构”，显得啰嗦。不过它也有比 V3.2 好的地方。例如文件四里的 cultural and informal institutions，V3.2 漏译了 _informal_，变成了 “文化与制度”；V3 则完整译出了 “文化与非正式制度”。

三、一定要开启术语提取吗？

有人可能会问，关掉术语提取是不是更省钱？答案是肯定的，但我不建议这么做，因为质量损失很大。

我们可以看来自 BabelDOC 的线上反馈实际数据：开启自动提取后，单页平均需要 7000 tokens；关闭后，大约是 4500 tokens。这意味着你每页只需多投入 2500 tokens，翻译的精准度就会有质的飞跃。

至于 Token 的消耗结构，无论是否启用该功能，输入与输出的比例大概都在 75:25。

关闭自动术语提取时，输入 : 输出 token 比例大致为 3:1；开启自动术语提取时，输入 : 输出 token 比例大致为 4:1。

四、总结与选型建议

测完这一圈，结论其实很清晰了。

Kimi K2 是目前最适合做术语提取的模型。虽然它有时候显得“死板”，保留英文较多，但它极少犯错，不会把A公司翻成B公司，也不会搞错学术概念。对于追求准确性的论文翻译来说，“不犯错”远比“好听”重要。

DeepSeek V3.2 的优势在于翻译出的中文最流畅、最像人话，但确实存在“脑补”过度的问题。不过他具有很强的缓存机制，这张牌直接把它的性价比打到了外太空，让我们很难完全忽略它。

💡 关于 DeepSeek 的“硬盘缓存”

在推荐具体组合前，必须得提一下 DeepSeek 官方 API 的上下文硬盘缓存。

简单说，DeepSeek 会自动把你看过的内容缓存在硬盘里。这项功能对所有用户自动开启，只要你的输入前缀和之前相同（且长度超过 64 tokens 这个极低的门槛），系统就会直接读取缓存，不再重复计算，同时价格极低，仅为 **0.2元/百万 token。

速率配置建议

为了避免并发过高导致报错，建议参考以下限速配置：

	术语提取	正文翻译
QPS	100	100
pool-max-workers	200	500

调试建议： Pool Worker 建议固定为：术语提取200，正文翻译500。QPS 受网络波动影响较大，建议从 100 开始测。如果控制台报 429 错误（Too Many Requests），就稍微调低一点，直到不再报错。

五、线上体验

如果您是沉浸式翻译的会员，现在可以直接体验到 Kimi + Qwen 以及 Kimi + DeepSeek 的组合服务。点击查看详情

点击这里快速体验Babeldoc。

制作名单

博文文案：她笑中藏泪花&awwaawwa
翻译测试：她笑中藏泪花&awwaawwa
视频录制：她笑中藏泪花
特别鸣谢：awwaawwa

文献列表

[1]MAZZOCCA C, ACAR A, ULUAGAC S, et al. A Survey on Decentralized Identifiers and Verifiable Credentials[J/OL]. IEEE Communications Surveys & Tutorials, 2025: 1-1. DOI:10.1109/COMST.2025.3543197.
[2]REICHHELD F F. The One Number You Need to Grow[J]. Harvard business review, 2003, 81(12): 46-55.
[3]DUL J. A different causal perspective with Necessary Condition Analysis[J/OL]. Journal of Business Research, 2024, 177: 114618. DOI:10.1016/j.jbusres.2024.114618.
[4]DUL J, HAUFF S, BOUNCKEN R B. Necessary condition analysis (NCA): review of research topics and guidelines for good practice[J/OL]. Review of Managerial Science, 2023, 17(2): 683-714. DOI:10.1007/s11846-023-00628-x.
[5]CHEN C. Science Mapping: A Systematic Review of the Literature[J/OL]. Journal of Data and Information Science, 2017, 2(2): 1-40. DOI:10.1515/jdis-2017-0006.
[6]MUKHERJEE D, LIM W M, KUMAR S, et al. Guidelines for advancing theory and practice through bibliometric research[J/OL]. Journal of Business Research, 2022, 148: 101-115. DOI:10.1016/j.jbusres.2022.04.042.
[7]SOCHER R. RECURSIVE DEEP LEARNING FOR NATURAL LANGUAGE PROCESSING AND COMPUTER VISION[J].

最后修改：2025 年 11 月 26 日

如果您觉得本文还不错，欢迎打赏支持

大模型翻译PDF太贵？pdf2zh-next 新流程实测：Kimi 提术语 + DeepSeek 翻正文，成本更低质量更稳

她笑中藏泪花 • 2025 年 11 月 26 日

<h2>引言</h2>用过 pdf2zh-next 的朋友都知道，它在处理复杂排版、公式和跨页表格上表现确实出色。但一直以来有个痛点：大模型翻译的 Token 成本太高了。性能强的模型贵，便宜的模型翻译质量又容易崩。那么有没有一种既省钱又不牺牲质量的办法？还真有。最近 pdf2zh-next 更新了一个关键功能：支持把“术语提取”和“正文翻译”拆开配置。简单来说，就是先用一个模型通读全文，把专有名词拎出来定好译名，再把这些术语扔给翻译模型去跑全文。这样既能避免同一个词前后翻译不一致，也能减少模型胡乱发挥的风险。为了找出最合适的搭配，我找来了七份不同领域的文档，实测了目前市面上主流的几个国产大模型：Kimi K2 (0905)、DeepSeek V3 以及 DeepSeek V3.2 (Exp)，看看它们在术语提取上到底谁更靠谱。<hr><h2>一、 提取数量对比：多不一定就是好</h2>首先看提取的数量。我在7个不同文件中测试了三个模型，结果如下：<table><thead><tr><th align="center">序号</th><th align="center">kimi-k2</th><th align="center">deepseek-v3</th><th align="center">deepseek-v3.2</th></tr></thead><tbody><tr><td align="center">1</td><td align="center">1743</td><td align="center">1603</td><td align="center">1625</td></tr><tr><td align="center">2</td><td align="center">190</td><td align="center">248</td><td align="center">283</td></tr><tr><td align="center">3</td><td align="center">359</td><td align="center">364</td><td align="center">481</td></tr><tr><td align="center">4</td><td align="center">956</td><td align="center">902</td><td align="center">927</td></tr><tr><td align="center">5</td><td align="center">459</td><td align="center">607</td><td align="center">703</td></tr><tr><td align="center">6</td><td align="center">1016</td><td align="center">996</td><td align="center">1074</td></tr><tr><td align="center">7</td><td align="center">2768</td><td align="center">3242</td><td align="center">3199</td></tr></tbody></table>表1：各模型提取术语条目数量对比乍一看，DeepSeek 系列提取的词条数量普遍更多。但检查具体内容后发现，多出来的这部分并不全是有效信息。DeepSeek 倾向于把年份、DOI 链接甚至公式编号也当成“术语”抓取出来。这些无效信息不仅没用，反而在增加了 Token 消耗，产生一些不必要的成本。相比之下，Kimi K2 的数量虽然少一些，但含金量更高，很少有凑数的无效条目。<hr><h2>二、 质量深扒：谁更懂学术？</h2>光看数量没用，关键是准不准。为了验证质量，我仔细核对了提取结果，发现几个模型各有特色。下面挑几个典型案例具体说说。<h3>1. Kimi K2：克制、严谨</h3>K2 给我最大的印象就是非常守规矩。遇到拿不准的专有名词，它宁愿保留英文原样也不乱翻，这一点在学术翻译里其实是个优点。最明显的特点是会采用学术界约定俗成译名。 在文件一里，遇到 <code>ACM CSUR</code> 这个期刊名，K2 准确译为 “ACM计算综述”，贴合 Computing Surveys 的原意；而 V3 和 V3.2 都翻成了 “ACM计算调查”，稍微懂点计算机学术的人都知道前者才是圈内说法。 同样在文件一，对于 <code>Sapienza University of Rome</code>，K2 给出了 “罗马第一大学” 这个官方中文名，V3.2 则简单音译为 “罗马萨皮恩扎大学” ，V3翻译为 “罗马智慧大学”。在文件三和文件六里，K2 甚至能识别出书名和期刊名，给 <code>System of Logic</code> 和 <code>MIS Quarterly</code> 加上了书名号，分别译为 “《逻辑体系》” 和 “《MIS季刊》”。这种细节处理，让译文看起来更有学术味。最重要的一点是安全性高。文件二里有个大坑：<code>Enterprise Rent-A-Car</code>（企业号租车公司）。K2 老老实实保留了英文原样。但 DeepSeek 的两个版本竟然都把它强行翻译成了 “安飞士租车公司”。Avis（安飞士）是 Enterprise 的竞争对手，这种翻译错误如果出现在正式场合，后果会很严重。当然，K2 也有缺点，就是有时候太保守。 在文件四中，面对 <code>O-enhancing HRM practices</code> 这种缩写，K2 直译为 “O 增强型人力资源管理实践”，读起来有点硬；而 V3.2 就很贴心地展开解释为 “机会增强型人力资源管理实践”。同样在文件四，对于 <code>multiple NCA</code>，K2 仅译为 “多重NCA”，不像 V3 系列那样完整展开为 “多元必要条件分析”。<h3>2. DeepSeek V3.2：聪明、流畅，但爱脑补</h3>V3.2 的中文表现力是最好的，它很擅长把生硬的术语转化为通顺的中文，适合辅助阅读，但脑补过头也带来了不少事实性错误。先说优点，它真的很会说“人话”。 在文件二里，原文 <code>Evangelistic customer loyalty</code>，K2 翻成 “福音式客户忠诚”，虽然字面没大错但很生涩；V3翻译为 “狂热客户忠诚度” ；V3.2 翻成 “传道式客户忠诚”，那种“像传教士一样主动向别人安利”的意思一下子就出来了。 在文件一里，它也能识别 <code>AIBOM</code> 这种生僻缩写，译为 “人工智能物料清单”，而 K2 和 V3 都只是保留了 “AIBOM” 英文。但它的短板也很明显：容易过度意译，甚至出现幻觉。最典型的是文件六里的 <code>visible colleges</code>（显性学院）。V3.2 可能是联想到了更著名的 _invisible college_，竟然直接反向操作，把它翻译成了 “无形学院”，意思完全搞反了（V3 译为 “显性学院”，k2未提取该术语）。在文件七里，它对人名的处理也过于激进。文中出现了 <code>A. Ng</code>，V3.2 不管三七二十一全部统一译成 “吴恩达”。虽然吴恩达确实叫 A. Ng，但你不能把论文里所有姓 A 名 Ng 的人都算在他头上吧？相比之下 K2 保留 “A. Ng” 就稳妥得多。还有文件七里的 <code>Amazon Mechanical Turk</code>，K2 保留了英文，V3.2 和 V3 却都翻成了 “亚马逊土耳其机器人”，把众包平台理解成了机器人，这误差有点大。<h3>3. DeepSeek V3：夹在中间</h3>V3 的表现介于两者之间。它的语义稳定性比 V3.2 稍好（没那么爱乱改概念），但问题在于噪音偏大。首先是无效信息多。 在文件六的术语表里，V3 抓取了大量的年份区间（如 “1980–2000”、“1937–2016”）和完整的 DOI 网址（如 “<a class="no-external-link" href="https://doi.org/10.1016/" target="_blank">https://doi.org/10.1016/</a>...”）。这些东西根本不需要翻译，放进术语表里纯属浪费 Token。其次是译法摇摆。 它有时候像 K2 一样保留缩写，有时候又像 V3.2 一样强行展开。比如文件七的 <code>RNN tree structure</code>，V3.2 和 K2 都简洁地译为 “RNN树结构”，V3 却非要展开成 “循环神经网络树结构”，显得啰嗦。 不过它也有比 V3.2 好的地方。例如文件四里的 <code>cultural and informal institutions</code>，V3.2 漏译了 _informal_，变成了 “文化与制度”；V3 则完整译出了 “文化与非正式制度”。<hr><h2>三、一定要开启术语提取吗？</h2>有人可能会问，关掉术语提取是不是更省钱？答案是肯定的，但我不建议这么做，因为质量损失很大。我们可以看来自 BabelDOC 的线上反馈实际数据：开启自动提取后，单页平均需要 7000 tokens；关闭后，大约是 4500 tokens。这意味着你每页只需多投入 2500 tokens，翻译的精准度就会有质的飞跃。至于 Token 的消耗结构，无论是否启用该功能，输入与输出的比例大概都在 75:25。关闭自动术语提取时，输入 : 输出 token 比例大致为 3:1；开启自动术语提取时，输入 : 输出 token 比例大致为 4:1。<hr><h2>四、 总结与选型建议</h2>测完这一圈，结论其实很清晰了。Kimi K2 是目前最适合做术语提取的模型。虽然它有时候显得“死板”，保留英文较多，但它极少犯错，不会把A公司翻成B公司，也不会搞错学术概念。对于追求准确性的论文翻译来说，“不犯错”远比“好听”重要。DeepSeek V3.2 的优势在于翻译出的中文最流畅、最像人话，但确实存在“脑补”过度的问题。不过他具有很强的缓存机制，这张牌直接把它的性价比打到了外太空，让我们很难完全忽略它。<h3>💡 关于 DeepSeek 的“硬盘缓存”</h3>在推荐具体组合前，必须得提一下 DeepSeek 官方 API 的上下文硬盘缓存。简单说，DeepSeek 会自动把你看过的内容缓存在硬盘里。这项功能对所有用户自动开启，只要你的输入前缀和之前相同（且长度超过 64 tokens 这个极低的门槛），系统就会直接读取缓存，不再重复计算，同时价格极低，仅为 **0.2元/百万 token。<h3>推荐组合</h3><blockquote>注：根据测试数据，术语提取阶段的 Token 输入量约为翻译阶段的 2 倍，但输出仅为翻译阶段的 1/2。所以，把好钢用在刀刃上。</blockquote><h4>方案 A：追求效果（质量优先）</h4><ul><li>术语提取：使用 SiliconFlow 平台的 <code>Pro/moonshotai/Kimi-K2-Instruct-0905</code></li><li>正文翻译：使用 DeepSeek 官方的 <code>deepseek-chat</code></li><li>评价：利用 K2 的严谨把控术语准确性，再利用 DeepSeek 的高智商保证正文流畅度。这是目前最稳妥的搭配。</li></ul><h4>方案 B：极致省钱（高性价比）</h4><ul><li>术语提取：依然建议用 SiliconFlow 的 <code>Pro/moonshotai/Kimi-K2-Instruct-0905</code></li><li>正文翻译：使用阿里云的 <code>qwen-plus</code></li><li>评价：Qwen-plus 翻译质量在线，配合阿里云的低价策略，成本控制极佳。</li></ul><h4>方案 C：懒人方案（省事、极低价）</h4><ul><li>全部阶段：全程使用 DeepSeek 官网的 <code>deepseek-chat</code></li><li>评价：虽然 V3.2 偶尔会意译过度，但配置最简单，不用切换平台。最关键的是，全程都能吃到 DeepSeek 的上下文缓存。一旦命中缓存，成本直接打一折，便宜到几乎可以忽略不计。</li></ul><hr><h3>速率配置建议</h3>为了避免并发过高导致报错，建议参考以下限速配置：<table><thead><tr><th> </th><th>术语提取</th><th>正文翻译</th></tr></thead><tbody><tr><td>QPS</td><td>100</td><td>100</td></tr><tr><td>pool-max-workers</td><td>200</td><td>500</td></tr></tbody></table>调试建议： <code>Pool Worker</code> 建议固定为：术语提取<code>200</code>，正文翻译<code>500</code>。<code>QPS</code> 受网络波动影响较大，建议从 100 开始测。如果控制台报 <code>429</code> 错误（Too Many Requests），就稍微调低一点，直到不再报错。<hr><h2>五、线上体验</h2>如果您是沉浸式翻译的会员，现在可以直接体验到 Kimi + Qwen 以及 Kimi + DeepSeek 的组合服务。<a class="no-external-link" href="https://mp.weixin.qq.com/s/Zpl6gxsm45ILRaAgnFr4Jg" target="_blank">点击查看详情</a>点击<a class="no-external-link" href="https://immersivetranslate.com/?via=4641d7" target="_blank">这里</a>快速体验Babeldoc。<hr><h2>制作名单</h2>博文文案：<a href="https://rosetears.cn/">她笑中藏泪花</a>&<a class="no-external-link" href="https://github.com/awwaawwa" target="_blank">awwaawwa</a> 翻译测试：<a href="https://rosetears.cn/">她笑中藏泪花</a>&<a class="no-external-link" href="https://github.com/awwaawwa" target="_blank">awwaawwa</a> 视频录制：<a href="https://rosetears.cn/">她笑中藏泪花</a> 特别鸣谢：<a class="no-external-link" href="https://github.com/awwaawwa" target="_blank">awwaawwa</a><hr><h2>文献列表</h2>[1]MAZZOCCA C, ACAR A, ULUAGAC S, et al. A Survey on Decentralized Identifiers and Verifiable Credentials[J/OL]. IEEE Communications Surveys & Tutorials, 2025: 1-1. DOI:<a class="no-external-link" href="https://doi.org/10.1109/COMST.2025.3543197" target="_blank">10.1109/COMST.2025.3543197</a>. [2]REICHHELD F F. The One Number You Need to Grow[J]. Harvard business review, 2003, 81(12): 46-55. [3]DUL J. A different causal perspective with Necessary Condition Analysis[J/OL]. Journal of Business Research, 2024, 177: 114618. DOI:<a class="no-external-link" href="https://doi.org/10.1016/j.jbusres.2024.114618" target="_blank">10.1016/j.jbusres.2024.114618</a>. [4]DUL J, HAUFF S, BOUNCKEN R B. Necessary condition analysis (NCA): review of research topics and guidelines for good practice[J/OL]. Review of Managerial Science, 2023, 17(2): 683-714. DOI:<a class="no-external-link" href="https://doi.org/10.1007/s11846-023-00628-x" target="_blank">10.1007/s11846-023-00628-x</a>. [5]CHEN C. Science Mapping: A Systematic Review of the Literature[J/OL]. Journal of Data and Information Science, 2017, 2(2): 1-40. DOI:<a class="no-external-link" href="https://doi.org/10.1515/jdis-2017-0006" target="_blank">10.1515/jdis-2017-0006</a>. [6]MUKHERJEE D, LIM W M, KUMAR S, et al. Guidelines for advancing theory and practice through bibliometric research[J/OL]. Journal of Business Research, 2022, 148: 101-115. DOI:<a class="no-external-link" href="https://doi.org/10.1016/j.jbusres.2022.04.042" target="_blank">10.1016/j.jbusres.2022.04.042</a>. [7]SOCHER R. RECURSIVE DEEP LEARNING FOR NATURAL LANGUAGE PROCESSING AND COMPUTER VISION[J].

大模型翻译PDF太贵？pdf2zh-next 新流程实测：Kimi 提术语 + DeepSeek 翻正文，成本更低质量更稳

引言

一、提取数量对比：多不一定就是好