引言
在日常工作中,我们经常需要翻译各种文档,例如 Word、Excel、字幕、电子书等。市面上的在线服务要么翻译质量一般,要么价格较高。
这里推荐一款实用的开源文档翻译器:DocuTranslate(许可证:MPL-2.0)。它支持多种常见文档格式,包括:
- 文档类:
pdf
、docx
、md
、txt
、json
- 电子书类:
epub
- 表格类:
xlsx
、csv
- 字幕类:
srt
、ass
- 图片类:
png
特别说明: 对于 PDF 格式,DocuTranslate 会先转换为 Markdown,然后再交由 LLM 翻译。因此,对于对排版要求极高的 PDF 文档,推荐使用PDFMathTranslate。
项目交流 QQ 群:1047781902
作者在b站也有账号:寻步blbl的个人空间
下载
前往 GitHub 发布页面,下载与你操作系统对应的整合包版本(免安装,点击即用):
👉 Releases · xunbu/docutranslate
使用指南
第一步:选择工作流
在左侧配置面板顶部,选择适合你文档类型的处理流程。默认开启“自动选择工作流”,只需上传文件,系统会自动匹配合适的流程。
第二步:配置参数
工作流特定选项
1. 解析配置(适用于 “转 Markdown 再翻译”)
- 解析引擎:可选 MinerU(在线) 或 docling(本地),其中 docling 仅在完整版中提供。
- MinerU Token:使用 MinerU 时必须提供 Token。前往 MinerU 官网,进入 API Token Management 创建。Token 默认有效期为 14 天。
2. 翻译选项(适用于纯文本 / DOCX / XLSX / SRT / ASS / EPUB / HTML)
插入模式:可配置译文插入方式:
- 替换原文
- 附加在原文后
- 前置在原文前
- 分隔符:用于区分原文与译文,常见如
\N
(在字幕翻译中常用)。
3. JSON 路径配置
- 需要翻译的 JSONPath:每行一个表达式,例如
$.items[*].title
。语法遵循jsonpath-ng
。
部分语法示例:
类别 | 语法 | 含义 |
---|---|---|
基本语法 | $ | 根对象 |
基本语法 | [ idx ] | 数组访问(与字段访问始终不歧义) |
运算符 | jsonpath1 . jsonpath2 | 从任一匹配 jsonpath1 的节点出发,选取匹配 jsonpath2 的所有节点 |
字段(field) | fieldname | “当前”对象中的字段 fieldname |
字段(field) | * | 任意字段 |
字段(field) | field , field | 两者之一(也可用 ` |
数组(idx) | [n] | 数组索引(可为逗号分隔列表) |
数组(idx) | [*] | 任意数组索引 |
通用选项
翻译模型设置
- 平台 / API 地址 / API Key / 模型 ID:根据你使用的平台配置。
- 跳过翻译:仅执行结构解析与格式转换,跳过调用 LLM,可用于预检查,也可以用于制作术语表。
- 思考模式:建议禁用。以减少结构不稳定和漏翻现象。
翻译控制参数
- 目标语言:如
中文
、英文
。 - 自定义 Prompt:可设定指令,例如“人名保持原文”。
高级参数:
chunk_size
:分块大小,越大翻译质量越稳定,推荐不超过8000
字节。concurrent
:并发数,受限于平台速率限制,建议根据平台实际限制调整。timeout
:接口超时时间。重试次数
: 大模型翻译失败后重试的次数。
术语表支持
- 上传术语表(可选):上传 CSV 文件,确保术语统一。
- 自动生成术语表:勾选后,系统会先抽取术语再翻译。自
v1.4.8
起支持自定义术语抽取提示词。
第三步:上传文件
在右侧任务区域,点击或拖拽上传文档,支持批量上传。
第四步:开始翻译
文件上传成功后,点击任务卡右下角的 开始翻译 按钮。
第五步:查看与下载结果
翻译完成后,每个任务卡片下方会出现:
- 预览:点击可在右侧面板对照原文与译文,检查排版与术语准确性。
下载:支持导出为 PDF、DOCX、Markdown、HTML 等多种格式。
- HTML/XHTML → PDF 的导出功能通过 UI 提供。
- 附件:如术语表等辅助文件,会自动附在下载列表中。
翻译文件效果示例
以下是实际文件翻译的截图展示。
DOCX(Word 文档)
以下是《小王子》第十九章的翻译效果,原文中包含表格与图片,译文成功保留了全部结构与样式。
XLSX(Excel 表格)
表格中的格式、颜色、合并单元格等均得到良好保留:
JSON
JSON 内容根据路径精准翻译,结构未被破坏,我这里输入的是$.store.book[*].author
,仅翻译book中的 author
:
EPUB(电子书)
电子书的章节结构和段落样式均保留:
PDF(自动转 Markdown)
PDF 效果相对一般,结构易被破坏。以下是对比图(左:原图,中:pdf2zh,右:DocuTranslate):
对于复杂数学排版或格式敏感的论文,建议使用 PDFMathTranslate。
结语
DocuTranslate 提供了开源、可定制的文档翻译解决方案,尤其适合开发者、研究者或有特定术语要求的团队。它支持本地运行,可高度自定义,适配主流 LLM 平台,是替代昂贵商业工具的优秀选择。
如需参与开发、贡献新功能或反馈 bug,欢迎访问 GitHub 项目主页:
👉 xunbu/docutranslate · GitHub
👉 项目交流 QQ 群:1047781902