【DocuTranslate】超好用的多格式开源文档翻译工具

【DocuTranslate】超好用的多格式开源文档翻译工具

她笑中藏泪花
昨天发布 /正在检测是否收录...

引言

在日常工作中,我们经常需要翻译各种文档,例如 Word、Excel、字幕、电子书等。市面上的在线服务要么翻译质量一般,要么价格较高。

这里推荐一款实用的开源文档翻译器:DocuTranslate(许可证:MPL-2.0)。它支持多种常见文档格式,包括:

  • 文档类:pdfdocxmdtxtjson
  • 电子书类:epub
  • 表格类:xlsxcsv
  • 字幕类:srtass
  • 图片类:png

特别说明: 对于 PDF 格式,DocuTranslate 会先转换为 Markdown,然后再交由 LLM 翻译。因此,对于对排版要求极高的 PDF 文档,推荐使用PDFMathTranslate

项目交流 QQ 群:1047781902
作者在b站也有账号:寻步blbl的个人空间

下载

前往 GitHub 发布页面,下载与你操作系统对应的整合包版本(免安装,点击即用):

👉 Releases · xunbu/docutranslate


使用指南

第一步:选择工作流

在左侧配置面板顶部,选择适合你文档类型的处理流程。默认开启“自动选择工作流”,只需上传文件,系统会自动匹配合适的流程。


第二步:配置参数

工作流特定选项

1. 解析配置(适用于 “转 Markdown 再翻译”)
  • 解析引擎:可选 MinerU(在线)docling(本地),其中 docling 仅在完整版中提供。
  • MinerU Token:使用 MinerU 时必须提供 Token。前往 MinerU 官网,进入 API Token Management 创建。Token 默认有效期为 14 天
2. 翻译选项(适用于纯文本 / DOCX / XLSX / SRT / ASS / EPUB / HTML)
  • 插入模式:可配置译文插入方式:

    • 替换原文
    • 附加在原文后
    • 前置在原文前
  • 分隔符:用于区分原文与译文,常见如 \N(在字幕翻译中常用)。
3. JSON 路径配置
  • 需要翻译的 JSONPath:每行一个表达式,例如 $.items[*].title。语法遵循 jsonpath-ng
    部分语法示例:
类别语法含义
基本语法$根对象
基本语法[ idx ]数组访问(与字段访问始终不歧义)
运算符jsonpath1 . jsonpath2从任一匹配 jsonpath1 的节点出发,选取匹配 jsonpath2 的所有节点
字段(field)fieldname“当前”对象中的字段 fieldname
字段(field)*任意字段
字段(field)field , field两者之一(也可用 `
数组(idx)[n]数组索引(可为逗号分隔列表)
数组(idx)[*]任意数组索引

通用选项

翻译模型设置
  • 平台 / API 地址 / API Key / 模型 ID:根据你使用的平台配置。
  • 跳过翻译:仅执行结构解析与格式转换,跳过调用 LLM,可用于预检查,也可以用于制作术语表
  • 思考模式建议禁用。以减少结构不稳定和漏翻现象。
翻译控制参数
  • 目标语言:如 中文英文
  • 自定义 Prompt:可设定指令,例如“人名保持原文”。
  • 高级参数

    • chunk_size:分块大小,越大翻译质量越稳定,推荐不超过 8000 字节。
    • concurrent:并发数,受限于平台速率限制,建议根据平台实际限制调整。
    • timeout:接口超时时间。
    • 重试次数: 大模型翻译失败后重试的次数。
术语表支持
  • 上传术语表(可选):上传 CSV 文件,确保术语统一。
  • 自动生成术语表:勾选后,系统会先抽取术语再翻译。自 v1.4.8 起支持自定义术语抽取提示词。

第三步:上传文件

在右侧任务区域,点击或拖拽上传文档,支持批量上传。


第四步:开始翻译

文件上传成功后,点击任务卡右下角的 开始翻译 按钮。


第五步:查看与下载结果

翻译完成后,每个任务卡片下方会出现:

  • 预览:点击可在右侧面板对照原文与译文,检查排版与术语准确性。
  • 下载:支持导出为 PDF、DOCX、Markdown、HTML 等多种格式。

    • HTML/XHTML → PDF 的导出功能通过 UI 提供。
  • 附件:如术语表等辅助文件,会自动附在下载列表中。

翻译文件效果示例

以下是实际文件翻译的截图展示。

DOCX(Word 文档)

以下是《小王子》第十九章的翻译效果,原文中包含表格与图片,译文成功保留了全部结构与样式。

Word翻译效果


XLSX(Excel 表格)

表格中的格式、颜色、合并单元格等均得到良好保留:

Excel翻译效果


JSON

JSON 内容根据路径精准翻译,结构未被破坏,我这里输入的是$.store.book[*].author,仅翻译book中的 author

JSON翻译效果


EPUB(电子书)

电子书的章节结构和段落样式均保留:

EPUB翻译效果


PDF(自动转 Markdown)

PDF 效果相对一般,结构易被破坏。以下是对比图(左:原图,中:pdf2zh,右:DocuTranslate):

对于复杂数学排版或格式敏感的论文,建议使用 PDFMathTranslate

PDF对比图


结语

DocuTranslate 提供了开源、可定制的文档翻译解决方案,尤其适合开发者、研究者或有特定术语要求的团队。它支持本地运行,可高度自定义,适配主流 LLM 平台,是替代昂贵商业工具的优秀选择。

如需参与开发、贡献新功能或反馈 bug,欢迎访问 GitHub 项目主页:

👉 xunbu/docutranslate · GitHub

👉 项目交流 QQ 群:1047781902

© 版权声明
THE END
喜欢就支持一下吧
点赞 1 分享 收藏
评论 抢沙发
OωO
取消