我们最近革新了整个翻译流程 - 代码天地

我们最近革新了整个翻译流程

企业开发 2023-07-11 18:56:11 阅读次数: 0

目前的机器翻译而言，把握句子结构是没问题的，也就是说译文能做到通顺，但是专有名词把握不准。虽然这样的机器翻译能够大大缩短译者的校对时间，但仍然做不到一天翻译一本书的程度。对于 996 的打工人来说，非常耗费精力。

虽然大语言模型的去中心化开展的如火如荼，一些模型已经可以在本地 CPU 上流利运行。我就想着把我们的翻译流程改一改。以往的机翻校对（MTPE）的最大痛点是译者没能力或者没办法定制/微调模型，导致模型会将相同错误重复无数次。每次都需要译者纠正，译者的经验没办法自动化执行。

但现在不一样了，大模型完全可以在本地通过GPU来微调。按照这个逻辑，我重新设计了我们的翻译流程：

原文 HTML
    ⬇ 
原文 Markdown
    ⬇ 
待翻译 YAML
    ⬇ 
双语 YAML  ➡ 平行语料库
    ⬇ 
译文 Markdown

与之前的流程相比，有以下几点显著优势：

以 Markdown 格式为主，便于在开源社区传播推广
使用本地大模型作为翻译引擎，无需网络连接
翻译后的文件自动形成平行语料库，可以用于模型训练
YAML 格式的平行语料库更容易由人类阅读，可以给其他译者学习
待翻译 YAML 以句子为单位，强制语言模型不得跳过任何句子。

如果是别人翻译的译文，没有平行语料库，我们还支持自动对齐。

原文+译文 HTML
    ⬇ 
原文+译文 Markdown
    ⬇ 
双语 YAML
    ⬇ 
改良版模型

具体工作可能还需要好几个月。等到我们重新发布翻译作品，就是整个流程跑通的时候。

猜你喜欢

转载自blog.csdn.net/wizardforcel/article/details/130891735

我们最近革新了整个翻译流程

突然，我们公司整个移动部门被裁了。。。

让我们来聊聊最近的AI热潮

当我们在说事件驱动的时候，我们在说什么(翻译)

大家好，我们是 SwiftGG 翻译组

我们的垃圾收集器 —— Our Collectors 【翻译】

我们只是整个造化里的一颗微尘

我们可以使用python变量来保存整个文件吗？

Go 的 http 包的源码，通过代码我们可以看到整个的 http 处理过程

【跟着我们学Golang】流程控制

让MySQL为我们记录执行流程

【翻译】我们最关键的网络安全资源是什么？我们如何才能保护它？

我们在长大

我们都是

我们的世界

我们的团队

我们的数组

我们是OIer！

我们的时光

我们是标题

我们的选择

我们的相遇

我们的相识

我们

我们的总和

关注我们

我们的2021

【平凡的我们】

最近我们公司要接一个微信公众帐号的需求

奥巴马最近的精彩演讲《我们为什么要上学》英汉互译

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)