吴恩达教授开源机器翻译智能体项目

近期，随着 GPT-4 和 Sora 等多模态模型的相继问世，生成式人工智能在多模态领域取得了显著成果。这引发了学界和业界人士对其未来发展方向的探讨，**人工智能的下一个突破将会从何而来？**

著名人工智能学者、斯坦福大学教授吴恩达一直以来都对人工智能智能体持积极态度。此前，他在个人博客中强调了 “AI 智能体工作流程将在今年推动人工智能取得长足进步”，这也让 AI 智能体的未来潜力备受关注。

近日，吴恩达延续其对智能体的研究，开源了一个 AI 智能体机器翻译项目。这一项目旨在利用 AI 智能体来改进传统的机器翻译系统，并展现出其在该领域巨大的潜力。

斯坦福大学教授吴恩达开源了一个机器翻译智能体项目

项目链接：

吴恩达认为，AI 智能体机器翻译能够显著提升传统神经机器翻译的效果，并发布了一个他亲自研发的演示项目，该项目以 MIT 许可证发布，允许用户自由使用、修改和分发代码。

吴恩达团队的测试结果表明，该智能体翻译在某些情况下能够与领先的商业翻译服务提供商相媲美，甚至在一些场景中超越了它们。该系统允许用户通过简单地更改 prompt 来自定义翻译风格、地区变体，以及确保术语翻译的一致性，这使得该系统更加灵活和可控。虽然目前该项目仍处于早期阶段，但其在反思工作流方面的优势已显现出不错的效果。

吴恩达在开源项目中详细介绍了 AI 智能体翻译项目的工作流程。

翻译智能体：使用反思工作流进行智能体翻译

该项目使用 Python 演示了反思智能体工作流在机器翻译中的应用，主要步骤如下：

输入 prompt，使大型语言模型 (LLM) 将文本从源语言翻译成目标语言；
让 LLM 反思翻译结果，并提出改进建议；
利用这些建议改进翻译结果。

自定义能力

通过使用 LLM 作为翻译引擎的核心，该系统具有高度可控性。与传统的机器翻译 (MT) 系统相比，该工作流程更容易实现以下功能：

修改输出的风格，如正式/非正式。
指定如何处理习语和特殊术语，例如名字、技术术语和缩写。例如，在 prompt 中包含术语表可以确保特定术语（如开源、H100 或者 GPU）翻译的一致性。
指定特定区域的语言使用或特定方言，以服务目标受众。例如，拉丁美洲的西班牙语与西班牙的西班牙语不同；加拿大的法语与法国的法语不同。

除了传统的 BLEU（Bilingual Evaluation Understudy）分数之外，AI 智能体翻译还需要引入新的评估指标来衡量其翻译质量。

根据使用传统翻译数据集的 BLEU 分数评估结果表明，该工作流有时能与领先的商业产品竞争，有时则表现不如它们。然而，该系统偶尔能够取得非常好的结果，甚至优于商业产品。

吴恩达团队认为这仅仅是智能体翻译的起点，这一方向在翻译领域极具前景，并且有很大的改进空间。因此，他们发布了这个演示项目，旨在鼓励更多的讨论、实验、研究和开源贡献。

与快速且廉价的传统架构（例如端到端 Transformer 架构，直接将输入文本翻译成输出）相比，智能体翻译能够提供一种生成训练数据（平行文本语料库）的方法，从而用于进一步训练和改进传统的机器翻译算法。

启动

为了启动 translation-agent 项目，需要遵循以下步骤。

安装：

安装需要使用 Poetry 管理器。根据安装环境，安装 Poetry 可能需要执行以下步骤：

pip install poetry

git clone .gitcd translation-agent poetry install poetry shell # activates virtual environment

运行工作流需要一个包含 OpenAI_API_KEY 的 .env 文件，使用者可以参考 .env.sample 文件作为示例。

使用：

import translation_agent as tasource_lang, target_lang, country = "English", "Spanish", "Mexico"translation = ta.translate(source_lang, target_lang, source_text, country)

查看 examples/example_script.py 获取一个示例脚本并进行尝试。

翻译智能体的进一步发展

吴恩达在最后还分享了一些他希望开源社区尝试的想法，旨在进一步挖掘翻译智能体的巨大潜力。

尝试其他语言生成模型。该项目主要使用 GPT-4-turbo 进行原型开发，其他人可以尝试其他 LLM，以及其他超参数选择，并查看是否有些大模型可以对特定语言更好地翻译。
术语表的创建。使用 LLM 可能会更高效地建立术语表。例如，许多企业使用的是互联网上不常用的专业术语，而 LLM 可能不知道这些术语。此外，还有许多术语可能有多种翻译方式。例如，“open source” 在西班牙语中可以是 “Código abierto” 或者 “Fuente abierta”；两者都可以，但最好选择一个并在单个文档中坚持长期使用。
术语表的使用和实施。将术语表包含在 prompt 中最好的方式是什么？
在不同语言上进行评估。翻译智能体在不同语言中的表现会发生怎样的变化？有没有通过一些变动，使其在特定源语言或目标语言上表现更好的方法？（请注意，对于 MT 系统正在接近的较高性能水平，BLEU 是否是一个很好的度量标准仍是不确定的。）此外，对于资源较少的语言，它的性能表现仍需要进一步研究。
错误分析。吴恩达团队发现此应用程序对于一些指定语言和国家/地区（例如，“在墨西哥作为普通话的西班牙语”）来说效果很好。除此之外，当前方法在哪些方面仍存有不足？翻译智能体在专业主题（如法律、医学）或特殊文本类型（如电影字幕）上的性能表现如何？存在怎样的限制？
更好的评估指标。吴恩达认为对 AI 智能体翻译进行更好的评估是一个巨大且重要的研究课题。与其他生成自由文本的 LLM 应用程序一样，当前的评估指标似乎并不足够评估翻译智能体的表现。例如，他们发现：即使在主动型工作流程在捕捉上下文和术语方面表现更好的文档上，仍会导致人类评分者更喜欢当前的商业产品，但是在句子级别进行评估（使用 FLORES 数据集）时，主动型系统的 BLEU 得分则较低。在设计出更好的度量标准（也许使用 LLM 评估翻译？）以在文档水平上更好地实现与人类偏好相关的翻译质量仍需更多的努力。

值得注意的是，一些学术研究小组也开始关注基于 LLM 和主动型翻译的研究。

对于 AI 翻译智能体的未来发展，吴恩达认为这个领域还处于起步阶段，并分享了一些相关的学术论文供大家参考。

斯坦福大学教授吴恩达开源了一个机器翻译智能体项目

论文标题：ChatGPT MT: Competitive for High- (but not Low-) Resource Languages
论文地址：

斯坦福大学教授吴恩达开源了一个机器翻译智能体项目

论文标题：How to Design Translation Prompts for ChatGPT: An Empirical Study
论文地址：

斯坦福大学教授吴恩达开源了一个机器翻译智能体项目

论文标题：Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts
论文地址：

吴恩达此次开源的翻译智能体仍处于初级阶段，但已在机器翻译数据集上取得了优异的表现，为 AI 智能体的下一步发展注入了新的动力。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

吴恩达教授开源机器翻译智能体项目

相关推荐

发表回复