最新的 AI 聊天机器人可以处理文本、图像和声音。方法如下

10 个多月前，OpenAI 的 ChatGPT 首次向公众发布。它的到来开创了一个关于人工智能的头条新闻不断涌现的时代，并加速了谷歌、Meta 和其他科技巨头竞争性大型语言模型（LLM）的开发。从那时起，这些聊天机器人已经展示了令人印象深刻的生成文本和代码的能力，尽管并不总是准确的。现在，不仅能够解析文本，还能够解析图像、音频等的多模态人工智能正在兴起。

OpenAI的发布多模态版本由其 LLM GPT-4 提供支持的 ChatGPT 上周首次向付费用户提供，这是该公司首次宣布这些功能的几个月后。早在 5 月，谷歌就开始将与新 GPT-4 提供的图像和音频功能类似的图像和音频功能整合到其 LLM 驱动的聊天机器人 Bard 的某些版本中。 Meta 也宣布大踏步前进今年春天，在多模态中。虽然它处于起步阶段，但这项新兴技术可以执行各种任务。

多模态人工智能能做什么？

《科学美国人》 测试了两种不同的依赖于多模态 LLM 的聊天机器人：一个由更新的 GPT-4（称为 GPT-4 with vision，或 GPT-4V）提供支持的 ChatGPT 版本，以及目前由 Google 的 PaLM 2 型号.两者都可以仅使用音频进行免提语音对话，并且可以描述图像中的场景并破译图片中的文本行。

这些能力有无数的应用。在我们的测试中，ChatGPT 仅使用一张收据照片和两行提示，准确地拆分了一个复杂的条形标签，并计算了四个不同人中每个人的欠款金额——包括小费和税费。总之，这项任务只用了不到 30 秒。Bard的表现也差不多，但它将一个“9”解释为“0”，从而影响了最终的总数。在另一项试验中，当给一个库存书架的照片时，两个聊天机器人都详细描述了假想的主人的性格和兴趣，这几乎就像人工智能生成的星座运势一样。两人都从一张照片中认出了自由女神像，推断这张照片是从曼哈顿下城的一间办公室拍摄的，并提供了从摄影师的原始位置到地标的准确指示（尽管 ChatGPT 的指导比 Bard 的更详细）。ChatGPT 在从照片中准确识别昆虫方面也优于 Bard。

盆栽植物的图像。 — 根据这张盆栽照片，两个多模态人工智能聊天机器人——OpenAI 的 ChatGPT（由 GPT-4V 提供支持的版本）和谷歌的 Bard——准确地估计了容器的大小。图片来源：Lauren Leffer

多模态人工智能如何工作？

在这波新的聊天机器人浪潮中，这些工具超越了文字。然而，它们仍然基于基于语言构建的人工智能模型。这怎么可能？尽管个别公司不愿意分享其模型的确切基础，但这些公司并不是唯一致力于多模态人工智能的团体。其他人工智能研究人员对幕后发生的事情有很好的了解。

斯坦福大学（Stanford University）的兼职教授、Contextual AI公司的首席执行官Douwe Kiela说，从纯文本LLM到对视觉和音频提示做出反应的AI有两种主要方法。Kiela解释说，在更基本的方法中，AI模型基本上是堆叠在一起的。用户将图像输入聊天机器人，但图片通过单独的 AI 进行过滤，该 AI 是专门构建的，用于吐出详细的图像标题。（谷歌已经像这样的算法多年来。然后，该文本描述被反馈给聊天机器人，聊天机器人会响应翻译后的提示。

相比之下，“另一种方法是更紧密的耦合，”Kiela说。计算机工程师可以通过组合每个模型的计算机代码基础设施，将一种 AI 算法的片段插入到另一种 AI 算法中。根据Kiela的说法，这“有点像将一棵树的一部分嫁接到另一棵树干上。从那里开始，嫁接的模型在多媒体数据集上重新训练——包括图片、仅带有标题和文本描述的图像——直到人工智能吸收了足够的模式来准确地将视觉表示和文字联系在一起。它比第一种策略更耗费资源，但它可以产生更强大的人工智能。Kiela 推测，谷歌在 Bard 中使用了第一种方法，而 OpenAI 可能依靠第二种方法来创建 GPT-4。这个想法可能解释了两个模型之间的功能差异。

无论开发人员如何将不同的 AI 模型融合在一起，在引擎盖下，都会发生相同的一般过程。LLM 的功能基于预测短语中下一个单词或音节的基本原理。为此，他们依赖于“转换器”架构（GPT 中的“T”）。卡内基梅隆大学（Carnegie Mellon University）的计算机科学家Ruslan Salakhutdinov说，这种类型的神经网络将诸如书面句子之类的东西转换为一系列数学关系，这些关系表示为向量。对于转换器神经网络来说，句子不仅仅是一串单词，它还是一个映射上下文的连接网络。这催生了更多类似人类的机器人，它们可以处理多种含义，遵循语法规则并模仿风格。为了组合或堆叠 AI 模型，算法必须将不同的输入（无论是视觉、音频还是文本）转换为输出路径上相同类型的矢量数据。在某种程度上，它需要两套代码并“教它们相互交谈，”Salakhutdinov说。反过来，人类用户可以以新的方式与这些机器人交谈。

接下来是什么？

许多研究人员将当下视为可能的开始。一旦你开始调整、整合和改进不同类型的人工智能，快速的进步必然会不断到来。Kiela设想在不久的将来，机器学习模型可以轻松响应、分析和生成视频甚至气味。Salakhutdinov怀疑，“在未来5到10年内，你将拥有你的个人AI助手。这样的程序将能够在收到简短的提示后浏览从完整的客户服务电话到复杂的研究任务的所有内容。

书架的图像。 — 作者将这张书架图片上传到 GPT-4V 驱动的 ChatGPT，并要求它描述书籍的主人。聊天机器人描述了展示的书籍，并回答说：“总的来说，这个人可能喜欢写得很好的文学作品，这些文学作品探讨了深刻的主题、社会问题和个人叙事。他们似乎既有求知欲，又有社会意识。图片来源：Lauren Leffer

多模态人工智能是不与通用人工智能一样，通用人工智能是机器学习的圣杯目标，其中计算机模型超越了人类的智力和能力。然而，多模态人工智能是迈向它的“重要一步”，斯坦福大学计算机科学家James Zou说。人类有一系列相互交织的感官，我们通过这些感官来理解世界。据推测，要达到通用人工智能，计算机也需要相同的技术。

邹说，尽管多模态模型令人印象深刻和令人兴奋，但与它们单一关注的前辈存在许多相同的问题。“一个很大的挑战是幻觉问题，”他指出。如果人工智能助手随时可能伪造信息，我们怎么能相信它？然后是隐私问题。对于语音和视觉等信息密集型输入，更敏感的信息可能会无意中提供给机器人，然后在泄漏中反刍或在黑客攻击中泄露。

邹仍然建议人们仔细尝试这些工具。“把你的医疗记录直接放到聊天机器人中可能不是一个好主意，”他说。

本文由AI快讯网译自：AIMagazine

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

最新的 AI 聊天机器人可以处理文本、图像和声音。方法如下

多模态人工智能能做什么？

多模态人工智能如何工作？

接下来是什么？

相关推荐

发表回复