随着这一波人工智能热潮的消退,人们对通用人工智能的期待逐渐转为对人工智能辅助产品的期待。对于面临五大限制的生成式AI而言,这种务实态度不失为一件好事。这篇文章是对国外文章的编译。
人工智能公司正打算在硬件和数据中心投入数万亿美元,但迄今为止,这些计划的成果相对较少。人们开始担心,认为生成式人工智能只是一个泡沫而已。未来会发生什么我们这里不做预测。但我们认为,我们对事情如何发展到这一步已经有了一个可靠的诊断。
在本文中,我们将解释人工智能公司犯下的错误以及如何努力纠正这些错误。然后,我们将讨论为了让生成式人工智能在商业上取得足够的成功,从而证明投资的合理性,他们仍然需要克服的五个障碍。
产品市场匹配
ChatGPT推出后,人们发现了它成千上万种让人意想不到的用途。这让人工智能的开发者兴奋不已。但他们完全误解了市场,低估了概念验证与可靠产品之间的巨大差距。这种误解导致了两种截然相反但同样有缺陷的大语言模型(LLM)商业化做法。
OpenAI和Anthropic将重点放在开发模型,而不是关心产品。举例来说,OpenAI花了6个月的时间才推出ChatGPT iOS应用,然后又花了8个月的时间才推出Android应用!
谷歌和微软则是在惊慌失措的争夺中将人工智能推向一切,却没有考虑哪些产品真正受益于人工智能以及应该如何整合它们。
这两类公司都忘记了“造大家想要的东西”这个口号。LLM的普遍性让开发者自欺欺人,自认为他们不需要寻找适合市场的产品,就好像让模型执行任务可以替代精心设计的产品或功能一样。
OpenAI和Anthropic这种DIY的做法意味着LLM的早期采用者往往是坏人,因为他们更注重研究如何将新技术为我所用,而日常用户想要的是易用的产品。这导致公众对这项技术的认知度较低。
与此同时,微软和谷歌将人工智能怼到你脸上的策略导致了一些功能有时有用,但更多时候却令人讨厌。由于测试不够,这还导致了许多非受迫性错误,比如微软早期的Sydney聊天机器人,谷歌的Gemini的图像生成器等。这还引发了强烈反应。
但企业正在改变自己的做法。OpenAI似乎正在从一个专注于推测性未来的研究实验室转变为一个做普通产品的公司。如果从OpenAI董事会闹剧中剔除掉所有的人情元素,这件事本质上其实是关于公司从试图创造上帝到制造产品的转变。Anthropic一直在招募OpenAI的众多研究人员和开发人员,这些人更关心通用人工智能,在OpenAI感到格格不入,尽管Anthropic也认识到制造产品的必要性。
谷歌和微软的学习速度比较慢,但我们估计苹果会迫使它们做出改变。去年,苹果被视为人工智能领域的落后者,但回想起来,苹果在开发者大会WWDC上所展示的缓慢但深思熟虑的做法更有可能引起用户的共鸣。在将人工智能融入到即将推出的Pixel手机以及Android上,谷歌花费的心思似乎比在搜索方面的还要多,但这些手机还没有上市,我们拭目以待吧。
此外还有Meta,其愿景是利用人工智能在其广告驱动的社交媒体平台上创建内容并进行互动。人工智能生成内容泛滥的世界对社会的影响是把双刃剑,但从商业角度来看,这是行得通的。
消费级人工智能面临的五大挑战
开发者需要克服LLM的五种局限,才能做出吸引人的AI型消费产品。
1. 成本
对于很多应用来说,能力不是障碍,成本才是。即便是一个简单的聊天应用,成本问题也会决定机器人可以跟踪多少历史记录——随着对话时间的延长,处理每一个响应的整个历史记录很快就会变得非常昂贵。
在成本方面,已经取得了快速进展——在过去18个月的时间里,同等功能成本下降了100多倍。因此,有公司声称LLM已经或将很快“便宜到可忽略不计”。好吧,等到他们能免费提供API时,我们才会相信这一点。
我们认为成本将继续成为关注点,因为问题的严重性在于,在许多应用中,成本改进会直接转化为准确性的改进。这是因为考虑到LLM的随机性,反复重试任务数十次、数千次甚至数百万次被证明是提高成功率的好方法。因此,模型越便宜,我们在给定预算的情况下可以进行的重试次数就越多。我们在最近关于智能体的论文中对此进行了量化;从那时起,许多其他论文也提出了类似的观点。
话虽如此,我们很快就会达到这样一种程度:即大多数应用的成本优化不再是个严重问题。
2. 可靠性
我们认为能力和可靠性在某种程度上是相互独立的。如果一个人工智能系统在90%的时间内都能正确执行任务,我们可以说它能执行任务,但不能可靠地完成任务。能让我们达到90%的技术不大可能让我们达到100%。
对于基于统计学习的系统而言,实现完美的准确性其实是很困难的。不妨想想机器学习的成功案例,比如广告定位或欺诈检测,或者最近的天气预报,其目标并不是完美的准确性——只要系统比最先进的系统好就是有用的。即便是医疗诊断以及其他的医疗保健应用,我们也能容忍很多错误。
但当开发者将人工智能融入到消费产品时,人们希望它能像软件一样运行,这意味着它需要有确定性。如果一个人工智能旅行社只有90%的时间能预订到正确的度假目的地,这样的产品是不会成功的。正如我们之前所写那样,可靠性限制在一定程度上解释了最近人工智能型小工具的失败。
人工智能开发者之所以迟迟没有意识到这一点,是因为作为专家,我们习惯于将人工智能概念化为与传统软件有着根本区别的东西。比如,我们两人在日常工作中都是聊天机器人和智能体的重度用户,我们对避开这些工具的幻觉和不可靠性几乎已经习以为常。一年前,人工智能开发者希望或假设非专家用户会学会适应人工智能,但情况已逐渐明朗,企业必须让人工智能适应用户的期望,让人工智能像传统软件一样运行。
提高可靠性是我们普林斯顿团队的研究兴趣所在。目前,是否有可能用随机组件(LLM型)开发出确定性系统,这个从根本上来说是一个悬而未决的问题。一些公司声称已经解决了可靠性问题——比方说,法律技术供应商宣称实现了“无幻觉”系统。但事实证明这些说法为时过早。
3. 隐私
从历史上看,机器学习通常要依赖敏感数据源,比如用于广告定位的浏览历史记录或用于医疗技术的医疗记录。从这个意义上来说,LLM有点反常,因为它们主要用网页、书籍等公共资源来进行训练。
但随着人工智能助手的出现,隐私问题又卷土重来。为了打造出实用的助手,公司必须训练系统处理用户交互。比如,为了让AI擅长撰写电子邮件,如果模型接受过电子邮件的训练的话,会非常有帮助。公司的隐私政策对此含糊其辞,目前尚不清楚他们在多大程度用电子邮件对AI进行了训练。电子邮件、文档、屏幕截图等可能要比聊天交互敏感得多。
与训练相比,推理还存在一种独特的隐私问题。为了让助手能为我们做一些有用的事情,它们必须能够访问我们的个人数据。比如,微软发布了一项有争议的功能,该功能需要每隔几秒钟截取用户电脑的屏幕截图,好让CoPilot AI记住你的活动。但此举遭到了强烈抗议,该公司已经改变主意。
敬告各位,不要对隐私做出纯技术性的解读,比如“数据永远不会离开设备”。梅雷迪斯·惠特克认为,设备的欺诈检测导致始终在线的监控成为常态,而基础设施可以被重新用于更具侵略性的目的。话虽如此,技术创新肯定能有所帮助。
4. 安全与保障
在安全性方面,存在一系列相关担忧:无意的故障,比如Gemini图像生成产生的偏见;人工智能的滥用,比如语音克隆或深度伪造;以及可能泄露用户数据或以其他方式伤害用户的黑客行为,比如提示注入等。
我们认为意外故障是可以修复的。至于大多数类型的误用,我们的观点是,没有办法建立一个不会被误用的模型,因此防御措施必须主要位于下游。当然,并不是每个人都同意这一点,因此公司会因为不可避免的误用而不断遭到负面报道,但他们似乎已经将其视为经营成本的一部分。
这里我们重点谈谈第三类——黑客攻击。据我们所知,这似乎是公司最不关注的一个。至少从理论上来说,灾难性的黑客攻击是可能的,比如在用户之间传播的AI蠕虫,诱骗这些用户的AI助手进行有害操作,包括创建更多的蠕虫副本等。
尽管有大量的概念验证演示和漏洞赏金项目揭示了已部署产品中的这些漏洞,但我们尚未在实验室之外看到此类攻击。我们不确定这是因为人工智能助手的采用率低,还是因为公司制定的笨拙的防御措施已经足够,还是其他原因。时间会告诉我们答案。
5. 用户界面
对于很多应用来说,LLM的不可靠性意味着如果机器人偏离轨道,用户必须能用某种方式进行干预。如果是聊天机器人,这可以像重新生成答案或显示多个版本并让用户选择一样简单。但如果是后果错误代价高昂的应用,比如航班预订,确保充分的监督会更加棘手,系统必须避免因过多的干扰而惹恼用户。
对于自然语言界面(用户与助手对话,助手回应)来说,问题会更加棘手。这正是生成式人工智能的潜力所在。比如,人工智能会隐藏在你的眼镜背后,在你需要时与你对话,甚至不需要你询问——比如检测到你正在盯着一个外语标志时提供帮助——这将是一种与我们今天完全不同的体验。但受限的用户界面几乎没有任何犯错或意外行为的空间。
总结
人工智能的支持者经常声称,由于人工智能能力的快速提升,我们很快就会看到巨大的社会和经济效应。我们对这些能力预测中的趋势推断以及草率的思维持怀疑态度。更重要的是,即便人工智能能力确实得到迅速提高,开发者也必须应对上述挑战。这些挑战属于社会技术方面,而不是纯技术方面的,因此进展会很缓慢。就算这些挑战得到解决,组织也需要将人工智能集成到现有产品和工作流程中,并培训人们有效地使用,同时避免其陷阱。我们的合理预计是这会在十年或更长的时间内发生,而不是一两年。