AI产品正为4.3亿人打开新世界

我们之前曾写过一篇名为《别再问我聋人为什么要去音乐节了》的文章,介绍了海外音乐节中一个特殊的岗位:手语翻译员。

虽然听障人士无法听到或清晰地听到音乐,但他们可以通过手语翻译员富有感染力的肢体语言(包括手部动作、面部表情、肢体语言),感受音乐的节奏和热烈的氛围。

这可能是健听人意想不到的手语场景。事实上,无论线上还是线下,都需要手语翻译员,但供不应求。

从线上到线下,让听障人士更多地使用“母语”

英国人 Sally Chalk 于 2002 年创办了一家英国手语翻译公司。经过 20 年的经营,公司规模已相当可观,预约手语翻译员的时间缩短至 30 分钟,但她仍然不满足。

听障人士能否像在视频网站上打开字幕一样,立即获得手语翻译?

她的答案是,让 AI 加入进来。

2022 年,Sally Chalk 创立了一家新的初创公司 Signapse,专注于开发生成式 AI 手语翻译软件,将书面文本实时翻译成美式手语和英式手语。

今年 5 月,Signapse 获得了 200 万英镑的种子轮融资,其中 50 万来自英国政府。

他们的目标场景之一是火车站、机场等交通枢纽。

美国辛辛那提/北肯塔基国际机场已经与 Signapse 合作,在屏幕上投放美式手语,提供欢迎、安全、出发、到达等信息。

AI 如何发挥作用?Signapse 基于大型手语数据集,并结合生成对抗网络(GAN)和深度学习技术,创造了逼真且翻译尽可能准确的虚拟手语翻译员。

这些虚拟形象基于真人手语翻译员,每次商业使用时,真人都会获得分成。

考虑到机场的目的地、出发时间、站台号码经常变动,通过与交通数据整合,Signapse 的手语翻译可以实现实时更新。

同时,Signapse 也看到了线上的需求,为网站和视频流媒体提供手语翻译。

虽然 YouTube 等网站都提供了隐藏式字幕,但与字幕相比,听障人士往往更喜欢手语,因为手语具有独立于其他语言的语法结构和表达形式,能够提供更好的上网体验。

您可能已经注意到,在提到手语时,我们会使用美式手语和英式手语的说法。就像全世界口语和文字互不相同,手语也是多种多样的。

联合国统计,全球约有 7000 万人将手语作为主要的交流方式,全世界使用的手语有 300 多种不同类型。仅在美国,就有 50 万人使用美式手语。

因此,Signapse 目前所做的工作实际上非常有限,仅覆盖了使用美式和英式手语的少数人群以及有限的垂直领域。过去两年,Signapse 每天创建约 5000 个英式手语交通公告。

Signapse 希望,未来他们的服务能够更加普适,扩展到教育等领域,并更加个性化,支持用户自定义虚拟手语翻译员的外观。

一方水土养一方 AI,国内也有类似的手语产品。

AI 手语主播曾现身腾讯的王者荣耀直播间、华为的开发者大会。

2022 年冬奥会,央视新闻与百度智能云曦灵合作推出了 AI 手语主播,天津理工大学聋人工学院参与了手语语料标注。

而在 AI 手语主播背后,百度智能云曦灵的 AI 手语平台还能满足医院、车站、银行等不同场景的快速手语翻译需求,与 Signapse 不谋而合。

更流畅的出行、更沉浸的观看体验、更无障碍的服务……

如果说手语翻译的改进空间比海洋更深,那么至少听障人士获取公共信息的方式正在被 AI 改变,持续涌现可见的浪潮。

手语界的“多邻国”们

“听障人士也要‘听’音乐?听障人士看文字就够了?” 这些问题往往是健听人从自身逻辑出发思考的。

事实上,我们应该反过来思考:音乐节如何让听障人士也能有参与感?互联网如何让听障人士拥有更愉快的上网体验?

因此,这不是在人流如织的车站多了一块屏幕,而是这块屏幕本就应该在那里。

越来越多的公司和个人正在利用技术的力量,让手语变得越来越有存在感。

让健听人学习手语,是其中比较容易想到的思路之一。

PopSign 是一款边玩边学手语的应用程序,使用 AI 手语模型,由 Google、罗彻斯特理工学院、佐治亚理工学院合作开发,可在 Android 和 iOS 系统上使用,主要用户群体是听障孩子的健听父母。

从中吸取背单词从“abandon”(放弃)开始,也以放弃终结的教训,PopSign 并非无聊地播放手语视频,而是通过小游戏提高学习手语的兴趣和信心,与疯狂催你打卡的多邻国别无二致。

想要成为手语界的“多邻国”的另一家公司叫 SLAIT,一家美国公司。他们提供沉浸式的互动课程和测试,如果你答对了,AI 导师会提供实时反馈,并给予一定的情感价值。

然而,教手语只是 SLAIT 的次优选择,最初他们想做的是实时视频聊天和翻译的 AI 手语工具。

但巧妇难为无米之炊,SLAIT 是一个小型团队,没有足够的数据,也没有足够的资金,与直接翻译手语句子相比,教授单个手语词汇更简单,但也同样具有意义。

翻译手语的辛苦工作就留给财大气粗的巨头们去解决吧。

2023 年 8 月,联想巴西开发了一款基于 AI 的实时聊天翻译应用程序,用于翻译葡萄牙语手语,未来计划覆盖更多全球手语。

当听障人士对着设备的摄像头打手语时,算法会立即将其翻译成葡萄牙语文本,传递给另一端的接收者。

这样的工具应该多多益善,恰好与手语教学服务相辅相成,让听障人士处于更主动的位置,更多地成为对话的发起者。

Google 则更偏向于产品导向,发起了 2023 年 Kaggle AI 手语识别竞赛。

这场竞赛的主题很有意思——参赛者们基于听障人士自拍得到的 300 多万个手指拼写字符,构建使用智能相机快速跟踪手指、手掌和脸部的指拼模型。

手指拼写属于手语的一种,使用手指的不同形状和位置来表示字母。对于很多残障人士来说,使用手指拼写比在智能手机的虚拟键盘上打字更快。

因此,改进手语识别、构建手指拼写模型是为了让听障人士可以直接使用更擅长的手语,而不是打字或说话,在手机上使用搜索、地图、短信等功能。

更进一步,这也有助于开发手语转语音的应用程序,打破听障人士无法用语音呼叫数字助手的僵局。

或者说,很多语音优先的产品从一开始就没有考虑不善于口语的用户,是时候弥补漏洞了。

Google 首席无障碍研究产品经理 Sam Sepah 在接受福布斯采访时提到,他们的目标是让手语成为使用 Google 产品时的通用语言选项。

事实上,这也应该是整个互联网的目标——让手语成为数字世界的通用语言。

多邻国作为一款语言学习软件,为每个人提供了平等的受教育机会。而 AI 手语产品让人感受到的是,本不该有的限制正在解除,任何地方都可以无障碍沟通。

AI 越强大,越要珍视人性

5 月,GPT-4 发布时,一个演示视频令人感动,GPT-4 充当了“眼睛”,让视障人士也能“看到”周围的环境。

视障人士从 AI 口中得知白金汉宫上空飘扬着旗帜,河里的鸭子悠闲地嬉戏,出租车即将到达,他的嘴角随着 AI 的欢快语调而上扬。

俗话说,技术打开了新世界的大门。是否可以反过来理解,残障人士原本生活在一个没有为他们设计的世界?

世卫组织数据显示,全球 4.3 亿人需要通过康复治疗解决残疾性听力损失。手语翻译的数量远远不够,在美国,听障用户与美式手语翻译员的比例约为 50 比 1。

所以,目前来说,AI 手语只是起到补充和锦上添花的作用,还没有达到“抢饭碗”的地步。

上述提到的 AI 手语产品,基本上都是规模较小、垂直化、扎根特定地区的,弥补了真人翻译无法触及的地方。

上个月,我还看到了一款非常酷的 AI 手语产品。

罗格斯大学、卡内基梅隆大学等几所大学的研究人员将公开手语视频处理成包含 8 种手语的数据集,训练了 SignLLM——第一个多语言手语生成模型。

覆盖多种手语,可以通过文本提示词生成手语,是不是很方便?但研究人员表示,请勿夸大他们的研究成果,演示视频并非模型的直接输出,实际制作起来仍然很麻烦。

同时,也有听障专家站出来表示,这些视频的手语翻译质量参差不齐,有些让人半懂不懂,有的完全理解不了,而且缺乏面部表情,项目有潜力,但还需要改进。

最重要的是,要让听障用户参与进来,发表他们的意见,共同完善产品,因为“没有我们的参与,就没有关于我们的决策”。

一个微妙的感受是,无障碍产品似乎很难做到“性感”。

它们往往无法像大模型和 AI 硬件发布一样让人心潮澎湃,总是和你说功能有哪些,服务于谁,希望以后能够做得更好,不会“贪多嚼不烂”。

而且在风投眼中,它们也是小众、潜力未知、可能没有投资回报的。

但“AI 教母”李飞飞曾说过,AI 是为了帮助人类,AI 越强大,我们越要珍视人性。

每个人都应该不担心错过航班,每个人都应该可以与产品交互,每个人都应该享受音乐节。

那些曾经被忽视、被沉默的声音也应该被科技的光芒照耀。让我们一起打响共鸣的响指,让更多人的需求得到满足,更多人的能力得到提升,让我们得到更多,失去更少。

    免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行审核删除。
    (0)
    上一篇 2024年 7月 3日 上午11:11
    下一篇 2024年 7月 3日 上午11:34

    相关推荐

    欢迎来到AI快讯网,开启AI资讯新时代!