科技公司正在训练人工智能读懂你的唇语(想说悄悄话时要带上口罩了) - iYouPort

2021-11-25 原文 #iYouPort 的其它文章

科技公司正在训练人工智能读懂你的唇语(想说悄悄话时要带上口罩了)

  • 首先是面部识别,情绪识别,而现在,读唇语的人工智能的早期形式已经在医院、发电厂、公共交通等领域开始部署了。

一个病人坐在医院的病床上,绷带缠绕在他的脖子上,上面有一个为他提供氧气的气管造口的小洞。

这是一个营销视频,画面中的这个人据称由于最近的手术而不能发声。因此,一名医生举起智能手机,在这个病人说出一个短语时进行记录。一个名为 SRAVI 的应用程序分析了病人嘴唇的动作,并在大约两秒钟内返回对唇语的翻译  — — “我需要吸痰”。

这似乎是一个简单的互动,而且在某些方面,SRAVI(语音识别应用程序)仍然相当简单。它只能识别几十个短语,而且准确率达到90%左右。但是, 这款由爱尔兰创业公司 Liopa 制作的应用程序代表了视觉语音识别(VSR)领域的巨大突破,它涉及训练人工智能在没有任何音频输入的情况下读取唇语。它可能是第一个可供公众购买的唇读人工智能应用程序。

几十年来,研究人员一直在努力教计算机读唇语,但事实证明这是一项具有挑战性的任务,即使是在帮助破解其他标志性问题的深度学习系统的进展下。这项研究是由一系列可能的商业应用推动的  — — 从监控工具到无声通信应用程序和改善虚拟助理的性能。

Liopa 正在将 SRAVI 认证为欧洲的第一类医疗设备,这将使其能够开始向医疗机构销售。

虽然他们对这项技术的意图还不清楚,但许多科技巨头也都在研究唇语识别的人工智能。根据采访和主板对最近发表的研究和专利申请的审查, 隶属于或直接为谷歌、华为、三星和索尼工作的科学家们都在研究唇语识别系统,并且似乎正在取得快速进展 。这些公司要么没有回应,要么拒绝接受采访。

随着唇读人工智能作为一种可行的商业产品出现,技术专家和隐私监督者越来越担心它是如何被开发的,以及它有一天会被如何部署。例如,SRAVI并不是 Liopa 正在进行的读唇人工智能的唯一应用; 该公司还在与英国国防研究机构开展项目的第二阶段合作,开发一种工具,使执法机构能够通过无声的闭路电视录像进行搜索,并识别人们何时说出某些关键词。

监控公司 “摩托罗拉解决方案” 拥有一项旨在帮助警察抓人的读唇系统的专利。Skylark 实验室是一家初创公司,其创始人与美国国防部高级研究计划局(DARPA)有联系,它告诉主板,其唇读系统目前已部署在私人住宅附近、以及印度一家国家控制的电力公司,以检测 “粗俗和辱骂性语言”。

英国生物识别和监控摄像机专员弗雷泽·桑普森告诉主板:“从我的角度来看,这是一个很好的例子,关于 — 仅仅因为我们能做到,并不意味着我们应该做出来。 我在这个领域的主要关注点不一定是技术能做什么和不能做什么,而是,人们相信它能做什么的寒蝉效应。如果这使人们不敢在公开场合发言,那么我们就进入了一个比单纯的隐私大得多的领域,而隐私本身已经够大了”。

读唇人工智能的出现让人想起了面部识别技术,在2000年代初开始悄悄地、但迅速地作为一种监视工具被商业化之前,面部识别技术是一个小众的研究领域。

面部识别的许多问题在过去几年内才被公众所了解,这在很大程度上是由于那些受到面部识别伤害的人的积极研究和反抗行动。具体来说,2018年具有里程碑意义的论文中,乔伊·布拉姆维尼和蒂姆尼特·格布鲁首次揭示了面部识别对女性和有色人种的准确性较低。

当这些担忧进入主流话语时,面部识别在手机、私营企业和全世界许多城市的街角的监控摄像头中已经无处不在。现在该技术已被用于 追踪BLM抗议者 ,以及其他各种 可疑的目的 。在过去的两年里,在该技术首次大规模公开部署近20年后,在美国十几个城市和州的基层运动开始阻止警察和私人使用面部识别。

对面部识别的反击是一场运动的象征,这场运动正在推动关于人工智能研究人员应如何考虑其发现的未来应用的思维转变。例如,著名的 NeurIPS 会议去年首次要求研究人员在提交论文的同时提交关于他们的发明可能对社会产生何种影响的声明。

“研究是了不起的,但当我们发现某个特定的知识链或研究具有破坏性的后果时,那么,作为研究人员,我们有责任叫停它,并实施政策变革”,《人工非智能》的作者梅雷迪斯·布鲁萨德(Meredith Broussard)说。

作为一项商业技术,读唇术的人工智能仍处于起步阶段,但是,人们已经应该开始担心,科学的发展速度如此之快,而且在某些情况下,是在封闭的公司大门后面,等我们看到后果时将再次变得太晚。

Stavros Petridis 说:“科学确实发展得太快了,但在去年,在已发表的文献中,就有多篇关于VSR技术的伦理考虑的讨论”,他最近开始为 Facebook 工作,但向主板谈到了他以前在伦敦帝国学院的研究,“鉴于目前还没有商业应用,这次在这项技术完全商业化之前,有相当大的机会会考虑到伦理方面的问题”。

伦敦帝国理工学院的博士生罗德里戈·米拉(研究唇语人工智能的主要团体之一)告诉主板,他和他的同事 “知道我们的领域是有争议的”。他将该研究团队的工作比作渗透测试  — — 寻找计算机系统中的漏洞以修复它们的网络安全实践。换句话说,这项研究允许受道德准则约束的学术机构在犯罪分子等不良行为者部署新技术之前发现它。

“人工智能的主要内容是,人们需要始终谈论政治”,米拉说,“这不是关于我们是否应该停止研究的问题,而是我们有这种能力,只要看一眼就能弄清楚人们在说什么的能力。我们应该用它来做什么?阻止[该技术的不道德使用]的方法不是关闭帝国理工学院。 处理这个问题的方法是把它作为一个政治问题来处理。”

人工智能伦理学家同意,政府尽早对面部识别和读唇人工智能等生物识别监控技术进行强有力的监管是必要的,以防止歧视和伤害  — — 但到目前为止,许多政府都没有制定适当的法律。这就是为什么研究人员有责任不仅要考虑潜在的后果,而且要积极主动地将最有可能受到该技术伤害的人群纳入其决策过程。

到目前为止, 专家们说这些考虑并没有被用于视觉语音识别系统。

“这是关于积极创造一种可用于有害用途的技术,而不是识别和减轻现有技术的漏洞”, AI Now研究所的研究员萨拉·迈尔斯·韦斯特告诉主板,“研究人员并不总是有能力自己做出这些评估。这就是为什么让将受其研究影响的社区参与整个过程,以预测和减轻潜在的有害的用例是如此重要。

Liopa 的首席执行官 Liam McQuillan 告诉主板,该公司距离拥有一个能够令人满意地从无声的闭路电视录像中读出关键词的系统至少还有一年的时间 — — 该项目由英国国防部门DASA资助  — — 而且该公司已经考虑了隐私反击的可能性。“这里可能有一些担忧,实际上是禁止最终使用这项技术的。… 当然,我们没有把 Liopa 押在这个用例上,但它正在提供资金”。

McQuillan 还表示,该公司正在积极寻求解决潜在的种族或性别偏见问题,方法是对其算法进行训练,这些数据收集自多样化的 YouTube 片段、通过收集视频的志愿者,以及一家专门策划数据集以包括不同种族和民族的人的公司。该公司尚未公布任何关于其系统在不同人口群体中表现的研究。

主板确实找到了一家声称正在积极销售读唇术人工智能系统的公司,而且它已经完全接受了监控市场。Skylark 实验室的创始人兼首席执行官 Amarjot Singh 告诉主板,该公司最初向印度的警察机构推销其技术套装  — — 其中还包括面部识别以及暴力和武器检测算法。但该公司发现,鉴于在拥挤的公共场所部署唇语功能所面临的挑战,该公司对唇语识别功能的兴趣不大。

此后,Skylark 转向了其他用途。辛格说,该公司的读唇人工智能技术目前正由政府控制的旁遮普邦电力有限公司进行试点,以检测员工相互骚扰的情况。他说, 有几个人也购买了这项技术来监控他们的保姆。

Skylark 说它的读唇人工智能可以检测到大约50个与诅咒、虐待和暴力有关的不同词汇。据当地媒体报道,辛格已经发表了关于暴力检测和面部识别的研究,印度警方已经使用 Skylark 的无人机来执行社会管制。但辛格和该公司都没有发表过任何关于唇语识别人工智能的研究。

主板联系了旁遮普邦电力有限公司和辛格说的一位在家里使用该技术的人,但在报道发表之前没有收到回复。

“我们正在野外进行,并试图解决对人们的安全有直接影响的用例”,辛格说,“我认为有可取之处,因为设计者可以控制系统应该标记的词,所以我认为它还是有点问题的。这里的风险是,一旦你开始校准系统,在野外拾取日常语音,这时它就会[在道德上]变得非常棘手了”。

为这个报道接受采访的研究人员和公司高管告诉主板,如果读唇人工智能足够先进,能够解释完整的对话,那还要等上几年。

这项任务具有令人难以置信的挑战性  — — 即使是人类读唇专家,在逐字解释方面实际上也很差。2018年,谷歌子公司 Deepmind 发表研究报告,公布了其最新的完整句子唇语阅读系统。在包含完整句子的视频中,人工智能实现了41%的单词错误率(其错误的单词百分比)。人类读唇者在观看类似的纯视频片段样本时,在没有给出主题背景的情况下,单词错误率为93%,而在给出视频标题、主题类别和句子中的几个单词时,单词错误率为86%。这项研究是使用一个大型的、定制的数据集进行的。

伦敦帝国理工学院的研究小组本月提交了一篇论文,描述了在一个较小的、公开可用的400小时视频数据集上训练的全句式唇语阅读系统,其单词错误率可以低至37.9%。

当涉及到单一关键词唇语阅读时 — — Liopa 和 Skylark 实验室正在追求的那种工具 — — 准确率要高得多,而且在过去一年里已经有了显著的改善。2017年,在基准的野外唇读数据集上取得的最高准确率是83%。这个顶点基本保持不变,直到2020年,一些团体接连证明他们可以超过83%的准确率。根据本月发布的一篇论文, 目前的记录是88.5%的准确率,由伦敦帝国学院的小组与三星合作实现。

不过,很难知道真正的巅峰是什么。许多专家仍然认为 Deepmind 是该领域的领先者,自2018年的论文以来,Deepmind 没有公布其唇语阅读项目的任何进一步研究,而且该公司拒绝讨论这一工作领域。

主板采访的许多研究人员都不愿猜测大型科技公司打算如何利用这项新兴技术,或者它将在何时何地开始对更多公众产生明显的影响。

“过去10年的人工智能和[机器学习]向我们展示了一件事,那就是没有办法以任何有意义的方式预测未来”,米拉说,“但低估事物确实是不明智的”。⚪️

Tech Companies Are Training AI to Read Your Lips


文章版权归原作者所有。
二维码分享本站