苹果再发多模态论文!陪我们走过十年的“Hey Siri”会被更智能的交互方式取代吗?
编辑 | 伊风
出品 | 51CTO技术栈(微信号:blog51cto)
全面发力AI的苹果,再出新研究!
随着人工智能技术的发展,我们熟悉的“Hey Siri”或将成为历史。
苹果团队最新出炉的论文《利用大型语言模型进行设备指向性语音检测的多模态方法》,集中于这一问题的研究:不使用“Hey Siri”这样的特定短语触发智能语音助手,可行吗?
结果是:有希望。苹果推出的多模态系统在设备指向性语音检测任务上的错误率比单一模态(文本或音频)的模型要低,分别降低了最多39%和61%。并指出,未来将在音频字幕和声学场景分类等领域发力,提供更好的虚拟助手交互体验。
现在,人们与GPT、Kimi的聊天愈发轻松。相较而言,与Siri、智能音箱等语音助手的交互还比较机械,它们好像也经常“get”不到我们的意思。
这一次的AI赋能,或许到了语音助手们的show time了。
1.苹果的论文说了什么?
与虚拟助手的交互通常以一个预定义的触发短语开始(Hey Siri),然后才是用户的命令内容。
为了使与助手的交互更加直接自然,放弃触发短语直接开始交互是一种优化思路。为了验证这个思路的可行性,研究人员使用智能手机捕获的语音以及背景噪音的声学数据训练了一个大型语言模型。
研究人员写道,该模型部分建立在一个版本的OpenAI的GPT-2之上,“因为它相对轻量级,有可能在智能手机等设备上运行”。
论文描述了用于训练模型的超过129小时的数据和额外的文本数据,但没有指定进入训练集的录音来源。
这项研究尝试利用非文本信号来增强 LLM,以解决在真实生活场景中,背景噪声和语音重叠带来的识别问题。在文本信息之外,这项研究使用了各种多模态信息,包括从预训练音频编码器中获得的声学特征,以及 1-best 假设和语句级解码器信号,来自 ASR 系统的声学成本和图形成本。
通过对所有模态进行联合学习,对系统进行微调,设备可以更加聪明地决定是不是要启动“Siri”(见下图 )。
图片
研究表明,苹果提出的新模型能够比仅使用音频或文本的模型做出更准确的预测,并且随着模型规模的增大而进一步提高。除了探索研究问题之外,目前尚不清楚苹果是否计划取消“Hey Siri”触发短语。
这项研究已上传至Arxiv(但尚未经过同行评审,想要阅读完整论文的朋友可以移步:https://ieeexplore.ieee.org/document/10446224)。
2.六位苹果作者,一半来自Siri
七位作者中有六位隶属于苹果公司,其中三位在Siri团队中工作。
图片
Siddharth Sigtia在苹果的Siri团队担任高级科学家,从事声学建模。
图片
Panayiotis Georgiou在Siri团队担任机器学习工程师,研究重点是人类交流分析、行为信号处理、语音处理(包括语音识别、去噪、语音活动检测)以及机器学习(重点是深度神经网络)。在入职苹果之前,他曾在高校供职多年,拥有非常深厚的学术背景。Matt Mirsamadi同样是Siri团队的机器学习工程师,博士期间的两段实习经历都在微软。
3.新技术的另一面:无触发语意味着全程监听吗?
2014 年,苹果推出了 "Hey Siri "功能,用户从此不必在按下按钮,只使用语音即可完成交互。
十年过去了,人们还记得Siri诞生之初,人们对虚拟助手的空前期待。谷歌内部也曾认为Siri的交互方式将对自家的搜索业务产生灾难性的冲击。
然而,Siri的进化远不及想象。如何在技术与隐私保护间取得平衡,是苹果长期以来的难题。
Siri处理音频数据的方式曾受到多番争议。2019年,《卫报》报道揭示,苹果的质量控制承包商在处理Siri数据时经常听到从iphone收集的私人音频,包括医生和患者之间的敏感对话。两年后,苹果以政策变化作出回应,包括在设备上存储更多数据,并允许用户选择不让他们的录音用于改进Siri。2021年,加利福尼亚州一起集体诉讼指控Siri即使在未激活时也被打开。
"Hey Siri "的工作方式使得Siri可以听取尽量少的音频,直到听到触发短语才开始录音或准备回答用户的问题。斯坦福大学人类中心人工智能研究所的隐私和数据政策研究员Jen King表示,消除“Hey Siri”提示可能会增加人们对我们的设备“始终在监听”的担忧。
除了用户隐私的限制外,苹果的管理不力也是在AI上落队的原因。据报道, Siri 团队在 2018 年处于 "混乱状态",其开发因管理层在技术开发方向上的内讧而受到影响。而其设计团队又坚持要求Siri能提供“近乎完美的答案”,而放弃了当时还不算成熟的AI生成方式,就这样与风口失之交臂。
放弃造车后,苹果必须全力在AI赛道上奔跑,以挽回年初以来持续呈现颓势的股价和投资者对未来发展的信心。Siri无疑是绝佳的入口,在AI的加持下进化,全面落地于苹果生态,给用户带来新的智能交互体验。
现在,没有时间仔细“打磨”大模型的苹果,已经与谷歌、百度等国内外多家科技巨头洽谈并寻找合作的可能。
苹果这位“实用主义”的科技明星,在全力追赶AI后,能重夺王冠吗?
参考链接:
1.https://www.technologyreview.com/2024/03/22/1090090/Apple-researchers-explore-dropping-siri-phrase-amp-listening-with-ai-instead/
2.https://blog.routinehub.co/the-history-of-siri-and-its-impact-on-todays-technology/
3.https://the-decoder.com/apple-struggles-with-ai-and-siri-report/