声音与人工智能的奇谷

我们需要什么??
自然语言处理!!
我们什么时候想要??
对不起的,我们什么时候需要什么??

_u 2014betway足球 Benedict Evans(@BenedictEvans) 1月22日,二千零一十七\n“}数据块类型="22““=”块yui_3_17_2_1_14877995456_39843>

语音是今年科技界的大买卖。亚马逊可能已经销售了1000万台Echos,你不能搬去CES的Alexa合伙公司,Google已经创建了自己的,似乎,这是新的平台。这次爆炸有几个不同的原因,而且,也,有几个问题。开始,原因。

第一,语音很重要,因为现在语音输入作品在某种程度必威足球上,它直到最近才出现。在过去的几年里,机器学习的进步意味着(极大地简化)计算机在识别人们在说什么方面正在变得更好。技术上,这里有两个不同的领域;语音识别和自然语言处理。语音识别是将音频转录成文本,自然语言处理就是获取文本并计算其中的命令。自2012以来,这些任务的错误率已经从三分之一降低到低于5%。换言之,这个作品,大多数情况下,而过去没有。这还不是完美的-正常使用5%的错误率可能是你每天碰到的,Twitter上到处都是发布语音助理完全不理解的例子。但这种状况正在继续改善——我们现在知道如何做到这一点。

第二,智能手机供应链意味着用麦克风做一个盒子,一个足够快的CPU和一个无线芯片要容易得多——去年销售了15亿部智能手机,有一个越来越好的消防水龙头,正在为该市场大规模生产各种越来越便宜的组件,但可用于其他任何领域。并行地,以深圳为中心的智能手机和消费电子产品周围的专家和合同制造商的生态系统,不仅意味着你可以得到零部件,而且意味着你也可以找人帮你组装。硬件仍然很硬,但是没有以前那么难。所以,如果你想要一个神奇的音箱,你打算从云彩中点亮,你可以做一个。

第三,主要的互联网平台公司(谷歌,苹果Facebook和亚马逊,或者GAFA)的收入大概是上世纪90年代Wintel的10倍,什么时候?他们这些公司正在改变世界,吓坏了小家伙。所以,还有很多钱(还有人,以及发行)可用于有趣的副项目。

第四,智能手机不是桌面网络浏览器(主要是)那样的中立平台——苹果和谷歌可以控制移动互联网上的可能性必威足球,而微软没有控制桌面互联网的方式。这让互联网公司感到紧张——这让谷歌对苹果感到紧张(这也是谷歌收购Android的原因之一),亚马逊和Facebook对两者都感到紧张。他们想要自己的消费平台,但是不要它们。这是Kindle Fire背后的重要驱动者,AlexaFacebook Messenger机器人和其他各种项目。

所有这些加起来就是动机和机会。然而,这并不一定意味着语音“工作”-或者更确切地说,我们需要更加具体地说明“工作”是什么意思。

所以,当我说那个声音时输入“作品”,这意味着你现在可以使用音频波形来填充对话框-你可以将声音转换为文本和文本(从音频或,当然,来自聊天机器人,这是去年的“下一件大事”)进入结构化查询,你可以计算出在哪里发送查询。问题是您可能实际上没有任何地方可以发送它。您可以使用语音来填充对话框,但是对话框必须存在,您需要首先构建它。你必须建立一个航班预订系统,还有一个餐厅预订系统,以及调度系统,还有音乐会预订系统,以及用户可能想做的其他事情,在你能把声音和他们联系起来之前。否则,如果用户要求其中的任何一个,你会准确地把他们的声音变成文字,但是不能用它做任何事情-你只有一个转录系统。因此,问题在于,您能够构建多少这样的查询?你需要多少?你能把它们转储到网络搜索中吗?还是你需要更多??

机器学习(极大地简化)是指我们使用大规模的数据来生成用于理解语音和自然语言的模型,而不是用手写语音和语言规则的旧技术。但是我们没有相应的方法来使用数据构建您想要连接的所有查询—必威足球—所有对话框。你还得用手做。您已经使用机器学习来制作专家系统的前端,但是专家系统仍然是一个预数据,手工制作的模型。尽管您可能能够使用API和开发人员生态系统,从回答0.1%的可能问题到回答1%(从修辞上讲),这仍然是99%的错误率。这根本无法扩展,你不能对任何人可能用手提出的所有可能的问题创造答案,我们没有办法用机器来做。必威足球如果我们做到了,我们会有通用人工智能,根据定义,那还有几十年呢。必威足球

换言之,一些语音UI陷入的陷阱是假装用户实际上在和HAL 9000说话,你刚刚建立了一个更好的IVR,也不知道如何从IVR到HAL。

既然你不能回答任何问题,还有第二个缩放问题-用户知道他们可以问什么吗?我怀疑语音UI的理想函数数量实际上遵循U形曲线:一个命令很好,可能是十个,但是50或100是可怕的,因为你仍然不能要求任何东西,但不记得你能要求什么。曲线的另一端是随着你越来越接近一个真正能够回答的系统任何东西,但是,再一次,那就是“通用人工智能”。

这里有趣的暗示是,尽管有足够的资金和足够的开发人员,您可能能够构建一个能够回答数百或数千个不同查询的系统,这实际上可能适得其反。

对此的反论是一些大的平台公司(比如谷歌,亚马逊(Amazon)或许还有Facebook)已经有大量用户输入自然语言查询作为搜索请求。今天,他们通过返回一页搜索结果来回答这些问题,但他们可以走这条曲线的前面,为(比如说)100或500种最常见的请求类型建立结构化的响应——这是Google的知识图。所以用户不必知道他们可以问哪些50件事,但是对于前50(或500)种问题,他们现在得到的回答要比一页链接要好得多。显然,这可以在屏幕上很好地工作,但在仅音频设备上失败。但从更广泛的角度来看,这在实践中的效果如何,是一个分布问题,可能是所有被问到的问题中有一半落入了Google所构建的结构化响应的前500种类型,但是,我自己每天问谷歌之家的问题中,有多少会进入前500名?我多久会耸耸肩??

这倾向于得出结论,对大多数公司来说,为了让语音工作得非常好,你需要一个狭窄的、可预测的领域。您需要知道用户可能会询问什么,并且用户需要知道他们可以询问什么。这就是Siri的结构问题——不管语音识别部分工作得多好,你只能问20件事,然而,苹果给人的印象是,你可以要求任何东西,所以你一定要问一些不在清单上的事情,然后得到一个电脑化的耸肩。相反地,亚马逊的Alexa似乎在沟通你能问和不能问的问题上做得更好。其他狭窄领域(酒店房间,音乐,地图)也似乎工作得很好,再一次,因为你知道你可以问什么。你必须选择一个你不能伸缩的领域。

与此同时,对于一些任务,语音不一定是正确的UI,即使我们实际上有HAL 9000,解决了所有这些缩放问题。甚至让一个真正的人通过电话重新订机票或预订酒店都是错误的UI。您希望看到选项。通过IVR购买衣服也是一种非常糟糕的经历。所以,也许声音的一个问题不仅仅是AI部分还不够好,甚至人类声音太有限了。您可以通过添加屏幕来解决其中的一些问题,正如传闻的《亚马逊回声》——但是,您还可以添加触摸屏,以及一些用于不同服务的图标。你可以称之为“图形用户界面”,也许,使声音部分可选…

当我绕着这个意识问题转圈时,在我看来,把Alexa和Apple Watch比较一下似乎很有用。他们两人都不做你在手机上做不到的事情,但是,只要你记得,他们把它移到不同的情境,而且摩擦力小。摩擦力较小,说,设置定时器或者用Alexa或智能手表进行重量转换,当你站在厨房时,但是要记住你能做到这一点需要更多的磨擦。你必须改变你的心智模式,让你知道怎样才能有所成就,事情很简单,几乎是自反式的任务,其中你已经有了肌肉记忆来拔出手机,那么这个新设备能打破这个习惯并形成一个新的吗?一旦习惯或意识存在,那么一些东西就会有语音助手或手表(或手表上的语音助手,当然)很多,比拔掉电话要好,但是这种习惯必须首先养成。

延伸,可能存在一组行为更适合语音UI,不是因为它们更容易构建,或者因为命令在统计上更有可能被使用,而是因为心理模型工作得更好-打开灯,音乐(Echo的关键用例)或定时器不只是处理约会,也许。也就是说,虽然在理论上它是完全开放式的,但是只做一件事并且只有一个命令的设备可能最适合于语音。

这里有一系列矛盾,我想。声音UIS看,概念上,比起智能手机,它更像是不受限制的通用接口,但它们实际上更窄,更单一。它们看起来比拔手机摩擦小,解锁它,加载应用程序等等,是的,但只有在你改变你的思维模式的时候。它们看起来像是智能手机之外的未来,但在(必然)关闭时,它们看起来也非常像功能手机或运营商甲板。他们是一个平台,但是可能得到的更糟的开发者生态系统越大。这被计算机动画中的“不可思议的山谷”概念很好地捕捉到了:当一个人的渲染从“卡通”变成“真实人物”时,有一点是,增加的真实感使它看起来不那么真实,而是更真实——使技术更好首先产生更差的用户体验。

所有这一切都让我回到我的开场白——人们为什么要这样做是有原因的。希望声音是新事物。还有一件事我没有提到,既然移动不再是高速增长的行业,科技产业正在四处寻找下一件大事。我猜想那声音一定是真的。大事,但是我们得再等一会儿才能换下一个平台。