人工智能,苹果和谷歌

(注——为了更好地介绍人工智能的历史和现状,看我的同事陈富兰的演讲在这里

在过去的几年里,魔法开始在人工智能中发生。技术开始起作用,或者开始工作得更好,新技术已经出现,尤其是机器学习(“ML”),当这些应用到一些长期的和重要的用例时,我们开始得到显著更好的结果。例如,用于图像识别的错误率,语音识别和自然语言处理已经崩溃到接近人类的速度,至少在一些测量上。

所以你可以对电话说:‘给我看海滩上狗的照片’,语音识别系统把音频转换成文本,自然语言处理采用文本,计算出这是一个照片查询,并将其交给您的照片应用程序,还有你的照片应用程序,它使用ML系统标记你的照片有“狗”和“海滩”,运行数据库查询并显示标记的图像。魔术。

这里确实发生了两件事——您使用语音来填充查询的对话框,该对话框可以运行以前可能无法执行的查询。这两个功能都是通过机器学习实现的,但是它们是分开建造的,实际上,最有趣的部分不是声音,而是查询。能够要求“与狗在海滩的照片”的重要部分不是因为计算机能够找到它,而是因为计算机已经解决了,本身,如何找到它。你给它一百万张贴有“里面有狗”的标签的图片,一百万张贴有“里面没有狗”的标签的图片,然后它就能计算出狗长什么样。现在,试着用“数据集中那些即将流失的客户”,或者“这个网络有安全漏洞”,或者“人们经常阅读和分享的故事”。然后尝试没有标签(“非监督的”而不是“监督的”学习)。

今天,您将花费数小时或数周的时间在数据分析工具中寻找找到这些数据的正确标准,你需要人们做这项工作-排序,使用Excel表,并关注奇怪的结果,比喻地说,但是它有一百万行一千列。承诺许多非常大、非常无聊的数据分析可以自动化,而不仅仅是运行搜索,但是找出搜索应该是什么来找到你想要的结果。

也就是说,语音接口或图像识别的引人注目的演示只是底层技术的最明显的演示,但是它们有更广泛的应用,你也可以把它们应用到键盘上,音乐推荐系统,网络安全模型或自动驾驶汽车。也许吧。

这显然是谷歌的一个根本变化。狭隘地,图像和语音识别意味着它能够更好地理解问题和索引音频,图像和视频更好。但更重要的是,它将更好地回答问题,回答一些以前根本无法真正回答的问题。因此,作为我们在谷歌IO看到的,公司正在最近的日子在这些技术上。当然,所有这些技术将以不同的方式在不同程度上用于不同的用例,必威足球正如AlphaGo使用了一系列不同的技术。吸引人们注意的是“Google助手”——一个前端,使用声音和分析你的行为,试图更好地捕捉问题,并在被问及之前解决一些问题。但这只是矛尖——真正的变化在于理解谷歌收集的数据库的质量,谷歌能够回答各种不同产品的查询。这真的只是刚刚开始。

这同样适用于微软,必威足球(完全错过了移动)正在创建基于云的工具,以允许开发人员基于这些技术构建他们自己的应用程序,对于Facebook(如果不是机器学习应用程序,那么什么是newsf.?)对IBM来说也是如此。任何为钱处理大量数据的人,或者帮助别人去做,会改变,围绕着这个领域将会有一大群新公司诞生。

另一方面,虽然我们有魔法,但我们没有HAL 9000-我们没有接近人类智能的系统(所谓的“通用人工智能”)。我们也没有很好的理论来解释这意味着什么——人类的智力是否是我们已有的技术和思想的总和,但更多,或者是否还有别的东西。更确切地说,我们有一堆需要构建和链接在一起的工具。我可以让Google或Siri给我看我的狗在海滩上的照片,因为Google和Apple已经把工具连接起来了,但是我不能要求它为我预订餐厅,除非他们添加了与Opentable的API集成。这是Siri面临的基本挑战,Google助理或任何聊天机器人(如我所讨论的)在这里-你能问些什么呢??

这把我们带到了一个全班笑话通常关于什么首先算作人工智能:

  • “是AI还是只是一堆IF语句?““
  • “每次我们找到其中的一部分[人工智能],它停止了魔力;我们说,哦,那只是一个计算
  • “人工智能就是尚未完成的工作”“

这些笑话反映了两个问题。第一点是,人类智力本身并不完全是“一堆IF语句”,有几种不同的,规模非常大的,至少在概念层面上。但第二点是,这种从魔幻到平庸的运动是所有技术和所有计算的一个特征,这并不是说它不起作用,而是说它不起作用。也就是说,,技术在某种意义上,就是任何没有工作很长时间的东西。我们不称之为电力技术,洗衣机也不是机器人,你可以替换是人工智能还是只是计算?“用“那是技术还是工程学?““

我认为这里的一个基础点是Eric Raymond的规则计算机不应该向用户询问任何它可以自动检测的信息,复制,或推断'-尤其是,在这里,推论。观察过去必威足球50年中整个计算发展的一种方式是消除计算机需要问的问题,并且增加新的问题。很多东西在呈现给用户时并不一定看起来像问题,但他们是,计算机不再要求他们:

  • 您想把这个文件保存在哪里??
  • 你想整理你的硬盘吗??
  • 你的声卡应该使用什么中断??
  • 您想退出这个应用程序吗??
  • 为了节省空间,您要删除哪些照片??
  • 为了运行web搜索,您希望填写这10个搜索条件中的哪一个??
  • 你的电话号码是多少??
  • 您想在什么内存中运行这个程序??
  • 那个单词的正确拼法是什么?必威足球?
  • 这个页面号码是多少??
  • 你想看看你朋友的哪些更新??

有时我突然想到,作为非常古老的科幻小说的读者,那部科幻小说的确如此。主要地计算小姐,但它谈论了很多关于“自动”的问题。如果你看看那张清单,没有一个项目看起来真的像“AI”(尽管有些项目将来可能会使用它),但是很多都是自动的。这就是任何缺少HAL 9000的“人工智能”的真正含义——自动驾驶仪,自动拼写检查器,自动硬件配置,自动图像搜索或语音识别器,自动预订餐厅或叫出租车的……这都是文书工作,你的电脑再也不能强迫你做了,因为它获得了智慧,人工地,为你做这些。

这带我去了苹果。

自1984年以来,苹果公司一直在生产问问题较少的电脑,长期以来,人们一直在抱怨这一点——一个用户的问题是另一个用户的自由选择(这一点你可以从iOS和Android之间的对比中清楚地看到)。史蒂夫·乔布斯曾经说过,iDVD的接口应该只有一个按钮:“BURN”。它发射数据检测器1997年,一个试图以有用的方式查看文本和提取结构化数据的框架——约会,必威足球电话号码或地址。今天,你会使用人工智能技术来达到目的,那是人工智能吗?或者“一堆IF语句”?有没有算作AI的规范算法列表?这有关系吗?对于可以点击拨号而不是复制粘贴的用户,这是一个有意义的问题吗??

这无疑是苹果公司看待AI的一种方式。必威足球在IOS 10中,苹果公司正在通过接口向AI系统注入智能。有时这显然是一件新鲜事,例如图像搜索,但更常见的情况是,它是一个工作得更好的旧特性,或者是现有应用程序的一个小新特性。苹果似乎真的把“人工智能”看作“只是计算”。

同时,苹果公司一直非常明确地表示,公司不应该收集和分析用户数据,并且已经明确表示不会提供这些服务中的任何一个。这句话的意思大不相同。神经网络的要点之一是训练它们与运行它们不同。你可以在云中训练一个神经网络,在闲暇时设置一个巨大的图像,然后将经过训练的系统加载到电话上,并在本地数据上运行它,而不会离开设备。这个,例如,Google Translate是如何在移动平台上工作的?分析是局部的.苹果苹果照片公司也这么做,结果证明我们不需要你的以山的照片训练系统识别山。我们可以得到我们自己的山的照片。它还具有API,允许开发人员使用GPU在本地运行经过预训练的中性网络。对于其他服务,它使用“差别隐私”,它使用加密来混淆数据,这样尽管数据是苹果公司收集的,并且进行大规模分析,从理论上讲,您无法确定它与哪些用户相关。

苹果公司做这件事的地方和方式千差万别,必威足球以及不同的技术,这使得在“苹果错过了这个”这句话上做出明确的声明变得相当困难。苹果公司已经明确决定,至少要用一只手绑在背后,但是不清楚到底有多少服务会真正影响,或者多少钱。也许你不需要我的山的照片,但是如何训练来认出我的儿子呢?这是在设备上完成的吗?培训数据正在更新吗?谷歌的培训数据好多少?它会从中受益多少??

超越隐私,这个领域发展如此之快,以至于很难说最强的领导必定在哪里,也不知道哪些东西会是商品,哪些会是优势的区别。尽管围绕这些技术的大部分初级计算机科学正在出版和开放源码,实现并不简单——这些技术不一定是商品,然而。但与苹果的芯片设计方法相比,这绝对是一个对比。自2008年收购PA Semi以来(如果不是早些时候的话),苹果已经将SOC在其设备中的设计作为基本的核心能力和竞争优势,它现在为自己设计芯片,毫无疑问是市场领先的。顺便说一下,这将是启动VR产品时的主要优势)。目前尚不清楚苹果是否以同样的方式看待“人工智能”。必威足球

(还有)也许是愤世嫉俗地,这里的“默认能力”问题——如果Google Photos在对象分类上总是比Apple Photos好10-15%,必威足球用户会注意到超过一定程度的共享准确性吗?毕竟,苹果地图的用户数量是iPhone和谷歌地图的3倍。一定地更好。谷歌的领先优势是否被说,苹果的Photurestream或者其他层叠的特性?再一次,这一切尚不明确。)

苹果和谷歌的共同主线,以及它们平台上的应用程序,最终,许多“AI”技术将成为API和所有领域的开发工具,很像,说,位置。15年前,定位手机是巫术,移动运营商对“基于位置的服务”有收入预测。GPS和wifi-lookup使得LBS只是另一个API调用:“你在哪里?”这成了电脑永远不必问你的另一个问题。但是,尽管位置变成了API——只是一个数据库查找——只是另一个IF语句-用它创建的服务位于频谱上。一端是像Foursquare这样的产品,这些产品只能在实时定位下才能使用,并且能够发挥魔力。稍微落后的是尤伯或莱夫特-当你叫车时,知道自己在哪里对莱夫特是有用的,但不是必需的对于驱动程序的应用程序是必不可少的,或课程)。但是还有像Instagram这样的东西,位置是免费的“拥有”——自动给照片贴上地理标签很有用,但不是必须的,你也许不想这样。必威足球(反过来说,图像识别将转换Instagram,尽管他们需要在培训数据中对不同类型的咖啡进行仔细的分类)。最后,有,说,一个航空公司的应用程序,那个可以当你进行航班搜索时,询问你在哪个城市,但是真的没必要麻烦。

以同样的方式,必威足球将会有一些产品因为机器学习而变得可能,无论是应用于图像或语音,还是完全应用于其他方面(没有人看过位置,并认为“这可能会改变出租车”))将会有一些服务被它丰富了,但是可以不用,有些事情可能根本不那么相关(任何人都意识到)。所以,苹果提供照片识别,在日历应用程序中,还有一个更智能的键盘和地点建议——它到处都是“AI”,很像地理位置。而且,像任何计算机科学工具一样,会有一些技术属于商品,而有些技术则不是,然而。

所有这些,到目前为止,假设AI的影响形成一种T形模型:有一个垂直的,搜索,其中人工智能技术具有完全的改造性,然后是横跨所有东西的层,它改变事物(就像位置一样)。但是还有另一个潜在的模型,其中AI成为手机本身的新层——它改变交互模型,并将服务从应用程序竖井内重新定位到某种新的运行时。它是否改变了手机上的聚合层——它使应用程序变得更好,但它会改变应用程序是什么吗?这对于苹果公司发明的模型来说,潜在的不稳定性要大得多。

显然,在某些情况下,答案是“是”。至少,搜索意味着什么的结构性改变改变了竞争格局,破坏了谷歌通用搜索和垂直竞争对手的混合:Yelp搜索可能成为谷歌的问题,或者在你提出要求之前给出答案。这是另一个删除问题的例子,而不是Google为你提供十个搜索结果,它认为可以回答你的问题,它会自己给你答案,在你提出问题之前,它也会试着给你答案。

更有趣的是,尤伯或莱夫特的请求,或者Opentable预订,也可以从应用程序重新聚合到语音UI中的建议或答案,或者说,地图。一个只有一个按钮的应用程序——问一个简单的问题——可以很容易地成为一个请求,无论是在谷歌助理,苹果智能语音助手,苹果或谷歌地图或消息应用程序。事实上,一种看待必威足球苹果将API开放到地图上的方法,苹果智能语音助手,Messenger等是作为Google的柜台。Google会在哪里为你找到电影院,餐厅或酒店本身,苹果将依靠开发人员解决相同的用例。Google Allo推荐一家餐厅,苹果的iMessage会给你一个Opentable插件。

这个有多宽,但是呢?对,你可以告诉Siri或者Google助理“给我看Instagram的所有新帖子”,但是,为什么要把它放在对您所有问题的响应提要中是更好的UI呢?为什么Google的ML界面比Instagram设计的chrome更适合看到这一点?ML可能(确实,威尔)让Facebook的新闻传播得更好,但它是否消除了一对多和一对一通信信道之间的差异?为什么通用渲染层比专用渲染层好?被合并到一个通用ML层中会改变这个吗??

可以建议重新绑定,因为它允许一个更简单的界面——您的主屏幕可以显示文档,每天的电子邮件和会议,而不是你必须进入每个应用程序来处理它们。也许“下一步你想打开哪个应用程序?”这是一个可以移动的问题,汽车是定购的,会议接受了,费用报告获得批准。这已经是Facebook为整个互动部分所做的事情了,在ML之前-要查看哪些共享帖子,与谁交谈,读什么新闻。但这不是唯一的电话。而且,再一次,我们没有HAL 9000。我们实际上没有了解你的系统,你想要的一切,以及所有应用程序中的所有内容,我们离那个地方不远。所以Google可以把你在手机上做的所有事情都归入一个单一的基于人工智能的统一层,这个层位于顶部,看起来有点像“魔鬼博士计划”——它太聪明了,需要一半的技术(致命的激光卫星!)实际上并不存在。

在我看来,有两件事情使得谈论人工智能爆炸变得困难。第一个是“人工智能”是一个不可思议的广义术语,它意味着我们有一个新的魔锤,把每个问题都变成钉子。我们没有-我们有一堆解决一些问题的新工具,但不是全部,问题,而且,从各种数据池中提取新观点的承诺不会总是得到满足。必威足球这可能是错误的数据,或者是错误的见解。第二,这个领域正在迅速发展变化,那些现在不起作用的东西是,而且新的事情一直在被讨论。所以我们有兴奋和胡说,怀疑和远见,还有一批令人惊叹的公司正在创建中。这些东西中的一些将会存在于所有东西中,你甚至不会注意到它,其中一些将会是下一个亚马逊。