人工智能使强大的科技公司更强大吗?吗?

机器学习可能是当今技术最重要的基本趋势。由于机器学习的基础是数据和大量的数据,很常见的是,那些已经拥有大量数据的公司会变得更加强大。有一些事实,但在相当狭窄的方式,必威足球同时毫升也多观察扩散的能力——可能有尽可能多的分散集中。

首先,机器学习与数据有关是什么意思?由于ML来自学术文化,几乎所有的初级科学一经创建就出版了——几乎所有新的东西都是一篇你可以阅读和构建的论文。但你建造什么?好吧,过去,如果软件工程师想要创建一个系统来识别某物,他们会写逻辑步骤(“规则”)。识别一只猫在一幅画,你会编写规则来发现边缘,皮毛,腿,的眼睛,尖耳朵等,和螺栓都在一起,希望它工作。问题在于,尽管这在理论上可行,在实践中它就像试图让机械马——它在理论上是可能的,但是要求复杂性的法令是不切实际的。我们实际上无法描述我们用来行走的所有逻辑步骤,或者认识到一只猫。利用机器学习,而不是写规则,你举了个例子太多了例子)统计引擎,这个引擎会生成一个能够分辨出差异的模型。你给100,000年照片贴上“猫”,100年,000个标签上写着“没有猫”,这台机器就解决了这个问题。毫升取代手写的逻辑步骤与自动数据中的模式决定的,而且对于非常广泛的一类问题来说,效果要好得多——计算机视觉中的简单演示,语言和言语,但是用例要广泛得多。需要多少数据是一个移动的目标:有一些研究路径允许ML处理小得多的数据集,但是现在,(多)更多的数据几乎总是更好的。必威足球

因此这个问题:如果毫升允许你做新的和重要的事情和毫升是更好的数据越多,然后多远这是否意味着公司已经大了,有很多数据变得更强壮?“赢者通吃”的影响有多大?很容易想象,良性循环会加强赢家:“更多的数据=更精确的模型=更好的产品=更多的用户=更多的数据”。从这里声明这是一个很简单的一步就像谷歌和Facebook /亚马逊的所有数据”或者“中国的所有数据”——担心最强大的科技公司将变得更强,人口众多、对数据集中使用持宽容态度的国家也将如此。

好吧,排序的。

首先,尽管机器学习需要大量的数据,您使用的数据是非常具体的,你想解决的问题。通用电气拥有来自燃气轮机的大量遥测数据,谷歌有很多搜索数据,美国运通拥有大量的信用卡欺诈数据。你不能用涡轮机数据作为例子来发现欺诈交易,而且你不能用网络搜索来发现那些即将倒闭的燃气轮机。也就是说,ML是一种通用的技术-你可以用它来检测欺诈或人脸识别-但你用它构建的应用程序并不通用。每一件事情你只能做一件事。这是所有以前一样一波又一波的自动化:就像一台洗衣机只能洗衣服,而不是洗碗或做饭,国际象棋程序不能帮你缴税,机器学习翻译系统不能识别猫。应用程序构建和数据集需要非常具体的任务你试图解决(尽管再一次,这是一个移动的目标,有研究试图使学习更多可转让的不同数据集

这意味着机器学习的实现将非常广泛地分布。Google不会“拥有所有的数据”——Google将拥有谷歌数据。谷歌将会更相关的搜索结果,通用电气将拥有更好的发动机遥测,沃达丰将更好地分析呼叫模式和网络规划,这些都是由不同的公司有不同的。Google变得更擅长于谷歌,但这并不意味着它勉强擅长什么。

下一步,有人可能会争辩说,这只是意味着每一个行业变得更强——沃达丰(Vodafone),通用电气和美国运通各有“所有数据”,不管它是什么,他们做这护城河反对他们的竞争形式。但是在这里,更复杂的是:关于谁真正拥有这些数据,存在各种有趣的问题,是多么独特在什么水平的独特,以及聚合和分析的正确点。

所以:作为一家工业公司,您是否保存自己的数据并构建ML系统来分析它(或者付钱给承包商为您做这些)?你买成品的供应商已经训练别人的数据?你把你的数据混入其中,或培训来自吗?甚至供应商需要你的数据或他们已经有足够的吗?答案将在您的业务的不同部分是不同的,在不同的行业和不同的用例中。

从另一端过来,如果您正在创建一个公司来部署ML来解决现实世界的问题,有两个基本的数据问题:如何获得您的第一数据以训练您的模型以获得您的第一客户,您实际需要多少数据?当然,第二个问题分解成大量的问题:是一个相对较小的问题解决了你可以很容易的数据量(但是许多竞争对手可以),或者你需要更多的,难以获得的数据,如果是有受益于网络效应,所以胜利者需要所有的动力?无限期的产品得到更好的更多的数据,还是有S曲线?吗?

视情况而定。

  • 一些数据对于业务或产品是唯一的,或者具有强大的专有优势。GE发动机遥测可能不太适用于分析劳斯莱斯发动机,但如果是的话,他们就不会分享。这可能是公司创建的机会,但也是一个地方大量的内部大公司和承包商项目发生

  • 一些数据将应用于在许多公司甚至许多行业中发现的用例。“有一些奇怪的东西这叫”可能是一个常见的分析所有信用卡公司——“客户听起来生气”可能适用于任何拥有呼叫中心。这是一个“相互交织”的问题。很多公司被创建来解决问题在许多公司甚至在不同的行业,而且这里的数据存在网络效应。

  • 但是,在某些情况下,在某个时间点之后,供应商甚至不需要每个增量客户的数据——产品已经在工作了。

在实践中,随着机器学习扩散到几乎所有领域,一个初创企业可能会看到其中的几个。我们的投资组合公司Everlaw生产法律发现软件:如果你起诉某人,而他们送你一卡车纸,这可以帮助。机器学习意味着他们将能够对一百万封电子邮件(“给我看焦虑的电子邮件”)进行情感分析。无需火车模型数据从您的情况下,因为情绪的例子来训练该模型不需要来自这个特殊的诉讼(或任何诉讼)。相反地,他们也可以做聚类分析('给我的邮件是一样的)在你的数据没有,其他地方。Drishti,另一家投资组合公司,使用计算机视觉来测量和分析生产线-这些能力中的一些是根据您的数据训练的,而有些并不特定于您的业务并且跨行业工作。

在极端情况下,我最近采访了一个非常大的汽车制造商使用机器学习得到一个更精确的轮胎探测器。这是训练数据(很多信号从平面和不是平的轮胎)的例子,显然,但不难得到这些数据。这是一个特点,不是一条护城河。

因此,我之前说过,ML启动有两个问题:如何获得数据,以及需要多少数据?但是这些只是技术问题:你还要问如何进入市场,你们可寻址的市场是什么,如何有价值的解决你的问题是你的客户,等等。也就是说,很快,就不会有任何“人工智能”初创公司了,他们会工业过程分析公司,或法律平台公司,或优化销售公司.的确,机器学习的扩散并不意味着谷歌变得更强,但是各种各样的初创公司用这种前沿的科学技术构建东西的速度比以前快得多。

这需要我一个隐喻我在其他地方使用——我们要比机器学习SQL。它是允许新事物和重要事物的重要构件,并将所有的一部分。如果你不使用它和你的竞争对手,你就会落后。有些人会用这种方式创建全新的公司——沃尔玛的成功部分来自于使用数据库来更有效地管理库存和物流。但是今天,如果你开了一家零售商,然后说,我们要用数据库“,,不会让你不同的或有趣的——SQL成为一切的一部分,然后消失了。同样的情况也会发生在机器学习上。