人工智能会让强大的科技公司变得更强吗?

机器学习可能是当今技术最重要的基本趋势。由于机器学习的基础是数据和大量的数据,很常见的是,那些已经拥有大量数据的公司会变得更加强大。这是有道理的,但在相当狭隘的方面,必威足球同时,ML也看到了很多能力的扩散——分散和集中可能是一样多的。

第一,机器学习是关于数据的,这意味着什么?由于ML的学术文化,几乎所有的初级科学都是在它一诞生就发表的——几乎所有的新事物都是一篇你可以阅读和撰写的论文。但是你做什么呢?好,过去,如果一个软件工程师想要创建一个系统来识别某些东西,他们会写逻辑步骤(“规则”)。为了识别照片中的猫,你可以写规则来找到边缘,毛皮,腿,眼睛,尖耳朵等等,把他们都栓在一起,希望能奏效。问题是尽管理论上可行,实际上,这就像是在制造一匹机械马——理论上是可能的,但所要求的复杂性法令是不切实际的。我们不能真正描述我们走路的所有逻辑步骤,或者辨认猫。通过机器学习,不是写规则,你举个例子(太多了例如)统计引擎,这个引擎产生了一个模型,可以分辨出不同之处。你给它100000张标有“猫”的照片和100000张标有“没有猫”的照片,机器就会计算出两者之间的差别。ML用自动确定的数据模式替换手写的逻辑步骤,对于一个非常广泛的问题来说效果更好——简单的演示是在计算机视觉中进行的,语言和语言,但是用例范围更广。相当多的数据是一个移动的目标:有一些研究路径可以让ML处理更小的数据集,但是现在,(很多)更多的数据几乎总是更好的。必威足球

因此,问题是:如果ml允许你做新的重要的事情,而ml更好,你拥有的数据越多,那么,这意味着那些已经很强大并且拥有大量数据的公司会变得更强大到什么程度呢?赢家能发挥多大作用?很容易想象良性循环会强化胜利者:“更多的数据=更准确的模型=更好的产品=更多的用户=更多的数据”。从这里开始,这是一个简单的步骤,就像“google/facebook/amazon拥有所有的数据”或者“中国拥有所有的数据”——害怕最强大的科技公司会变得更强,人口众多、对集中使用数据持“许可”态度的国家也是如此。

好,某种程度上。

第一,虽然机器学习需要大量的数据,您使用的数据是非常具体的问题,您正试图解决。GE有很多燃气轮机的遥测数据,谷歌有很多搜索数据,美国运通有大量信用卡欺诈数据。你不能用涡轮机数据作为例子来发现欺诈交易,你不能用网络搜索来发现即将发生故障的燃气轮机。也就是说,ML是一种可推广的技术—您可以将其用于欺诈检测或人脸识别—但您用它构建的应用程序并没有被推广。你做的每件事只能做一件事。这和以前所有的自动化浪潮是一样的:就像洗衣机只能洗衣服而不能洗盘子或做饭一样,国际象棋项目不能为你纳税,机器学习翻译系统不能识别猫。您构建的应用程序和您需要的数据集都非常特定于您正试图解决的任务(不过,这是一个移动的目标,有研究试图使学习更多可跨不同数据集传输

这意味着机器学习的实现将会非常广泛地分布。谷歌将不会“拥有所有的数据”——谷歌将拥有所有的谷歌数据。谷歌将有更多相关的搜索结果,通用电气将拥有更好的发动机遥测技术,沃达丰将对呼叫模式和网络规划进行更好的分析,这些都是由不同的公司建造的。谷歌变得越来越擅长谷歌,但这并不意味着它在某种程度上会在其他方面有所长进。

下一步,有人可能会说,这只意味着各行业变得更强壮-沃达丰,通用电气和美国运通各自都拥有“所有数据”,无论他们做什么,这就形成了对抗竞争的护城河。但在这里,更复杂的是:关于数据的确切拥有者有各种各样有趣的问题,它有多独特,在多大程度上是独一无二的,以及正确的聚合和分析点。

所以:作为一家工业公司,您是否保留自己的数据并建立ML系统来分析它(或支付承包商为您做这件事)?你是否从已经接受过其他人数据培训的供应商那里购买成品?你把你的数据混入其中吗?或者从中得到的训练?供应商是否需要您的数据,或者他们是否已经有足够的数据?答案在您业务的不同部分会有所不同,在不同的行业和不同的用例中。

从另一个角度来看,如果您要创建一家公司来部署ML来解决实际问题,有两个基本的数据问题:如何获得第一个数据来训练您的模型以获得第一个客户,你实际需要多少数据?当然,第二个问题分为许多问题:问题是通过相对少量的数据来解决的吗?这些数据很容易获得(但许多竞争对手可以获得)。或者你需要更多,很难获得数据,如果有网络效应可以从中获益,所以胜利者需要所有的动力?产品是否会随着更多的数据而变得更好?还是有S曲线?

这要看情况而定。

  • 有些数据是业务或产品独有的,或者具有很强的专有优势。通用电气发动机遥测技术在分析劳斯莱斯发动机时可能没有多大用处,但如果是这样,他们就不会分享。这可能是一个创造公司的机会,但同时也是一个内部大公司IT和承包商项目大量发生的地方。

  • 一些数据将应用于在许多公司甚至许多行业中发现的用例。“这个电话有点奇怪”可能是所有信用卡公司的一个常见分析——“客户听起来很生气”可能适用于任何拥有呼叫中心的人。这是“混合”问题。很多公司都是为了解决许多公司或不同行业的问题而创建的,这里的数据有网络效应。

  • 但也会有这样的情况,在某一时刻之后,供应商甚至不需要每个增量客户的数据——产品已经开始工作了。

在实践中,随着机器学习扩散到几乎所有的领域,一个启动程序可能会看到其中的一些。我们的投资组合公司Everlaw生产法律查询软件:如果你起诉某人,他们会给你一卡车纸,这有帮助。机器学习意味着他们能够对一百万封邮件进行情绪分析(“给我看焦虑的邮件”),不需要根据案例中的数据对模型进行培训,因为培训这种模式的情感示例不需要来自于这个特定的诉讼(或任何诉讼)。相反地,他们也可以对你的数据进行集群分析(“给我看与此大致相同的邮件”),而不必去其他地方。Drishti另一家投资组合公司,使用计算机视觉来测量和分析生产线——其中一些功能是根据您的数据进行培训的,而有些功能根本不特定于您的业务,并且跨行业工作。

在极端情况下,我最近和一家使用机器学习来获得更精确的轮胎漏气检测仪的大型车辆制造商进行了交谈。这是根据数据进行的培训(很多关于轮胎漏气和不漏气信号的例子)。显然,但要得到这些数据并不难。这是一个功能,不是护城河。

因此,我之前说过,对于一个ML初创公司,有两个问题:如何获取数据以及需要多少数据?但这些只是技术问题:你也会问你如何进入市场,你的目标市场是什么?你所解决的问题对你的客户有多重要,等等。也就是说,很快就不会有任何“人工智能”初创公司了——他们会工业过程分析公司,或法律平台公司,或销售优化公司.的确,机器学习的扩散并不意味着谷歌变得更强,但是,所有的初创企业都能比以前更快地利用这一尖端科学来构建企业。

这让我联想到一个比喻我在别处用过-我们应该将机器学习与SQL进行比较。这是一个重要的组成部分,允许新的和重要的事情,将成为一切的一部分。如果你不使用它,而你的竞争对手使用它,你会落后的。有些人会用这种方法创建全新的公司——沃尔玛成功的一部分来自于使用数据库更有效地管理库存和物流。但是今天,如果你开了一家零售商说“……我们要用数据库“,”这不会让你与众不同或有趣——SQL成为了一切的一部分,然后消失了。机器学习也是如此。