人工智能会让强大的科技公司变得更强吗?

机器学习可能是当今技术最重要的基本趋势。Since the foundation of machine learning is data - lots and lots of data - it's quite common to hear that the concern that companies that already have lots of data will get even stronger.这是有道理的,but in fairly narrow 必威足球ways,同时,ML也看到了很多能力的扩散——分散和集中可能是一样多的。

First,机器学习是关于数据的,这意味着什么?由于ML的学术文化,pretty much all of the primary science is published as soon as it's created - almost everything new is a paper that you can read and build with.但是你做什么呢?好,in the past,if a software engineer wanted to create a system to recognise something,他们会写逻辑步骤(“规则”)。To recognise a cat in a picture,你可以写规则来找到边缘,毛皮,腿,eyes,pointed ears and so on,and bolt them all together and hope it worked.The trouble was that though this works in theory,in practice it's rather like trying to make a mechanical horse - it's theoretically possible,但所要求的复杂性法令是不切实际的。我们不能真正描述我们走路的所有逻辑步骤,或者辨认猫。通过机器学习,instead of writing rules,you give examples (太多了of examples) to a statistical engine,这个引擎产生了一个模型,可以分辨出不同之处。You give it 100,000 pictures labelled ‘cat' and 100,000 labelled ‘no cat' and the machine works out the difference.ML用自动确定的数据模式替换手写的逻辑步骤,对于一个非常广泛的问题来说效果更好——简单的演示是在计算机视觉中进行的,语言和语言,但是用例范围更广。Quite how much data you need is a moving target: there are research paths to allow ML to work with much smaller data sets,但是现在,(much) more data is almost al必威足球ways better.

Hence the question: if ML lets you do new and important things and ML is better the more data you have,那么,这意味着那些已经很强大并且拥有大量数据的公司会变得更强大到什么程度呢?赢家能发挥多大作用?It is easy to imagine virtuous circles strengthening a winner: ‘more data = more accurate model = better product = more users = more data'.从这里开始,这是一个简单的步骤,就像“google/facebook/amazon拥有所有的数据”或者“中国拥有所有的数据”——害怕最强大的科技公司会变得更强,人口众多、对集中使用数据持“许可”态度的国家也是如此。

好,sort of.

First,虽然机器学习需要大量的数据,您使用的数据是非常具体的问题,您正试图解决。GE has lots of telemetry data from gas turbines,谷歌有很多搜索数据,and Amex has lots of credit card fraud data.You can't use the turbine data as examples to spot fraudulent transactions,and you can't use web searches to spot gas turbines that are about to fail.也就是说,ML是一种可推广的技术—您可以将其用于欺诈检测或人脸识别—但您用它构建的应用程序并没有被推广。你做的每件事只能做一件事。这和以前所有的自动化浪潮是一样的:就像洗衣机只能洗衣服而不能洗盘子或做饭一样,国际象棋项目不能为你纳税,机器学习翻译系统不能识别猫。Both the applications you build and the data sets you need are very specific to the task that you're trying to solve (though again,这是一个移动的目标,有研究试图使学习更多可跨不同数据集传输

This means that the implementation of machine learning will be very widely distributed.谷歌将不会“拥有所有的数据”——谷歌将拥有所有的谷歌数据。谷歌将有更多相关的搜索结果,通用电气将拥有更好的发动机遥测技术,沃达丰将对呼叫模式和网络规划进行更好的分析,这些都是由不同的公司建造的。Google gets better at being谷歌,但这并不意味着它在某种程度上会在其他方面有所长进。

下一步,有人可能会说,这只意味着各行业get stronger - Vodafone,通用电气和美国运通各自拥有“所有数据”,无论他们做什么,这就形成了对抗竞争的护城河。但在这里,更复杂的是:关于数据的确切拥有者有各种各样有趣的问题,它有多独特,有多独特,以及正确的聚合和分析点。

所以:作为一家工业公司,do you keep your own data and build the ML systems to analyse it (or pay a contractor do do this for you)?Do you buy a finished product from a vendor that's already trained on other people's data?你把你的数据混入其中吗?或者从中得到的训练?Does the vendor even need your data or do they already have enough? The answer will be different in different parts of your business,在不同的行业和不同的用例中。

从另一个角度来看,如果您要创建一家公司来部署ML来解决实际问题,有两个基本的数据问题:如何获得第一个数据来训练您的模型以获得第一个客户,你实际需要多少数据?当然,第二个问题分为许多问题:问题是通过相对少量的数据来解决的吗?这些数据很容易获得(但许多竞争对手可以获得)。或者你需要更多,hard-to-get data,如果有网络效应可以从中获益,所以胜利者需要所有的动力?产品是否会随着更多的数据而变得更好?还是有S曲线?

这要看情况而定。

  • Some data is unique to the business or product or gives a strong proprietary advantage.通用电气发动机遥测技术在分析劳斯莱斯发动机时可能没有多大用处,但如果是这样,他们就不会分享。这可能是一个创造公司的机会,但同时也是一个内部大公司IT和承包商项目大量发生的地方。

  • 一些数据将应用于在许多公司甚至许多行业中发现的用例。“这个电话有点奇怪”可能是所有信用卡公司的一个常见分析——“客户听起来很生气”可能适用于任何拥有呼叫中心的人。This is the ‘co-mingling' question.许多公司都是为了解决许多公司或不同行业的问题而创建的,这里的数据有网络效应。

  • But there will also be cases at which after a certain point the vendor doesn't really even need each incremental customer's data - the product is already working.

In practice,as machine learning diffuses into almost everything,一个启动程序可能会看到其中的一些。Our portfolio company Everlaw produces legal discovery software: if you sue someone and they send you a truck full of paper,这有帮助。Machine learning means they will be able to do sentiment analysis on a million emails (‘show me anxious emails'),不需要根据案例中的数据对模型进行培训,因为培训这种模式的情感示例不需要来自于这个特定的诉讼(或任何诉讼)。相反地,they can also do cluster analysis (‘show me emails that are about the same thing as this') on your data without that going anywhere else.Drishti,another portfolio company,使用计算机视觉来测量和分析生产线——其中一些功能是根据您的数据进行培训的,而有些功能根本不特定于您的业务,并且跨行业工作。

在极端情况下,我最近和一家使用机器学习来获得更精确的轮胎漏气检测仪的大型车辆制造商进行了交谈。这是根据数据进行的培训(很多关于轮胎漏气和不漏气信号的例子)。显然,但要得到这些数据并不难。这是一个功能,不是护城河。

因此,我之前说过,对于一个ML初创公司,有两个问题:如何获取数据以及需要多少数据?但这些只是技术问题:你也会问你如何进入市场,你的目标市场是什么?你所解决的问题对你的客户有多重要,等等。也就是说,很快就不会有任何“人工智能”初创公司了——他们会工业过程分析公司,或法律平台公司,或销售优化公司.的确,the diffusion of machine learning means not so much that Google gets stronger,but that all sorts of startups can build things with this cutting edge science much quicker than before.

这让我联想到一个比喻我在别处用过-我们应该将机器学习与SQL进行比较。这是一个重要的组成部分,允许新的和重要的事情,将成为一切的一部分。如果你和你的竞争对手不使用它,你会落后的。Some people will create entirely new companies with this - part of Wal-Mart's success came from using databases to manage inventory and logistics more efficiently.但是今天,如果你开了一家零售商说“……我们要用databases",这不会让你与众不同或有趣——SQL成为了一切的一部分,然后消失了。机器学习也是如此。