找到人的杠杆作用点

当今互联网平台的悖论之一是它们是高度自动化的,对任何给定的人所看到的东西没有人类的控制或互动,但他们也完全依赖于人类的行为,因为他们真正做的是观察,从几亿或数十亿人的行为中提取和推断事物。

它的起源是pagerank。而不是依靠手工制定的规则来理解每一页的内容,或者索引原始文本,pagerank查看人们对该页面所做的或所说的。和它有联系的人,他们使用了什么文本,谁和那些与之有联系的人有联系?在管道的另一端,谷歌让每个用户手工管理每一组搜索结果:它给你10个蓝色链接,你告诉谷歌哪一个是正确的。Facebook也一样:Facebook不知道知道你是谁,或者你对什么感兴趣,或者是什么内容。它知道你跟着谁,你按“喜欢”的按钮,还有谁喜欢这个,还有他们喜欢和追随的其他人。Facebook是一个面向人的页面排名。同样适用,延伸,YouTube:它不知道视频是什么,只有旁边的人打了什么,还有他们喜欢看什么。

实际上,这些系统是巨大的机械土耳其人。他们不知道什么是他们自己-而是,他们试图创造,捕捉并引导人类对这些事物的诠释。它们是庞大的分布式计算系统,CPU是人,平台是路由器和互连。(这让我想起了《银河系漫游指南》中的一点想法,即整个地球实际上是一个巨大的专用计算机,我们的日常生活是计算的一部分。)

这意味着许多系统设计都围绕着找到合适的杠杆点来将人员应用到自动化系统。你捕捉到已经发生的活动了吗?谷歌开始使用已经存在的链接。你是否需要刺激活动来获取其中的价值?Facebook必须先创造行为,然后才能使用它们。你能把自己的人运用到某种极端的杠杆作用上吗?这是苹果音乐的方法,手动管理的播放列表自动匹配数千万用户。或者你必须付钱让别人来做所有的事情?

最初的雅虎互联网目录是“付费用户做所有事情”的一种尝试——雅虎付费用户对整个网站进行分类。首先,这看起来可行,但是随着网络的迅速发展,它成为了一个不可能的大问题,当雅虎放弃时,目录已经超过了300万页。答案是pagerank。相反地,谷歌地图(Google Maps)现在有人驾驶着带摄像头的汽车,几乎在地球上的每一条街道上,还有其他人在看图片,这不是一个不可能的大问题,只是一个昂贵的问题。谷歌地图是一个私人机械土耳其人。我们现在也在探索同样的问题,人类对社会内容的节制——你需要看多少成千上万的人在每个岗位上,你能在多大程度上实现自动化?这是一个不可能的大问题还是一个昂贵的问题?

如果你把这些平台看作是用数十亿人来做实际计算,这就引出了两个有趣的问题:这对滥用平台有什么影响?机器学习能在多大程度上改变这一切?

过去,当我们想到滥用计算机系统时,我们想到了各种各样的技术漏洞——被盗或脆弱的密码,未配系统,漏洞,缓冲区溢出和SQL注入。我们考虑过“黑客”在软件工程中寻找缺口。但如果YouTube或Facebook是分布式计算机系统,路由器是老式软件,而CPU是人,然后一个坏演员想到在人们和软件中发现漏洞。常见的认知偏差变得和常见的编程错误一样重要。

也就是说,抢劫银行有两种方法——你可以必威足球绕过警报,在保险箱上撬锁,或者你可以骗经理。这两种方法都会使您的处理系统出必威足球现故障,但现在处理系统之一就是我们。因此,正如我写的在这里看看Facebook最近的隐私和安全战略重点,这些平台上的数据在概念上与20年前Windows上的恶意软件引起的软件病毒扫描器非常相似。计算机的一部分监视另一部分,看它是否在做不该做的事情。

即使不考虑蓄意虐待,利用人类活动分析人类活动也存在其他固有问题。一旦你开始用电脑分析电脑,你冒着创造反馈周期的风险。你可以从过滤气泡的想法中看到这一点,或者“YouTube激进主义”,甚至搜索引擎优化垃圾邮件。与此同时,Facebook面临的一个问题是,有时拥有或生成更多的数据会降低数据的价值。这就是新闻源过载的问题:你添加了50或150个朋友,你每天分享5到10件事,但所有人都是如此,所以你每天在你的饲料里有1500个项目。邓巴数+扎克伯格定律=超载…这使我们了解古德哈特定律。

“任何观察到的统计规律性,一旦为控制目的而施加压力,就会倾向于崩溃。”-查尔斯·古德哈特

然后,机器学习如何改变这一点?我早些时候说过,挑战在于如何在计算机中找到合适的杠杆作用点,但当然还有另一个选择-让电脑做所有的事情。直到最近,挑战,这些系统最初存在的原因,有很多计算机无法解决的问题,但任何人都可以很容易地解决。我们以前称之为“对人来说容易,但对计算机来说却很难”,但真的,对人们来说,事情很容易做,但对人们来说却很难做到。描述计算机。机器学习的突破在于它为我们提供了一种由计算机进行描述的方法。必威足球

下面的动画片(从2014年开始,就在机器学习计算机视觉系统开始起飞之后,很好地说明了这一变化。第一个问题很容易,但第二个问题直到机器学习。

解决这个问题的老必威足球办法是找到一种让人们给照片贴上标签的方法——以某种方式将其众包起来。换言之,机械土耳其人但是现在,我们可能不需要任何人来查看这张图片——通过机器学习,我们可以经常自动执行这个请求。

所以:如果你把数百万或数亿人的行为加在一起,你以前能解决多少问题?你现在可以用机器学习来解决,没有自己的用户吗?

这其中的矛盾,当然,机器学习就是要有大量的数据。显然,有人可能会建议,拥有一个大平台意味着你拥有大量的数据,因此你的机器学习也会更好。那当然是真的,至少从一开始,但我觉得有意思的是想知道有多少东西可以只有与所有这些用户一起完成。过去,如果你有一张猫的照片,只有当你有足够多的用户,有人会看到并给这张图片贴上标签时,它才会被贴上“猫”的标签。今天,您不需要任何用户来查看特定的猫图片-您只需要一些其他用户,在别的地方,在过去的某个时刻,贴上足够的标签其他猫图片生成一个体面的识别模型。

这只是利用人的另一种形式:你需要人们做标签(并为人们如何做标签制定规则)。但我们改变了杠杆作用点,和变化,也许从根本上说,我们需要多少人,所以我们改变了一些“赢家全力以赴”的效果。毕竟,这些巨大的社交平台是大量人工标记的数据,那么杯子是半空的还是半满的?玻璃半满:他们拥有世界上最大的手工标签数据收集(在他们选择的领域)。半空玻璃:手工贴上标签。

即使数据可能集中在一个大平台上(而且通常不会——一点也不会-正如我在这里写的)这就变成了,好,平台。正如AWS成为初创企业的推动者一样,他们不再需要数以百万计的用户来实现基础设施的规模经济,相当多的工具意味着你不再需要数百万或数十亿的用户来识别一只猫。你可以自动化土耳其人。