能理解的相机:肖像模式和谷歌镜头

我已经谈到了机器学习和计算机愿景的影响一般对来自电子商务推荐对各种酷工业应用的一切的影响,但这也很有趣只是为了看机器学习的效果在实际相机上。

对于苹果和谷歌,智能手机相机的大部分进展现在都发生在软件中。The marketing term for this is ‘computational photography’, which really just means that as well as trying to make a better lens and sensor, which are subject to the rules of physics and the size of the phone, we use software (now, mostly, machine learning or ‘AI’) to try to get a better picture out of the raw data coming from the hardware. Hence, Apple launched ‘portrait mode’ on a phone with a dual-lens system but uses software to assemble that data into a single refocused image, and it now offers a version of this on a single-lens phone (as did Google when it copied this feature). In the same way, Google’s new Pixel phone has a ‘夜视这一切都与软件有关,与硬件并无本质区别。由于新软件和新硬件的出现,你所看到的图片的技术质量变得更好。

最重要的是,用户将是看不见的。HDR从一个有时曾经工作过的相机中的一个漂亮的新奇,现在是你永远不需要了解的东西。我希望单独的“纵向模式”或“夜视”选项将消失,就像“HDR”按钮一样消失。

这可能还会深入到几层,因为相机可以更好地判断你到底在拍什么。当你在滑雪坡上拍照时,它会得到完美的曝光和色彩平衡,因为相机知道这是雪,并正确调整。今天,人像模式正在做人脸检测以及深度映射,以确定关注什么;将来,它会知道镜框里哪些脸是你的孩子,并把焦点对准他们。

因此,我们显然已经很顺利地到达了一个点,即普通消费者拍下的任何必威足球照片在技术上都是完美的。然而,这里还有第二步——不仅仅是“这张图片是什么,我们应该如何聚焦它?”而是“你为什么要拍这张照片?”

One of the desire paths of the smartphone camera is that since we have it with us all the time and we can take unlimited pictures for free, and have them instantly, we don’t just take more pictures of our children and dogs but also pictures of things that we’d never have taken pictures of before. We take pictures of posters and books and things we might want to buy - we take pictures of recipes, catalogues, conference schedules, train timetables (Americans, ask a foreigner) and fliers. The smartphone image sensor has become a notebook. (Something similar has happened with smartphone screenshots, another desire path that no-one thought would become a normal consumer behavior.)

机器学习意味着计算机将能够解开很多谜团。如果这张照片上有日期,那意味着什么?这看起来像食谱吗?这张照片里有一本书吗?我们能把它和亚马逊的目录相匹配吗?我们能把这个手提包和搬运工的手提包搭配起来吗?所以你可以想象你的手机会给出这样的建议:“你想把这张照片上的日期添加到你的日记里吗?”与今天的电子邮件程序从电子邮件中提取航必威足球班、会议或联系方式差不多。

这是一个有趣的产品设计挑战。有些是被动的,比如在邮件中自动检测航班——你会等到知道有消息的时候。机器学习意味着我们现在有了人脸识别和物体分类:你手机上的每一张图像都会默认编入索引,你可以要求“我儿子在海滩上的所有照片”或“每一张狗的照片”。但你可以做更多的分析,我们拍很多照片,你会发现可以在所有这些中分析。您可以在您所采取的所有照片中索引或翻译所有文本(假设不是资源 - 禁止),但如果您在手机上每张图片中的每个对象都会进行产品搜索?在某些时候,您可能需要某种“告诉我这个”模式,在那里明确地要求计算机做“魔法”。

尽管如此,请求计算机“告诉我这张照片”。我们没有HAL 9000,也没有任何路径,我们无法识别任何任意对象,但我们可以猜测不同的质量,在相当大的类别中。那么用户应该如何知道什么会起作用,系统如何知道如何猜测?这一切都应该在一个应用程序中发生一般承诺,或许多具有特定承诺的应用程序?如果您有一个海报模式,则'解决这个公式'模式,日期模式,书籍模式和产品搜索模式?或者你应该只有'在事物上发手机相机的模式,可能会发生一些好东西'?

最后是谷歌采用“镜头”的方法,它集成到“肖像”旁边的Android相机应用程序 - 指向它的东西,魔术发生。大多。

这三个屏幕截图实际上显示了很多活动部件:

  1. 首先,识别文本(我可以复制它),然后识别图书本身(通过文本还是图像?),Lens提供匹配的产品。成功。

  2. 在第二种情况下,应用程序无法识别物体,所以照片被传递到谷歌图像搜索,并在一堆网页上找到匹配的,但谷歌不知道这实际上是什么。从消费者的角度来看,这是可行的,但是没有知识图谱。

  3. 第三,什么是高辨识度的产品(一个Alvar Aalto花瓶)的拍摄角度可能与网站上的图片不符,但谷歌的物体检测系统认为这是一个独立的浴缸。如果我手动给图像谷歌图像搜索,它建议“俱乐部椅子”。(从技术上讲,这款手机或许能够计算出这个物体的大小,并据此做些什么,但这可能要到明年才能实现。)

这些说明了发现性和期望的问题。它能做什么,我不应该期望它做什么,当你没有一个好的结果时,你应该如何反应?这实际上是另一个挑战的表现在语音助手——他们可以做不同的事情,你不想给用户的列表,但是没有足够不同的东西,你可以指望它来处理任何你扔。所以你该如何构建关于“AI”系统功能的交流和发现?

在第二个例子中,我们的谷歌图像搜索失败了,而语音助手有时会退回到阅读谷歌网页搜索的顶部结果。在这里,这个策略奏效了。在第三个例子中,谷歌很自信(直接进入产品搜索而不是图像搜索),但是错了——我该如何应对?没有建议会更好吗?如果它没有找到那本书,我可能会失去对它的尊重,但我理解匹配花瓶的难度要大得多,我也能理解为什么花瓶看起来就像一台“哑巴”电脑的浴室。相反,我怀疑Siri的问题之一是,苹果的营销给人的印象是,你真的可以问这个东西:消费者的期望与产品的功能不匹配。

从某种意义上说,这些问题也是品牌问题。我们知道Shazaam只是记录了音乐。亚马逊的应用程序对Krushchev书有更好的匹配,链接不是现代重印,因为Google of,但具有相同封面的确切版本的二手副本。但是,它在灯和花瓶上完全失败,即使它们都在亚马逊上出售。我对亚马逊的期望不同吗?我希望如何聪明地成为?

至于沙赞,另一种方法是垂直前进。假设有一个应用程序,你可以对着书中的食谱挥挥手,它就会生成购物清单,或者给你提供营养信息。你可以让它非常可靠,你不会有“AI发现”的问题,但应用本身会有一个发现问题(即使它是来自谷歌)-人们如何发现它?不管怎样,这种必威足球方法对谷歌(或亚马逊)都是行不通的——如果他们现在能识别50个类别,两年内能识别200个类别,那么他们在相机应用程序中不能有200个应用程序或200个模式,就像他们在搜索页面上不能有200个模式一样。你要么需要一个通用前端,要么让整个系统变成被动的或隐形的(人脸识别、HDR、将航班详情写入日历)。

语言翻译是其他可能的模式中的另一种 - 而且谷歌翻译现在有自己的应用程序,现在。谷歌翻译是一种视觉Babelfish当然,Babelfish是一种可穿戴设备。这些问题的长期背景不是你口袋里的传感器,而是你佩戴的传感器。比如说,在5年内,你可能就能买到一副兼具透明彩色3D显示器和一组图像传感器的“眼镜”,作为一种消费品。这些图像传感器可以映射你周围的空间,所以你可以把墙壁作为一个显示器,或者在桌子上玩Minecraft,但它们也可以识别你周围的东西。在这一点上,我们不会拍照片作为笔记。你不会给会议日程拍张照片——你只会看看它,然后当天晚些时候说“嘿,谷歌,下一个会议是什么?”或者,“我上周在一次活动上遇到了一个人,他们的姓名牌上写着他们在一家好莱坞工作室工作——他们是谁?”“那么我们能得到什么建议?你会记住什么?”你怎么知道眼镜能做什么(以及别人的眼镜可能会做什么)?品牌如何与这张地图联系起来一方面对抗情报和发现另一方面又对抗隐私和信任?