了解的相机:肖像模式和谷歌镜头

我谈了很多关于机器学习和计算机视觉的影响,从电子商务推荐到社交,再到各种酷的工业应用,但是仅仅看看机器学习对实际相机的影响也是很有趣的。

对于苹果和谷歌来说,智能手机摄像头的大部分进步都发生在软件上。市场术语是“计算摄影”,这实际上意味着,除了努力制造更好的透镜和传感器,根据物理规则和手机大小,我们使用软件(现在,大多数情况下,机器学习或“ai”),试图从硬件的原始数据中获得更好的图像。因此,苹果推出了双镜头手机上的“肖像模式”,但使用软件将这些数据组装成一张重新聚焦的图像,现在它在单镜头手机上提供了一个版本(就像谷歌复制这个功能时一样)。以同样的方式,必威足球谷歌的新像素手机有一个夜视“所有与软件有关的功能,不是完全不同的硬件。无论是新软件还是新硬件,您所看到的图片的技术质量都会变得更好。

大多数这样做的方式对用户来说都是不可见的。HDR从一个花哨的新奇事物变成了相机中的一个场景,有时也起作用,现在,一些你不需要知道的自动的东西。我预计单独的“肖像模式”或“夜视”选项将消失,就像“HDR”按钮一样。

这可能还会进一步发展到几个层次,因为相机能更好地计算出你到底在拍摄什么。当你在滑雪斜坡上拍照时,它会完全曝光,色彩平衡,因为相机知道这是雪,并能正确调整。今天,人像模式是做人脸检测和深度映射,以确定什么是重点;未来,它将知道框架中的哪些面是您的孩子,并将焦点集中在这些面上。

所以,很明显,我们正朝着一个正常消费者拍摄的任何照片在技术上必威足球都是完美的方向前进。然而,这里还有第二步——不仅仅是“这张照片是什么,我们应该如何聚焦它?”但“你为什么要拍照?”

智能手机相机的一个愿望是,因为我们一直都有它,我们可以免费拍摄无限的照片,立即拥有它们,我们不仅给孩子和狗拍了更多的照片,还拍了一些以前从未拍过的东西。我们为海报、书籍和我们想买的东西拍照——我们为食谱拍照,目录,会议日程安排,火车时刻表(美国人,询问外国人)和传单。智能手机图像传感器已成为笔记本电脑。(智能手机屏幕截图也发生了类似的情况,另一条没有人认为会成为正常消费者行为的欲望之路。)

机器学习意味着计算机将能够解锁很多这样的东西。如果这张照片上有日期,那意味着什么?这看起来像食谱吗?这张照片里有没有一本书,我们能把它和亚马逊的列表匹配一下吗?我们能把这个手提包配成一个搬运工吗?所以你可以想象你电话里的一个建议:“你想把照片上的日期加到你的日记里吗?”就像今天的电子邮件程序从电子邮件中提取航班或会议或联系方式一样。必威足球

这是一个有趣的产品设计挑战。其中一些可能是被动的,就像在电子邮件中自动检测航班一样——你要等到你知道你有什么事情。机器学习意味着我们现在有了人脸识别和对象分类:你手机上的每一个图像默认都是索引的,你可以要求“我儿子在海滩上的所有照片”或“狗的所有照片”。但你可以做更多的分析,我们拍了很多照片,会有你的东西能够分析所有这些问题。你也许可以索引或翻译你所拍摄的所有照片中的所有文本(假定这并不妨碍资源使用)。但是你应该对手机上每张图片中的每一个对象进行产品搜索吗?在某种程度上,你可能需要某种“告诉我”模式,你明确要求计算机做“魔术”的地方。

让电脑“告诉我这张照片”会带来其他问题,不过。我们没有HAL 9000,也没有任何途径,我们不能识别任何任意的物体,但我们可以猜测,质量参差不齐,在相当多的类别中。那么,用户应该如何知道什么是有效的,系统如何知道要做什么样的猜测?如果这一切都发生在一个具有普遍承诺的应用程序中,或者许多有特定承诺的应用程序?如果你有海报模式,“解这个方程”模式,日期模式,图书模式和产品搜索模式?或者你应该只设置“在事情发生时挥动手机摄像头,可能会有好事发生”的模式吗?

最后一个是谷歌采用“镜头”的方法,它被集成到安卓摄像头应用程序的“肖像”旁边——指向事物,魔法就会发生。主要是。

这三张截图实际上显示了相当多的运动部件:

  1. 首先,文本被识别(我可以复制它)。然后书本身就被识别出来了(通过文本还是图像?)镜头提供了一个产品匹配。成功。

  2. 第二,应用程序无法识别对象,所以照片被传给谷歌图片搜索,在一堆网页上找到了一个匹配项。但谷歌不知道这到底是什么。这个作品,从消费者的角度来看,但是没有知识图。

  3. 第三,什么应该是高度知名的产品(阿尔瓦·阿尔托花瓶)从一个可能与网站上的图片不匹配的角度来看,但谷歌的目标检测系统认为这是一个独立的浴缸。如果我手动给谷歌图片搜索,它暗示“俱乐部主席”。(技术上,手机也许能计算出这个物体有多大,然后用它来做一些事情,但那可能是明年的事。)

这些都说明了可发现性和期望的问题。它能做什么,我该怎么做呢?当你没有一个好的结果时,你应该如何反应?事实上,这是语音助理所面临挑战的另一个表现形式——他们可以做足够多的不同的事情,而你不想给用户一个所有这些事情的列表,但是没有足够多的不同的东西可以让你期望它处理你扔给它的任何东西。那么,你如何建立你的“人工智能”系统所能做的沟通和发现呢?

在这里的第二个例子中,我们失败的是谷歌图像搜索,语音助理有时会退回到阅读谷歌网络搜索结果的顶端。在这里,这种策略奏效了。在第三个例子中,谷歌很有信心(直接进行产品搜索,而不是图像搜索)。但错了-我该如何应对?没有比这更好的建议了吗?如果没有找到书,我会失去对产品的尊重,但我知道匹配花瓶要困难得多,所以我给了它一个通行证,我明白为什么这个花瓶在“笨蛋”电脑里看起来像个浴缸。相反,我怀疑Siri的一个问题是,苹果的营销给人的印象是,你真的可以问任何事情:消费者的期望与产品的性能不匹配。

从某种意义上说,这些问题也是品牌问题。我们知道沙扎姆只录制音乐。亚马逊的应用程序与克鲁什切夫的书有更好的匹配,链接不是像谷歌那样的现代转载,而是同一封面的精确版本的二手拷贝。但是,灯和花瓶完全坏了,即使它们都在亚马逊上出售。我对亚马逊有不同的期望吗?我期望人工智能有多聪明?

替代方法,至于沙札姆,是垂直的。假设有一个应用程序,你可以在书中的食谱上挥手,这会产生一个购物清单,或者给你营养信息。你可以让它真正可靠,你就不会有“人工智能可发现性”的问题,但是这个应用本身会有一个发现问题(即使它来自谷歌)——人们会怎么发现它?不管怎样,必威足球这种方法对谷歌(或亚马逊)来说不可行——如果他们现在能识别50个类别,两年内识别200个类别,他们在相机应用程序中不能有200个应用程序或200个模式,就像他们在搜索页面上不能有200个模式一样。你要么有一个通用的前端,要么让整个事情被动或不可见(面部识别,HDR,将航班详细信息输入日历)。

语言翻译是另一种可能的模式——谷歌翻译有自己的应用程序,现在。谷歌翻译是一种视觉宝贝鱼,当然,狒狒是可以穿的。这些问题的长期背景并不是口袋里的传感器,而是你佩戴的传感器。在,说,五年时间,你也许可以买,作为消费品,一副“眼镜”,把两个透明物结合在一起,彩色3D显示器和一组图像传感器。那些图像传感器能绘制出你周围的空间,所以你可以把墙做成一个展示或在桌子上玩地雷。但他们也能识别你周围的事物。在这一点上,我们不会把照片当作笔记。你不会给会议日程拍照的-你只要看一下,然后在那天晚些时候说“嗨,谷歌,下节课是什么?或者,我上周在一个活动中遇到了一个人,他们的徽章上写着他们在好莱坞的一个工作室工作——他们是谁?那么我们会得到什么建议呢?你会记住什么?你怎么知道眼镜能做什么(以及别人的眼镜可能会做什么)?与这张地图相关联的品牌如何一方面反对情报和发现,另一方面反对隐私和信任?