译稿: TED的 Photosynth 展示

来自:www.tedtochina.com/2009/04/18/blaise_aguera_yarcas_photosynth_demo/

====编者按====

这是一篇TED粉丝来稿,是一个全文翻译,译者是谭颖华,他翻译过三本计算机类的书,分别是这个这个这个。他这次翻译的是一个关于PhotosynthTED演讲,这个产品最早是在2007年的TED大会上亮相的,现已得到许多人的青睐。感兴趣的朋友还可以通过Photosynth回顾奥巴马就职典礼之盛况。更有趣是,布雷斯还应用先进的软件技术,发现古登堡并不是近代印刷术的发明者,对此感兴趣的朋友不妨看看这个报道

======

首先,我要用最快的速度为大家演示一项新技术的基础研究成果。正好是一年前,微软收购了我们公司,而我们为微软带来了这项技术,它就是Seadragon。Seadragon是一个软件环境,你可以通过它在本地或者以远程的方式与浩瀚的可视化数据进行互动。

Blaise Aguera y Arcas: Jaw-dropping Photosynth demo

我们在这里可以看到许多许多GB级别的数码照片,对它们可以进行持续并且平滑的放大,还可以通过全景的方式浏览它们,甚至可以通过任何需要的方式对它们进行重新整理。不管所见到的数据有多少、图像集合有多大以及图像本身有多大,Seadragon都拥有这样的处理能力。以上展示的图片大部分都是由数码相机拍摄的原始照片,但这个例子则不同,它是一张来仔国会图书馆的扫描图片,拥有3亿个像素。然而,浏览它并没有什么区别,因为限制系统性能的唯一因素只是:你所使用的屏幕的像素。

Seadragon同时也是一个非常灵活的架构。举个例子,这是一本完整的书,它的数据是非图像的。这是狄更斯所著的《荒凉山庄》,一列就是一章的内容。我给大家证明一下这真的是文本而不是图像:(雅克斯把图像放大)大家可以看出这真的是文本,而不是一幅图片。也许这会是一种阅读电子书的方式,但是我可不推荐这么做。

接下来是一个更加实际的例子,这是《卫报》遇到的一个问题。每个章节都会以一张大图片作为开篇,而报纸或者杂志的纸质版本本身就包含了多种比例的图片,在阅读的时候,读者会得到更好的阅读体验,从而享受阅读的乐趣。对《卫报》遇到的特殊问题,我们进行了研究,在一定程度上解决了这个问题。我们虚构了一个高精度的广告图片——这比你平常看到的普通广告的精度要高非常多,同时在图片中嵌入了额外的内容。如果你希望看到这辆车的特性,你可以看这里。通过这种方式,你还能看到其他的型号,甚至技术规格。这种方式在一定程度上避免了屏幕实际使用面积(screen real estate)的限制。我们希望这个技术能够减少不必要的弹出窗口以及类似的垃圾信息。

显然,对于这项技术的应用,制图也是那些显而易见的应用程序之一。对此,我真的不想花费太多的时间进行介绍,我只想告诉大家我们已经对这个领域做出了自己的贡献。不过,这些只是在NASA的地理空间图片基础上进行叠加处理而得到的美国国内的道路地图。

现在,我们先放下对这项技术应用的讨论。实际上,这项技术放到网上了,大家可以自己去体验一下。这个项目称为Photosynth,它实际上融合了两个不同的技术:一个是Seadragon,而另一个则是源自华盛顿大学的研究生Noah Snavely所进行的计算机视觉研究的成果。这项研究还得到了华盛顿大学Steve Seitz和微软研究院Rick Szeliski的协助。这是一个非常漂亮的合作。这个项目在互联网上已经得到应用了,它是基于Seadragon技术构建的。你可以看到,我们轻松地对图片进行多种方式的查看,从而能够对图片进行细致的剖析并且拥有多分辨率的浏览体验。不过,这些图片在空间的排列事实上是非常有意义的。计算机视觉算法将这些图片联系到一起,那么这些图片就能够将真实空间呈现出来了,而我们正是在这个空间里拍下了上述的照片——这些照片都是在加拿大落基山脉的格拉西湖(Grassi Lakes)附近拍下的——(所有照片)都是在这里拍下的。因此你可以看到这里的元素是稳定的幻灯放映或者全景成像,而这些内容在空间上都是关联的。

我不能确保自己有足够的时间向大家演示其它一些更加立体的环境,那么我还是直接介绍Noah最初使用的数据集之一向大家演示这项技术背后真正关键的地方。该数据集来自Photosynth的早期原型——我们在这个夏天一起研究的成果。同时,这个环境与那些已经摆上网站的相比,并不是那么易于辨别,毕竟我们还是担心律师或是其它人。

这是通过Photosynth构建出来的巴黎圣母院图像,这完全是根据Flickr上图片进行计算的结果。大家在Flickr上键入Notre Dame就可以找到很多图片,一些来自短袖衫上的图片,一些则来自校园等等。而这些圆锥体中的每一个都代表着所属模型被呈现时的图像。也就是说所有这些 Flickr图片在空间上都是以这种方式关联的,而我们只是以这种非常简单的方式进行对图片进行浏览。(观众掌声)

大家都知道,我并没有想过自己最终会到微软工作,在此能够受到这样的待遇真让人心满意足。好,我想大家会发现这些图片源自许多不同种类的相机——从手机上的相机到非常专业的单眼反射照相机等等,种类繁多。而这些图片在这个环境中被连接在一起。同时,如果需要,我还能找到一些不可思议的图像,譬如它们当中的很大一部分都被人脸或者其它图像所掩盖。

事实上,这里的图片都是一些一系列的照片,我们接着来看。这实际上是一张拍摄效果很好的巴黎圣母院海报,我们可以从海报进入到巴黎圣母院的背景当中。这里真正的要点在于我们可以通过一个社会化的环境来完成某项工作:从每个人那里获得数据,而数据来源于集体的记忆——也就是“地球看起来是怎么样”的视觉记忆,然后将所有这些数据联系在一起。当所有这些照片联系在一起之后,它们就会让某个环境自然而然地涌现(emergent)出来,这可要比照片单纯的叠加要棒多了。最后,大家将会得到显现整个地球的模型。我们可以将这个想像成Stephen Lawler的杰作——Virtual Earth的长尾。随着人们不断地使用它,复杂性也会不断增加,而对于用户来说,获益也会越来越大。因为他们自己的照片已经被某些人输入的元数据打上了标签。如果某些人会觉得困扰:给自己照片打上标签的圣人是谁呢?自己的巴黎圣母院照片因为这些数据忽然变得丰富起来,还能够以此作为一个入口,进入到相应的空间——某个虚拟的空间,使用所有人的照片,实现跨模型以及跨用户的社会化体验。当然了,地球上每个有趣的部分都会产生无限丰富的虚拟模型,而这个副产品并不是来自鸟瞰式的飞行拍照或者卫星图片等等,而是来自集体的记忆。非常感谢!

克里斯·安德森问:我这样理解正确么:在将来某个时候,就是未来的几年内了,通过你的软件,全世界任何人分享的照片都能够联系在一起?

雅克斯答:是的。软件所做的实质事情是发现,如果你需要,它会在图片之间创建超链接,而这个链接是基于图片的内容来实现的。大家可以想象一下大量图片所拥有的语义信息是何等丰富,这让人真的十分兴奋。在网络上搜索图片的时候,输入了某些短语,而网页上包含了大量描述图片内容的信息。现在,如果这张图片链接到你的所有图片,又会怎样呢?那么语义相互结合的总量是非常巨大的,而由此而产生的语义丰富性的总量也非常巨大。这将是一个经典的网络效应。