慧天地”关注
文章转载自微信公众号望穹科技,摘译自《IDS技术》,2023年1月23日,版权归原作者及刊载媒体所有。
数字全息技术是指用数字传感器阵列(通常是CCD相机或类似设备)获取和处理全息图。图像渲染或物体数据的重建是通过数字化干涉图以数字方式进行的。数字全息术提供了一种测量光学相位数据的方法,通常提供三维表面或光学厚度图像。已经开发了几种记录和处理方案来评估光波特性,如振幅、相位和偏振状态,这使数字全息成为计量应用中一种非常强大的方法。
近年来,图像传感器、空间光调制器(SLM)和计算机等电子设备有了快速的改进。具有高像素密度的空间光调制器能够在全息显示器上形成自然、多彩和高质量的无透镜三维运动图像。具有高像素密度和大量像素的无透镜图像传感器能够以数字方式捕捉细微的干涉条纹图像,然后具有高计算性能的计算机能够以高吞吐量从数字记录的全息图中重建全息图像。
高保真移动全息图
随着高分辨率渲染、可穿戴显示器和无线网络的空前发展,移动设备将能够为3D全息图显示渲染媒体。全息是一种新一代的媒体技术,它可以通过全息显示器呈现手势和面部表情。要显示的内容可以通过实时捕获、传输和3D渲染技术获得。为了将全息图显示作为实时服务的一部分,极高的数据传输速率(比当前5G系统大数百倍)将是必不可少的。
例如,19.1千兆像素每秒需要1太比特(Tbps)。移动设备上的全息图显示(6.7英寸显示器上的一微米像素大小,即11.1千兆像素)形状因数(form-factor)至少需要0.58Tbps。此外,支持人类大小的全息图需要大量的像素(例如,需要几个Tbps)。5G的峰值数据速率为20 Gbps。5G不可能实时支持全息媒体所需的如此巨大的数据量。为了降低全息图显示所需的数据通信量并在6G时代实现,可以利用AI实现全息图数据的高效压缩、提取和渲染。到2023年,全息显示器的市场规模预计将达到76亿美元。
利用深度神经网络重建全息图的“一体化”方法
捕捉到数字全息图后,使用适当的算法对物体进行数字重建。传统的方法需要先验知识和繁琐的操作来实现全焦和成功重建。对于一个三维物体来说,全焦图像(all-in-focus image)和深度图是许多应用中特别需要的,但传统的重建方法往往在计算上要求很高。
最近,香港大学的研究人员展示了一种自动化的“多合一”(all-in-one)方法,通过用适当的数据训练的深度神经网络,可以解决全息重建问题。经过适当的训练,该网络可以全息重建振幅、定量相位、扩展聚焦图像和深度图。避免了传统重建方法中涉及的繁琐操作,并且不需要系统参数。通过完全自动化,大大缓解了密集的计算需求。定性的可视化和定量的测量证实了基于学习的方法比传统的方法有更高的性能。
通过这种数据驱动的方法,有可能重建一个不需要任何先验知识的无噪音图像,并能同时处理不同的重建模式。为了推进这项工作,研究人员计划将这项技术应用于高速和高分辨率的三维场景的时间全息重建。他们指出,这种方法对各种数字全息配置是通用的,有可能适用于生物和工业应用。
近年来,深度学习作为一种快速发展的技术出现,使图像处理、计算机视觉和自然语言处理等各种应用领域受益。这一强大的工具也已被证明对全息技术有用。
VividQ公司在传统屏幕上渲染全息图的技术
2021年7月报道,英国的深度科技初创公司VividQ拥有在传统屏幕上渲染全息影像的技术。这家初创公司正将其技术瞄准汽车HUD,头戴式显示器(HMD)和带有计算机生成全息技术的智能眼镜,该眼镜可投射“具有真实景深的真实3D图像,使显示器对用户来说更加自然和身临其境”。
该公司还表示,它已经发现了一种将普通LCD屏幕变成全息显示器的方法。
VividQ联合创始人兼首席执行官达兰·米尔恩(Darran Milne)表示:我们从电影中看到的场景,从《钢铁侠》到《星际迷航》,比以往任何时候都更接近现实。在VividQ,我们的使命是将全息显示器首次推向世界。我们的解决方案有助于为汽车行业带来创新的显示产品,改善增强现实(AR)体验,并将很快改变我们与个人设备(如笔记本电脑和手机)的互动方式。
深度学习实现智能手机上的实时3D全息图
全息视频显示器创建了3D图像,人们可以在不感到眼睛疲劳的情况下观看,这与使用2D图像产生深度错觉的传统3D显示器不同。然而,尽管三星(Samsung)等公司最近在开发能够显示全息视频的硬件方面取得了长足进展,但实际生成全息数据供此类设备显示仍然是一项重大挑战。
光学全息图产生的图像是静态的,因此它们无法捕捉运动。它们只是硬拷贝,难以复制和分享。计算机生成的全息术通过模拟光学设置避开了这些挑战。但这一过程可能是一个计算难题。
麻省理工学院电气工程与计算机科学系(EECS)的研究人员施良(Liang Shi)指出:因为场景中的每个点都有不同的深度,所以不能对所有点应用相同的操作。这大大增加了复杂性。指导一台集群超级计算机运行这些基于物理的模拟可能需要几秒钟或几分钟的时间才能得到一张全息图像。此外,现有算法不能以真实感精度对遮挡进行建模。因此,施良(Liang Shi)的团队采取了一种不同的方法:让计算机自学物理。
每个全息图都会编码大量数据,以便在整个图像中产生深度错觉。因此,生成全息视频通常需要一台超级计算机的计算能力。为了给大众带来全息视频,科学家们尝试了许多不同的策略来减少所需的计算量——例如,用简单的查找表(lookup tables)代替复杂的物理模拟。然而,这些往往以图像质量为代价。现在,麻省理工学院的研究人员已经开发出一种几乎即时生成全息图的新方法——一种基于深度学习的方法,非常有效,可以在一眨眼的时间内在笔记本电脑上生成全息图。最近,他们在《自然》杂志上详细介绍了他们的研究结果,这项研究部分由索尼提供资金。
施良(Liang Shi)指出,将物理模拟用于计算机生成的全息图涉及到计算许多块全息图的外观,然后将它们组合起来以获得最终的全息图。他说,使用查找表就像记住一组经常使用的全息图块,但这牺牲了准确性,而且仍然需要组合步骤。在某种程度上,计算机生成的全息图有点像弄清楚如何切蛋糕,施说。使用物理模拟来计算空间中每个点的外观是一个耗时的过程,类似于用八种精确的切割方式来制作八片蛋糕。使用查找表进行计算机生成的全息技术,就像在切割前标记每片蛋糕的边界。虽然这省去了计算切割位置的步骤,节省了一些时间,但进行所有八次切割仍然需要大量的时间。
施良(Liang Shi)介绍说:相比之下,这项新技术使用深度学习,基本上可以找出如何用三刀将蛋糕切成八片,施良(Liang Shi)说。卷积神经网络(一个大致模仿人脑处理视觉数据的系统)学习了生成完整全息图的捷径,而不需要单独计算每块全息图是如何出现的,这将使总操作次数减少几个数量级。
研究人员首先建立了一个由4000张计算机生成的图像组成的定制数据库,其中每张图像都包括每个像素的颜色和深度信息。这个数据库还包括与每张图像对应的3D全息图。利用这些数据,卷积神经网络学会了如何计算如何以最佳方式从图像中生成全息图。然后,它可以从带有深度信息的图像中产生新的全息图,深度信息是由典型的计算机生成的图像提供的,并且可以从多摄像头设置或激光雷达传感器中计算出来,这两者都是一些新的iPhone手机的标准配置。
这个新系统需要不到620KB的内存,并且可以在单个消费级GPU上每秒生成60张彩色3D全息图,分辨率为1920×1080像素。研究人员可以在iPhone 11 Pro上以每秒1.1张全息图的速度运行,在Google Edge TPU上以每秒2张全息图的速度运行,这表明有一天它可以在未来的虚拟现实(VR)和增强现实(AR)移动头盔上实时生成全息图。
实时3D全息也可能有助于增强所谓的体积3D打印技术,该技术通过将图像投影到液体桶上来创建3D对象,并可以生成复杂的中空结构。科学家们指出,他们的技术还可以用于光学和声学镊子,用于在微观层面上操纵物质,以及全息显微镜,用于分析细胞和传统静态全息图,用于艺术、安全、数据存储和其他应用。
Shi说,未来的研究可能会加入眼球追踪技术,通过创建只有眼睛看的地方才有高分辨率的全息图来加快系统的速度。他补充说,另一个方向是在生成全息图时考虑到一个人的视力,因此戴眼镜的用户不需要与他们的眼睛处方相匹配的特殊VR头盔。
荐读
北大遥感所联合中国气象局气象探测中心研制我国 GNSS 站网积雪深度业务化产品
宋超智理事长:新时代新使命 让测绘地理信息源源不断焕发生机与活力
第六届全国定量遥感学术论坛第一号通知
《慧天地》敬告
《慧天地》公众号聚焦国内外时空信息科技前沿、行业发展动态、跨界融合趋势,发现企业核心竞争力,传播测绘地理信息文化,为相关专业学子提供日常学习、考研就业一站式服务,打造政产学研金服用精准对接的平台。
《慧天地》借鉴《读者》办刊理念,把时空信息领域的精华内容汇聚到平台上。我们高度重视版权,对于精选的每一篇推文,都会在文章开头显著注明出处,以表达对作者和推文引用平台版权的充分尊重和感谢;对于来源于网络作者不明的作品,转载时如出现侵权,请后台留言,我们会及时删除。感谢大家一直以来对《慧天地》的关注和支持!
——《慧天地》运营团队
投稿、转载、商务等合作请联系
微信号:huitiandi321
邮箱:geomaticshtd@163.com
编辑:刘欣然 审核:蔡丽华