每秒可对近20亿张图像进行分类的芯片
在用于图像识别的传统神经网络中,目标物体的图像首先在图像传感器上形成,例如智能手机中的数码相机。然后,图像传感器将光转换为电信号,最终转换为二进制数据,然后可以使用计算机芯片对其进行处理、分析、存储和分类。加速这些能力是改进许多应用程序的关键,例如人脸识别、自动检测照片中的文本或帮助自动驾驶汽车识别障碍物。
虽然目前在数字芯片上的消费级图像分类技术每秒可以执行数十亿次计算,这使得它对于大多数应用程序来说足够快,更复杂的图像分类,例如识别移动物体、3D物体识别,或微细胞分类身体,正在推动即使是最强大的技术的计算极限。这些技术的当前速度限制是由计算机处理器中基于时钟的计算步骤调度设置的,其中计算以线性调度一个接一个地发生。
为了解决这个限制,PennEngineers创建了第一个可扩展的芯片,几乎可以立即对图像进行分类和识别。电气与系统工程副教授FiroozAflatouni与博士后FarshidAshtiani和研究生AlexanderJ.Geers一起,消除了传统计算机芯片中的四个主要耗时的罪魁祸首:光信号到电信号的转换,需要用于将输入数据转换为二进制格式、大内存模块和基于时钟的计算。
他们通过使用在9.3平方毫米芯片上实现的光学深度神经网络直接处理从感兴趣对象接收到的光来实现这一点。
这项发表在《自然》杂志上的研究描述了芯片的许多光学神经元如何使用光缆或“波导”相互连接,以形成一个由许多“神经元层”组成的深层网络,模仿人脑。信息通过网络层,每一步都有助于将输入图像分类到其学习类别之一。在研究人员的研究中,芯片分类的图像是手绘的类似字母的字符。
就像我们大脑中的神经网络一样,这个深度网络的设计方式允许快速信息处理。研究人员证明,他们的芯片可以在半纳秒内完成整个图像分类——这是传统数字计算机芯片在其基于时钟的时间表上仅完成一个计算步骤所需的时间。
“我们的芯片通过我们所谓的‘传播计算’来处理信息,这意味着与基于时钟的系统不同,计算是在光通过芯片传播时发生的,”Aflatouni说。“我们也跳过了将光信号转换为电信号的步骤,因为我们的芯片可以直接读取和处理光信号,而这两种变化都使我们的芯片成为一种更快的技术。”
该芯片直接处理光信号的能力为其自身带来了另一个好处。
“当当前的计算机芯片处理电信号时,它们通常通过图形处理单元或GPU运行它们,这会占用空间和能量,”Ashtiani说。“我们的芯片不需要存储信息,不需要大内存单元。”
“而且,通过消除存储图像的内存单元,我们还增加了数据隐私,”Aflatouni说。“使用直接读取图像数据的芯片,不需要照片存储,因此不会发生数据泄漏。”
一个以光速读取信息并提供更高程度网络安全的芯片无疑会在许多领域产生影响;这是过去几年对这项技术的研究不断增加的原因之一。
“我们不是第一个提出直接读取光信号的技术,”Geers说,“但我们是第一个在芯片内创建完整系统的人,该系统既兼容现有技术,又可扩展以处理更复杂的问题。数据。”
该芯片具有深度网络设计,需要进行训练才能学习和分类新数据集,类似于人类的学习方式。当呈现给定数据集时,深度网络接收信息并将其分类为先前学习的类别。这种训练需要达到一种平衡,即足够具体以产生准确的图像分类,并且足够通用以在呈现新数据集时有用。工程师可以通过添加更多神经层来“放大”深度网络,从而使芯片能够以更高分辨率读取更复杂图像中的数据。
而且,虽然这种新芯片将推进当前的图像传感技术,但它可以用于各种数据类型的无数应用。
“这项技术真正有趣的是,它不仅可以对图像进行分类,还可以做更多的事情,”Aflatouni说。“我们已经知道如何将许多数据类型转换为电域——图像、音频、语音和许多其他数据类型。现在,我们可以将不同的数据类型转换为光域,并使用这项技术几乎瞬间处理它们。”
但是当信息以光速处理时会是什么样子呢?
“要了解该芯片处理信息的速度有多快,请考虑电影的典型帧速率,”他继续说道。“一部电影的播放速度通常在每秒24到120帧之间。这颗芯片每秒可以处理近20亿帧!对于需要光速计算的问题,我们现在有了解决方案,但很多应用可能无法理解马上。”
对于一项具有许多应用的技术,重要的是要在更基础的层面上了解它的能力和局限性,而Aflatouni当前和未来的这项研究计划将做到这一点。
“我们在这项研究中的下一步将检查芯片的可扩展性以及三维物体分类的工作,”Aflatouni说。“那么也许我们会冒险进入非光学数据分类领域。虽然图像分类是该芯片的首批研究领域之一,但我很高兴看到它将如何使用它,也许与数字平台一起使用,以加速不同类型的计算。”