南京大学梁世军、缪峰团队首次实现视觉运动的并行感知


近年来,实时运动感知已成为包括视觉监控、交通监测、自动驾驶等诸多动态视觉应用场景中的关键需求。运动通常蕴含着丰富的时空信息,要实现对运动的实时识别,需要在探测器端对时空信息进行同步编码与处理。但是传统的半导体图像传感器无法满足上述需求,因此如何利用量子材料设计出可对运动信息进行同步编码与处理的全新硬件,是一个广泛关注的科学问题。

面向上述挑战,近日,南京大学物理学院梁世军副教授、缪峰教授团队利用二维材料异质结中存储电荷随光刺激动态演化的特性,提出了“存内同步编码与处理”的概念,利用器件阵列构建了视觉运动感知机,实现了对多种视觉运动模式(方向、速度、加速度和角速度)的并行感知。该工作为构建下一代智能机器视觉系统提供了全新的技术路线。相关研究成果以“Parallel perception of visual motion using light-tunable memory matrix”(利用光控记忆矩阵实现视觉运动的并行感知)为题于2023年9月29日发表在著名期刊Science Advances《科学·进展》上。我校物理学院副研究员潘璇和博士生施婧雯为共同第一作者,梁世军副教授和缪峰教授为该工作的共同通讯作者。该工作得到了国家优秀青年科学基金、国家自然科学基金重点/面上项目、中科院先导B项目、中央高校基本科研业务费、以及固体微结构物理国家重点实验室、人工微结构科学与技术协同创新中心等的支持。

首先,研究团队利用视觉运动的场景展示了并行感知的概念(如图1所示)。在该场景中,车辆在三个不同时期(tp1, tp2, tp3)具有不同的运动模式,这些模式中所蕴含的丰富时空信息可通过包括线速度(v)、角速度(ω)、加速度(a)等在内的运动参数进行描述。研究团队提出利用二维材料异质结光电器件的光可调记忆特性,可实现对这些运动模式中包含的时空信息进行同步编码与计算,进一步,利用器件构成的阵列实现对上述运动参数的并行感知。

图1:视觉运动信息并行感知的示意图。行驶中车辆在不同时间段内(tp1tp2tp3)的运动模式可使用运动参数(: 速度,: 角速度,: 加速度)进行表示。在时间段tp1内,车辆进行匀速直线运动;在时间段tp2内,车辆进行具有一定的速度与角速度的转弯运动;在时间段tp3内,车辆进行加速直线运动。通过设计具有记忆功能的感知机,可实现对运动中所包含时空视觉信息的同步编码和计算。如虚线框内的物理过程所示,器件内存储电荷量的变化反应了入射光的时间变化。这种变化可被用来感知车辆在各个时间段内的运动信息。

随后,研究团队展示了所设计的二维材料WSe2/h-BN异质结器件的光电特性。器件结构如图2A所示,双极性材料WSe2作为感光层用于响应外部光信息,h-BN/Al2O3界面具有捕获与存储光生载流子的特性,金属栅极对存储的光信息进行调制。对器件的写入与擦除操作如图2B所示,在负栅极偏压(Vg)下,当器件受到写入光脉冲照射时,沟道区域出现空穴掺杂效应,导致沟道电流(Ids)显著减小。撤除光源后,电流值仍保持稳定,说明写入的光信息被非易失地存储在器件中。进一步,通过施加擦除光脉冲,沟道电流值发生变化,器件传输特性曲线显著移动,说明了光脉冲能够对器件的存储状态进行调制(图2C)。更为重要的是,当Vg处于一定范围内时,电流变化量(ΔIds)与擦除次数线性相关,该特性可以通过Vg的幅度和极性来调控(图2D, E)。这一器件行为为运动信息的编码提供了物理基础,使得运动感知机硬件的构建成为可能。

图2:(A)基于WSe2/h-BN异质结构的55光电器件阵列的SEM俯视图(左,比例尺:5 m;右,比例尺:2 m)。(B) 光电器件的编程-擦除操作。蓝色与红色阴影背景分别表示对器件进行编程与擦除操作。通过对器件施加栅极电压(Vg)与50 ms光脉冲实现编程操作。在编程过程中,沟道电流(Ids)从约8.3 A急剧下降至6.2 A,随后仅需50 ms光脉冲即可实现擦除操作,表现为Ids轻微下降10 nA。(C)连续光脉冲调制下光电器件的转移特性变化。随着注入光脉冲的数量从1增加到10,转移特性曲线逐渐向右移动到原始状态。(D)光电器件在Vg为到内的转移特性曲线,其中电中性点呈现出持续右移的变化趋势。(E-F)不同背栅电压下电流变化 (ΔIds) 与擦除次数之间的线性关系。ΔIds基于Vg的极性可正可负。所有测量均在 1.75 V 的偏压下完成。

利用上述异质结器件光控记忆的特性,研究团队展示了如何利用异质结器件阵列进行高效时空运动信息编码的过程(图3)。由于运动会引起光强的时空变化,随着物体进行运动,不同器件接受光照的次数会存在区别,导致各器件会输出不同大小的电流,从而使得物体的时空运动信息被编码在阵列中,并以电流映射(current mapping)的方式呈现。更为重要的是,即使在不均匀的时空光强变化下,该信息编码方式也同样有效。

图3:输入图像的光强分布及其在器件阵列中的沟道电流(Ids)映射。(A-D)字母“J”在不同运动模式下的逐帧光强映射。每种模式由三帧组成(每帧光照时长为 50 ms),分别于t0t1t2 时刻投影到阵列上。在(A)中,物体在四个运动方向(右、左、下、上)以1步/Δt匀速运动。两个相邻帧之间的时间间隔被定义为单位时间(Δt),将两个相邻像素中心之间的距离定义为单位步长。以向右运动为例,物体可进行慢速(1步/Δt)或快速(2步/Δt)运动(图B),匀速或加速运动(图C),顺时针转动或逆时针转动(图D)。(E-H)不同运动模式(A-D)对应的器件阵列沟道电流Ids映射。图像“J”的原始状态在t0时刻被存储到器件阵列中,在t1t2时刻测量每个器件的Ids(由从浅红色至深红色的像素亮度级别表示),从而形成与各个运动模式相对应的独特电流分布。所有测量均在 0 V 的背栅电压下完成。

最后,研究团队利用器件阵列成功构建了一种视觉运动感知机硬件。该感知机包括25个输入神经元和10个细分为四个类别的输出神经元,即方向、速度、加速度和角速度(图4A)。在该阵列中,器件接收到的光强作为输入信息,器件阵列的总电流作为输出信息。每个类别中具有最大输出电流的神经元代表了与输入运动模式相匹配的运动参量。作为概念验证,研究团队将字母“J”的一个复杂运动模式(顺时针旋转的加速向右运动)投射到阵列上(图4A左侧),对其所包含的时空运动信息进行感知。图4B-E展示了不同运动参量的模拟结果。随着训练周期数的增加,输出电流曲线逐渐分离,表明该复杂运动模式中包含的“右移”,“缓慢”,“加速”和“顺时针”运动特征可以被成功感知。这些模拟结果随后也在实验上得到了证实(图4F-I)。该工作为应对动态视觉系统在高效并行感知运动信息方面所面临的挑战提供了可行且通用的技术途径。

图4:基于异质结器件阵列的视觉运动感知机。(A)视觉运动感知机的示意图。字母“J”的一个复杂运动模式(顺时针旋转的加速向右运动)被投射到阵列上。每个输出神经元生成了基于已训练的权重(Vg)矩阵下的25个器件的总电流。仅有在最后一帧完成输入后,被记录的电流映射用作运动感知机的输出。(B-E)每个运动参量(方向、速度、加速度、角速度)的识别准确率。具有最大电流值总和的曲线代表目标运动参量的识别结果。(F-I)不同运动参量的Vg映射和对应的Ids映射。

论文链接:

https://www.science.org/doi/10.1126/sciadv.adi4083

课题组主页:

https://nano.nju.edu.cn/

分享到