该文本介绍了 SpikeVideoFormer, 一种新型的脉冲驱动视频Transformer,旨在提升脉冲神经网络(SNNs)在视频任务中的性能,同时保持高能效。它提出了一种脉冲驱动的汉明注意力(SDHA)机制,该机制理论上能更好地捕捉脉冲特征间的相似性,并实现了线性时间复杂度。研究表明,该模型在视频分类、人体姿态追踪和视频语义分割等任务上,不仅超越了现有SNN方法,还在效率上显著优于人工神经网络(ANNs),展现了其在处理大量视频数据时的潜力。
Introduction
https://notebooklm.google.com/notebook/f652f14e-b96c-41a3-a843-733ed015162a/audio