1. 磐创AI首页
  2. Medium

[ICCD 2019]一种嵌入式集群上加速语义视频分割的分布式方案

2019年ICCD通稿

演示视频

我们建议的方法生成的结果类似于DVSNET[1],我们在下面的视频中引用了DVSNet[1]的演示:

关键词

DVSNet、边缘计算、语义分割、分布式计算、嵌入式系统、嵌入式集群、光流、层次结构、决策网络、工作负载分配。

引言

近年来,基于深度卷积神经网络(DCNN)的语义视频分割在获得高准确率方面取得了巨大的进步。然而,这些技术仍然不能直接应用于嵌入式系统,因为它们的执行延迟明显更长,计算工作量更重。虽然已经提出了几种实时语义切分的方法,但它们通常都存在准确率下降的问题。此外,这些技术同样会带来昂贵的计算工作负载,因为它们不是专门为嵌入式处理元件(EPE)开发和定制的。为了解决上述问题,我们提出了一种建立在DVSNet[1]之上的分布式方法,将语义视频分割的繁重计算工作量分配到包含多个EPE的集群中。

在本文中,我们在一个分布式框架中的嵌入式集群上实现了所提出的方法。嵌入式集群包含一个主EPE和多个从EPE。从EPE的数量是可扩展的。主EPE将视频帧划分为帧区域,并将这些帧区域动态分配给可用的从EPE。为了平衡工作负载,最有效地利用这两条路径,我们进一步提出了一种全局和局部密钥管理方案。该方法论与当代嵌入式平台兼容。

背景材质

语义切分

语义分割是计算机视觉研究领域的重点研究方向之一,其目的是对图像进行像素级预测(即密集预测)。语义分割模型的准确性通常由一种称为并集上的平均交集(MIUU)的度量来衡量。

光流估计

光流估计是一种用于评估参考图像和目标图像之间的对象运动的技术。它通常表示为稀疏或密集的矢量场,其中位移矢量被分配给参考图像的某些像素位置。

动态视频分段网络(DVSNet)(CVPR 2018)

[中链接][CVPR 2018]Medium Link CVPR 2018

DVSNet[1]是一个框架,它结合了两个不同的DCNN,用于提高语义视频分割任务的帧率,同时保持它们的准确性。DVSNet通过使用不同的DCNN自适应地处理不同的帧区域来实现这样的改进。第一个DCNN被称为分割网络,它生成高度精确的语义分割,但是深度更深,速度更慢。第二种DCNN称为流网络,它使用翘曲函数来生成近似的语义切分,并且比切分网络要浅得多,速度也快得多。

DVSNet利用视频序列中的不同区域经历不同程度变化的事实,以避免重新处理连续帧中的每个像素。在内容可能发生显著变化的连续帧之间具有巨大像素差异的帧区域必须通过分割网络。否则,它们由流网络处理。换言之,当帧中的不同帧区域被呈现给DVSNet时,它们可能穿越不同长度的不同网络。为了确定输入帧区域是否必须遍历分割网络,DVSNet还采用轻量级决策网络(DN)来评估每个帧区域的置信度得分。低于预定义判决阈值的置信度分数表示需要由分割网络处理相应的帧区域。DVSNet允许可自定义置信度分数的判定阈值。

方法论

注释法的规范

主从层次结构

拟议框架概述


该框架的主要目标是通过利用DVSNet提供的好处来提高多EPE语义视频分割的吞吐量(即帧率),同时保持系统的MIU准确性[1]。该框架由以下组件组成。

大师级EPE

如图2左侧所示,主EPE将每个输入帧划分为四个帧区域,并通过动态调度将每个帧区域分配给可用的从EPE,以生成区域的语义分割。未分配的帧区域存储在由工作负载管理器管理的队列中,该工作负载管理器负责选择适当的从属EPE来处理存储在队列头部的区域。主EPE还负责从从EPE收集属于同一帧的帧区域的语义分割,并将它们组合以生成帧的最终语义分割。

奴隶埃普斯


在图2和图3中,从EPE包含三个主要组件:分段路径、流路径和DN。除了允许不同从EPE的执行路径不同之外,每个从EPE具有相同的体系结构。

一种全局和局部密钥管理方案


该方案的主要目标是在每个EPE中维护一个密钥缓冲区,用于存储四个帧区域和四个区域的关键帧的分割日志,以便在选择流路径作为执行路径时使用。主EPE中的密钥缓冲区称为全局密钥缓冲区,而从EPE中的密钥缓冲区称为本地密钥缓冲区。全局关键帧缓冲区始终保存分别包含四个帧区域的最新关键帧区域分割日志和关键帧区域的信息。主EPE另外为每个从EPE维护密钥表,以监视其本地密钥缓冲器的四个区域的关键帧时间步长。

当工作负载管理器选择从EPE来处理当前帧区域时,它将首先检查当前帧和区域的关键帧之间的时间间隔。如果时间间隔大于给定阈值,则主EPE将关键帧和区域的关键帧的分段记录转发给从EPE,以更新本地密钥缓冲器中的相应条目。这确保从EPE具有执行流程路径的最新信息。

如果从EPE执行帧区域的分段路径,则新生成的分段Logit被发送回主EPE以更新全局密钥缓冲器以及密钥表。

实验结果

我们在由50个不同城市的城市街道场景组成的城市景观数据集上进行了实验。表二提供并比较了一些系统配置的拟议方法与基线方法的定量结果。基线是DeeplabV3+[2]、ENET[3]、ERFNet[4]和ESPNet[5]。结果的睡觉是在我们的嵌入式系统上直接测量的。基线条目SegPath表示分割路径用于处理每个输入帧区域。条目SINGLE用作与在单个EPE上执行默认DVSNET[1]的情况相对应的参考条目。每个睡觉条目代表一个主EPE和相应数量的从EPE的配置。例如,1+3表示使用一个主EPE和三个从EPE。加速比加速比是入口的fps相对于单个入口的fps的比率。

定性结果的比较


在图5中可以看到,对于大多数配置,增加从属EPE的数量往往会带来更高的fps,只有MIU略有下降。然而,由于不同的原因,配置1+1和1+6没有遵循上述增长趋势。

对于配置1+1,fps中的性能降低主要是由主EPE和从EPE之间的数据传输开销造成的。换句话说,它没有为建议的框架提供足够的并行性来超过EPE之间的通信延迟。

对于配置1+6,fps的减少是因为更多的从EPE可能导致分配给从EPE的帧区域偏离关键帧区域的机会更高。结果,从PE倾向于更频繁地执行分段路径,导致fps的整体性能下降。

图5和表2还显示,MIU精度不会随着从属EPE数量的增加而显著降低。MIU中的减少是由于更多的从属EPE可能增加当前帧区域和关键帧区域之间的平均时间步长间隔的事实。

主从EPE的时延分析


主EPE和从属EPE的故障分别显示在图6的左侧和右侧。在图6的左侧,主EPE的空闲时间随着从EPE数量的增加而急剧减少。可以看出,在配置1+1下,主EPE将大部分时间浪费在等待唯一从EPE完成其任务上。上述观察表明,更多的从EPE倾向于提高主EPE的效率,并部分验证了图5中绘制的fps趋势。

对于从EPE,可以观察到,随着从EPE数量的增加,每个EPE在执行路径上花费的总时间减少。这是因为分配给每个从EPE的输入帧的数量减少。

结论

我们提出了一个在嵌入式集群上执行语义视频分割任务的框架。我们吸收了DVSNet的优点,开发了一种分布式方案,将不同的帧区分配给不同的PE。框架中的PE以主从层次结构进行协调,并由全局和局部密钥管理方案进行管理。我们的实验结果表明,所提出的方法确实在fps和加速比方面带来了提高,而在MIU上几乎没有下降。

论文下载

[IEEE][下载]IEEE Download

请引用这篇论文如下:

杨海坤,傅天军,江炳海,何凯文,李振英,“一种在嵌入式集群上加速语义视频分割的分布式方案”,载于“学报”。内部会议《计算机设计(ICCD)》,第73-81页,2019年11月。

参考文献

原创文章,作者:fendouai,如若转载,请注明出处:https://panchuang.net/2021/07/13/iccd-2019%e4%b8%80%e7%a7%8d%e5%b5%8c%e5%85%a5%e5%bc%8f%e9%9b%86%e7%be%a4%e4%b8%8a%e5%8a%a0%e9%80%9f%e8%af%ad%e4%b9%89%e8%a7%86%e9%a2%91%e5%88%86%e5%89%b2%e7%9a%84%e5%88%86%e5%b8%83%e5%bc%8f%e6%96%b9/

联系我们

400-800-8888

在线咨询:点击这里给我发消息

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息