最高比Mask-RCNN快3倍！上交大实时姿态估计AlphaPose升级

点击上方“磐创AI”，选择“置顶公众号”

精品文章，第一时间送达

最高比Mask-RCNN快3倍！上交大实时姿态估计AlphaPose升级

转载自：新智元，未经允许不得二次转载

AlphaPose是一个实时多人姿态估计系统。

今年2月，上海交通大学卢策吾团队MVIG实验室AlphaPose 系统上线，是首个在 COCO 数据集上可达到 70+ mAP 的开源姿态估计系统。本次更新，在精度不下降情况下，实时性是一大提升亮点。

新系统采用 PyTorch 框架，在姿态估计（Pose Estimation）标准测试集COCO validation set上，达到 71mAP的精度（比 OpenPose 相对提升17%，Mask-RCNN相对提升8%），同时，速度达到了20FPS（比 OpenPose 相对提高66%，Mask-RCNN相对提高300%）。

最高比Mask-RCNN快3倍！上交大实时姿态估计AlphaPose升级

再次感受一下升级后AlphaPose的速度

检测精度不变，平均速度比Mask-RCNN快3倍

人体关键点检测对于描述人体姿态，预测人体行为至关重要。因此，人体关键点检测是诸多计算机视觉任务的基础。其在动作分类，异常行为检测，以及人机交互等领域有着很广阔的应用前景，是计算机视觉领域中一个既具有研究价值、同时又极具挑战性的热门课题。

AlphaPose系统，是基于上海交大MVIG组提出的 RMPE 二步法框架（ICCV 2017论文）构建的，相比其他开源系统在准确率有很大提高，比OpenPose相对提高17%，Mask-RCNN相对提高8.2%。

升级后，各个开源框架在COCO-Validation上性能，时间在单卡1080ti GPU测出指标如下：

开源系统	准确率	平均速度
Openpose（CMU）	60 mAP	12 FPS
Mask-RCNN（Facebook）	67 mAP	5 FPS
Alphapose（SJTU）	71 mAP	20 FPS

基于PyTorch框架，在人体姿态估计模型中引入Attention模块

新版 AlphaPose 系统，架设在 PyTorch 框架上，得益于Python的灵活性，新系统对用户更加友好，安装使用过程更加简易，同时支持Linux与Windows系统使用，方便进行二次开发。此外，系统支持图片、视频、摄像头输入，实时在线计算出多人的姿态结果。

为了在兼顾速度的同时保持精度，新版AlphaPose提出了一个新的姿态估计模型。模型的骨架网络使用 ResNet101，同时在其下采样部分添加 SE-block 作为 attention 模块——已经有很多实验证明，在 Pose Estimation 模型中引入 attention 模块能提升模型的性能，而仅在下采样部分添加 SE-block 能使 attention 以更少的计算量发挥更好的效果。

除此之外，使用 PixelShuffle + Conv 进行3次上采样，输出关键点的热度图。传统的上采样方法会使用反卷积或双线性插值。而使用 PixelShuffle 的好处在于，在提高分辨率的同时，保持特征信息不丢失。对比双线性插值，运算量低；对比反卷积，则不会出现网格效应。

在系统架构方面，新版 AlphaPose 采用多级流水的工作方式，使用多线程协作，将速度发挥到极致。

AlphaPose 系统目前在COCO的 Validation 集上的运行速度是 20FPS（平均每张图片4.6人），精度达到71mAP。在拥挤场景下（平均每张图片15人），AlphaPose系统速度仍能保持 10FPS 以上。

更多的细节，请关注即将公开的技术论文。