论文阅读：Appearance-and-Relation Networks for Video Classification(ARTNet)

论文信息：CVPR2018, ETH Zurich Liming Wang （TSN作者）
代码链接：https://github.com/wanglimin/ARTNet

论文概述：由于训练two-stream网络计算成本大比较耗时，尤其是提取optical flow部分，3D卷积不用提取optical flow，直接对RGB volume输入提取spatial-temporal特征，但效果差于two-stream法，作者基于此，（1）提出了一种SMART block,这个模块以一种separate 方式提取volume 中的appearanceinformation和relation(motion) information。；（2）在C3D-ResNet的基础上通过stack这种SMART block构建了ARTNet；（3）在数据集上刷新了仅使用RGB输入的行为识别准确率。

框架对比：

从上图可以看出，ARTNet是对前两者在结构上的一个很好的整合。

SMART block

SMART block由两个branch组成：appearance branch 和relation branch。前者直接使用2Dconvolution 对每个frame提取spatial information；后者则是使用3D convolution +square pooling 的结构对multi-frame提取temporal dynamics。最后对两个branch进行concatenation。SMART block 输入是volume，输出依旧是volume。 Cross channel pooling和采用1*1*1 convolution 实现。注：最后只要设置成同样的W,H,T,C,就可以进行concat。

实验结果：

由于采用了3D卷积，所以作者直接在C3D-ResNet上添加SMART进行实验。

Network

Training : Kinetics ,train from scratch。Testing:25 clips，每个clips有16 frame.

从测试结果来看，添加SMART 之后，performance都有不同程度的提高。而且，这里为了证明performance的提高并不是因为network 的depth的加深，作者还使用ARTNet-ResNet18和C3D-ResNet34比较可以看出，并不是由于网络加深而带来的效果的提升。作者还和其他state-of-the-art进行比较，