Super SloMo是一个视频插帧模型,提出于2018年CVPR论文《Super SloMo: High Quality Estimation of Multiple Intermediate Frames for Video Interpolation 》,提出机构是NVIDIA。 该模型是VFI领域一个重要的模型,在当时存在方法均为单帧插值时应用了多帧插值,并效果领先。…
视频插帧算法(video frame interpolation, VFI)是一种用于提高视频帧率的算法。一些较早的方法通过计算光流进行运动补偿进行视频插帧(VFI),但光流计算实现复杂,后续计算全部依赖光流对其精度要求也高。随着神经网络的兴起,很多CNN-based视频插帧算法被提出来解决VFI任务。…
PP-YOLOv2是在PP-YOLOv1基础上进一步提高效率得到的,最后结果是性能进一步提高而推理时间几乎没有变化。PP-YOLOv2(Resnet50)的mAP从45.9%提升到49.5%(COCO2017测试集上),基于Resne...
Wenet是业内比较有名的语音识别网络,可以统一识别流式和非流式语音,并且是一个end2end网络。相比其他理论研究注重实用性,可以真实部署(咋感觉这么奇怪樂)…
PS-ViT是一个分类网络,发表于ICCV 2021上,特点是在ViT的基础上加入Progressive Sampling,获得更准确的结果。…
CVPR 2020论文,提出了TTSR(Texture Transformer Network for Image Super-Resolution)网络,使用Transformer对图像超分重建。 论文地址:Learning-Texture-Transformer-Network-for-Image-Super-Resolution…
这篇文章使用了Transformer对图像进行了帧合成操作,文章链接如下: ConvTransformer: A Convolutional Transformer Network for Video Frame Synthesis…
公众号上看到有一些Transformer的跨界应用,感觉可以继续跨界,所以趁着周末学习一下Transformer网络。…