和之前的网络不同,DemosaicNet的输入是原始的Bayer Array数据,而输出是处理好的图片。
由于并没有那么多图片的Bayer Array数据,因此通常的做法是使用HR图片经采样得到Bayer Array数据。
注意,如果训练数据有原始的Bayer Array的Raw data,那是最好的。降采样或者Raw data的RGB化,都有一定的高频信号的损失。
DemosaicNet的设计借鉴了ResNet的Skip Connection的方案,只不过使用Concat代替了ResNet的Add操作而已。
这里再额外补充两点:
1.Demosaic处理不当,会导致如下问题:
2.将出错的mine hard case,进行retrain,可以有效的提升模型的效果。
MemNet是南京理工大学的作品。
论文:
《MemNet: A Persistent Memory Network for Image Restoration》
代码:
https://github.com/tyshiwo/MemNet
没啥好讲的,无非RNN和Resnet在原理上是等价的而已。结构上和DRCN几乎一样,不知道谁抄谁。。。
参考:
https://mp.weixin.qq.com/s/KxQ-GRnEYEdmS2H-DHIHOg
南京理工大学ICCV 2017论文:图像超分辨率模型MemNet
Residual Dense Network是美国东北大学的张宇伦的作品。
Yulun Zhang,西安电子科技大学本科(2013年)+清华硕士(2017年),现为博士一年级。
个人主页:
http://yulunzhang.com/
论文:
《Residual Dense Network for Image Super-Resolution》
该论文在比较Residual block和Dense block的基础之上,提出了Residual dense block。
中规中矩的论文吧,熟悉Residual block和Dense block的人应该能秒懂,不多说了。
这类基本结构的SR应用除了MemNet和RDN之外,还有更早的SRResnet和SRDensenet,光听名字估计就知道是怎么回事了,灌水利器啊!
参考:
https://mp.weixin.qq.com/s/_r3MKxMTIR856ezEozFOGA
残差密集网络:利用所有分层特征的图像超分辨率网络
ShuffleSeg是开罗大学的Mostafa Gamal和Mennatullah Siam的作品(2018.3)。看名字应该是阿拉伯人,而且一男一女。
论文:
《ShuffleSeg: Real-time Semantic Segmentation Network》
代码:
https://github.com/MSiam/TFSegmentation
这是一个语义分割的网络,本来不该放在这里。然而既然要灌水,那就灌的更猛一些吧。ShuffleNet也难逃毒手。
参考:
https://mp.weixin.qq.com/s/W2reKR5prcf3_DMp53-2yw
新型实时形义分割网络ShuffleSeg:可用于嵌入式设备
SVDF是UCB和Google Speech Group的作品,主要用于简化Speech模型的计算量。
论文:
《Compressing Deep Neural Networks using a Rank-Constrained Topology》
代码:
https://github.com/tensorflow/tensorflow/blob/master/tensorflow/examples/speech_commands/models.py
音频数据通常是一个[time, frequency]的二维tensor,直接放入FC网络,会导致较大的计算量。(下图左半部分所示)
SVDF将每个time的frequency作为一组,进行FC之后,再和其他组的结果进一步FC。上图右半部分所示的是time的filters为1的时候的SVDF。当然filters也可以为其他值,和CNN类似,filters越多,提取的特征越多。
从原理来说,SVDF相当于用两层FC来拟合1层FC,即:
\[w_{i,j}^{(m)}\approx \alpha_i^{(m)}\beta_i^{(m)}\]SVDF将运算量从\(Cd\)变为\((C+d)k\),这里的k为filters numbers。
这实际上就是2维tensor的SVD,只不过SVD是线性变换,而这里是非线性变换而已。(参见《机器学习(十六)》中的ALS算法部分)
实际上,SVDF和《深度目标检测(三)》中提到的Fast R-CNN的FC加速,原理是基本一致的。
LCNN是华盛顿大学和Allen AI研究所的作品。后者是微软创始人Paul Allen投资兴建的研究机构。
论文:
《LCNN: Lookup-based Convolutional Neural Network》
代码:
https://github.com/hessamb/lcnn
我们知道一个Conv层的weight是一个\(n\times m\times k_w \times k_h\)的tensor,这里的m,n分别是input和output的channel数,\(k_w,k_h\)则是kernel的宽和高。
LCNN将这个巨大的weight tensor拆解成若干小tensor的运算:
1.建立一个包含k个\(m\times k_w \times k_h\)大小的tensor的字典D。
2.一个用于选择字典条目的矩阵I。
3.权值矩阵C。
然后按照下图所示的方法,计算得到W:
用数学公式表示,则为:
\[W_{[:,r,c]}=\sum_{t=1}^sC_{[t,r,c]}\cdot D_{[I_{[t,r,c]},:]},\forall r,c\]上图是LCNN的前向运算示意图,其中:
\[S_{[i,:,:]}=X*D_{[i,:]}\]这个过程实际上等效于\(S*P\),而参数P就是我们需要训练的模型参数。
可以看出LCNN和SVDF都是采用稀疏表示的方法来减少运算量,只是实现方式和用途略有不同而已。
参考:
http://blog.csdn.net/feynman233/article/details/69785592
LCNN论文阅读笔记
Image Caption Generation的目标是:给定一张图片,让计算机用一句话来描述这张图片。如果将这里的Image换成Video,那就是Video Caption Generation了。
当然,它也有反操作:Generating Image/Videos from Captions。
参考:
http://geek.csdn.net/news/detail/97193
李理:从Image Caption Generation理解深度学习(part I)
http://geek.csdn.net/news/detail/98776
李理:从Image Caption Generation理解深度学习(part II)
https://mp.weixin.qq.com/s/i4zL-bPaPXUlwpKZzlRtcg
Image Captioning36页最新综述
https://zhuanlan.zhihu.com/p/30893160
CVPR2017 Image Caption有关论文总结
https://mp.weixin.qq.com/s/4IX6vc0Fk9TPofhTI5Gi-Q
从视觉到文本: 图像描述生成的研究进展综述
https://mp.weixin.qq.com/s/3l4mYVSVfjFS_06j3OvX8g
阿里提出新图像描述框架,解决梯度消失难题
https://mp.weixin.qq.com/s/O1LqJftEezBuuA8JHeqMzw
基于对比学习的Image Captioning
https://mp.weixin.qq.com/s/-K3WIo64_wJb9p6C49Z5fA
基于属性学习和额外知识库的图像描述生成和视觉问答
https://mp.weixin.qq.com/s/CBqDR7JEPfhIwTc8BDdeoQ
“诗画合一”的跨媒体理解与检索
https://mp.weixin.qq.com/s/vRHA3Hf1ivsgKBB2XuECNg
李飞飞论文:神经网络是怎样给一幅图增加文字描述,实现“看图说话”的?
https://mp.weixin.qq.com/s/DXRiGSI0p8u7yA9uW1hHxA
最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习
https://mp.weixin.qq.com/s/bDLVD_8LscgWSNp0ZNc0Pg
图像和文本的融合表示学习——Text2Image和Image2Text
https://mp.weixin.qq.com/s/oV8gcKqmp43EBYzQhr5S6w
逆视觉问答任务:一种根据回答与图像想问题的模型
https://mp.weixin.qq.com/s/YgYod-gcFZruEGtE4wF87w
牛津大学提出全新生成式模型“SQAIR”,用于移动目标的视频理解
https://mp.weixin.qq.com/s/eBNoTDOMLlVymiU3LUqSgQ
用Attention模型自动生成图像字幕
https://mp.weixin.qq.com/s/4wuYNYGDesNgsJ13y65XQA
AI都可以将文字轻松转成图像
https://mp.weixin.qq.com/s/TtU0R8P-YIq8JOJrgHP07w
Facobook开源视觉问答VQA框架:Pythia
https://mp.weixin.qq.com/s/a0Xt_hkcW2OVlEzhQFWugg
由浅及深,细致解读图像问答 VQA 2018 Challenge冠军模型Pythia
https://zhuanlan.zhihu.com/p/35305264
一文看懂深度学习中的VQA(视觉问答)技术
https://mp.weixin.qq.com/s/shBHKh2emSIL5uWV7po8cw
梅涛:“看图说话”
https://mp.weixin.qq.com/s/BQy3qpmQqeQquhf92hwcvQ
2017 VQA Challenge第一名技术报告
https://mp.weixin.qq.com/s/0yb-YRGe-q4-vpKpuE4D_w
多种注意力机制互补完成VQA(视觉问答)
https://mp.weixin.qq.com/s/YBaELQlBHOZTGEqc2WI9NQ
MIT等提出NS-VQA:结合深度学习与符号推理的视觉问答
https://mp.weixin.qq.com/s/gaNSQ_8JGqX4a3lGuf-9fA
如何让电脑成为看图说话的高手?
https://mp.weixin.qq.com/s/-b8FuEQlpEb5G0L0QAxVEA
如何使用深度学习为照片自动生成文本描述
https://zhuanlan.zhihu.com/p/50784504
《Reconstruction Network for Video Captioning》阅读笔记
https://mp.weixin.qq.com/s/tEzZ770T1NpYLAxUK-MwIg
综述:Image Caption 任务之语句多样性
https://zhuanlan.zhihu.com/p/53220566
《Adaptive Co-Attention Network for NER in Tweet》阅读笔记
https://mp.weixin.qq.com/s/sQoqt-7EqZmy5gvIWTtMKQ
更有智慧的眼睛:图像描述(Image Caption)&视觉问答(VQA)综述(上)
https://mp.weixin.qq.com/s/3Y5f7JsxsmmuCjAX625h1Q
MirrorGAN出世!浙大等提出文本-图像新框架
https://mp.weixin.qq.com/s/1rtONnhwEc3Osf9gP5fBCQ
李飞飞CVPR最新论文“文本转图”效果优化可多一步:物体关系描述
https://mp.weixin.qq.com/s/9XiAJzC2_vmZturE9ELVLA
多级语言与视觉集成用于文本-剪辑检索
https://mp.weixin.qq.com/s/UehKCDiBRnjZWLEcx_iU-g
微软最新提出ObjGAN,输入一句话秒生成图片
https://mp.weixin.qq.com/s/p8K4eixOwCiUkhzntKYa-Q
视觉问答:VQA经典模型Up-Down以及VQA 2017challenge 冠军方案解读
https://mp.weixin.qq.com/s/hGaX4I_WsPv9P_WAHaDuog
NLP+CV《桥接视觉与语言的研究综述》,带你全面了解视觉+语言最新应用和方法
https://mp.weixin.qq.com/s/XrElAz67uxEo-1zEea9dxA
Video Description视频描述综述论文-方法、数据集和评估指标,UWA
https://mp.weixin.qq.com/s/rbqsBrVBs374GipQ2QXUwg
看图说话之随心所欲
https://mp.weixin.qq.com/s/St6ndWeW9P1vvnhNBF4Nyw
使用神经网络为图像生成标题
https://mp.weixin.qq.com/s/-g5opYPyM488Fit5fP5Y_Q
图像描述生成研究进展
https://mp.weixin.qq.com/s/7mr6nGaADsc450Q0iHauxw
最新《图像描述Image Captioning》综述论文,22页pdf
liquid state machine (LSM)
http://www.docin.com/p-390935406.html
基于液体状态机的脑运动神经系统的建模研究
https://zhuanlan.zhihu.com/p/27773709
浅析至强RNN可微分神经计算机(DNC)
https://zhuanlan.zhihu.com/p/27964341
浅析至强RNN可微分神经计算机(DNC)-2
https://zhuanlan.zhihu.com/p/28209628
DNC-3滚动分类的模式识别
https://zhuanlan.zhihu.com/p/28433712
DNC4广义线性回归
您的打赏,是对我的鼓励