https://mp.weixin.qq.com/s/PD2YnFb6yleDEMhz3ahFSQ
计算机视觉”新”范式: Transformer
https://mp.weixin.qq.com/s/wAy3VsOIHxR948eOuXghmA
使用Transformers创建计算机视觉模型
https://zhuanlan.zhihu.com/p/288758894
CV注意力机制论文阅读笔记
https://mp.weixin.qq.com/s/bMOLo9FXpPsOrD9j4CNHYg
清华&南开最新“视觉注意力机制Attention”综述论文,带你全面了解六大类注意力机制方法
https://mp.weixin.qq.com/s/VBWak2bREDHidZe1EExKLA
中科院计算所最新“视觉Transformer”综述论文,带你全面了解最新CV分类、检测/分割方法
https://mp.weixin.qq.com/s/M3VRlz8-McbTbp9VcctU0w
如何让BERT拥有视觉感知能力?两种方式将视频信息注入BERT
https://mp.weixin.qq.com/s/-eBL9gFbAGFtmqkLMAoUTw
文本+视觉,多篇Visual/Video BERT论文介绍
http://mp.weixin.qq.com/s/Bt6EMD4opHCnRoHKYitsUA
结合人类视觉注意力进行图像分类
https://mp.weixin.qq.com/s/POYTh4Jf7HttxoLhrHZQhw
基于双向注意力机制视觉问答pyTorch实现
http://blog.csdn.net/leo_xu06/article/details/53491400
视觉注意力的循环神经网络模型
https://mp.weixin.qq.com/s/JoTzaInn_uAA9oZgMcfskw
计算机视觉技术self-attention最新进展
https://zhuanlan.zhihu.com/p/32928645
计算机视觉中的注意力机制
https://zhuanlan.zhihu.com/p/56501461
计算机视觉中的注意力机制
https://zhuanlan.zhihu.com/p/32971586
图像描述:基于项的注意力机制
https://zhuanlan.zhihu.com/p/33158614
图像识别:基于位置的柔性注意力机制
https://mp.weixin.qq.com/s/tVKEJ9rqlMaZ9bx6ngIelw
自注意力机制在计算机视觉中的应用
https://mp.weixin.qq.com/s/Di-TbseiezMBc-MUYoEFHg
CV领域的注意力机制
https://mp.weixin.qq.com/s/7ETHeN2xV_hEwkDxrhJyNg
用Attention玩转CV,一文总览自注意力语义分割进展
https://mp.weixin.qq.com/s/G4mFW8cn-ho3KGmbw5sSTw
计算机视觉中注意力机制原理及其模型发展和应用
https://mp.weixin.qq.com/s/gar7zcl68W4oKnFPLFekoQ
Attention增强的卷积网络
https://zhuanlan.zhihu.com/p/308301901
3W字长文带你轻松入门视觉transformer
https://mp.weixin.qq.com/s/MZo3LFyzXp-qpi5jEOQS5Q
FPT:又是借鉴Transformer,这次多方向融合特征金字塔
https://mp.weixin.qq.com/s/N2PAgp-epq4i9CLll1nzJA
华为联合北大、悉尼大学对Visual Transformer的最新综述
https://mp.weixin.qq.com/s/cLPMJm4u67QDsJg0IkmYFQ
解析Vision Transformer
https://www.zhihu.com/question/437495132
如何看待Transformer在CV上的应用前景,未来有可能替代CNN吗?
https://mp.weixin.qq.com/s/hn4EMcVJuBSjfGxJ_qM3Tw
搞懂Vision Transformer原理和代码,看这篇技术综述就够了
https://mp.weixin.qq.com/s/ozUHHGMqIC0-FRWoNGhVYQ
搞懂Vision Transformer原理和代码,看这篇技术综述就够了(二)
https://mp.weixin.qq.com/s/dysKMpOXAjSRgb5xGDO3FA
搞懂Vision Transformer原理和代码,看这篇技术综述就够了(三)
https://mp.weixin.qq.com/s/EXtTUh4_w07Kc7hfBBMBiw
搞懂Vision Transformer原理和代码,看这篇技术综述就够了(四)
https://mp.weixin.qq.com/s/MyRJl_QsO2X1yF4akPGktg
搞懂Vision Transformer原理和代码,看这篇技术综述就够了(五)
https://mp.weixin.qq.com/s/FIilwbLzYk4av8w11VgJeQ
计算机视觉中的Transformer
https://mp.weixin.qq.com/s/2BECepucUdzLYlyU1aM7bA
网络架构设计:CNN based和Transformer based
https://mp.weixin.qq.com/s/k-pe1qTelVmvcwY6hmSi4A
Transformer是巧合还是必然?搜索推荐领域的新潮流
https://mp.weixin.qq.com/s/rATLyYBgo2nWY4rKXmgV5w
来自Transformer的降维打击:ReID各项任务全面领先,阿里&浙大提出TransReID
https://mp.weixin.qq.com/s/aWzHpeNS3OUrjrbEvnI87g
用Pytorch轻松实现28个视觉Transformer,开源库timm了解一下
https://mp.weixin.qq.com/s/J7Fw-T1tYSqi9_vx8VSqYA
TimeSformer:视频理解所需的只是时空注意力吗?
https://mp.weixin.qq.com/s/dHWc0MFwuyLMsCoBGN353Q
PVT:可用于密集任务backbone的金字塔视觉transformer
https://mp.weixin.qq.com/s/DKWSeRu_ThMf_vf9j1GCbQ
PoseFormer:首个纯基于Transformer的3D人体姿态估计网络,性能达到SOTA
https://mp.weixin.qq.com/s/O-xcsIHufrPQKPQGNcKjkg
视觉子领域中的Transformer
https://mp.weixin.qq.com/s/IeQdvz8DrNAULy2k7oFgWw
Transformers在计算机视觉概述
https://mp.weixin.qq.com/s/H2GZgnR8jN5ztUACiowpZQ
Vision Transformer新秀:VOLO
https://mp.weixin.qq.com/s/_ETbYLu6qklaxJ2dv-xeSA
计算机视觉中的Transformer,98页ppt
https://mp.weixin.qq.com/s/XHnt5MRa52IeJKK6nfDb8Q
Vision Transformer学习笔记1
https://mp.weixin.qq.com/s/RhBK0szHORt7XHyoMEVnSA
Vision Transformer学习笔记2: Swin Transformer
https://mp.weixin.qq.com/s/faYB3JCoUfTw_zSVxrKJzA
最新“视频Transformer”2022综述
https://github.com/NVIDIA-Merlin/Transformers4Rec
NVIDIA推出的RS库
https://zhuanlan.zhihu.com/p/605425639
RWKV 14B对比GLM 130B和NeoX 20B,展示RWKV的性能
代码:
https://github.com/BlinkDL/ChatRWKV
RWKV没有使用attention,而是号称100% RNN。
RNN-based没有attention之类机制的模型是怎么获得long memory的能力的啊?
这个形式就是Transformers are RNNs的形式,只不过把Q换成了positional invariant的time weighting。最近很多work都显示Attention里的Q其实没啥用,换成一个跟着相对位置exponential decay的term就行了。
https://blog.csdn.net/v_JULY_v/article/details/134923301
一文通透想颠覆Transformer的Mamba:从SSM、S4到mamba、线性transformer(含RWKV解析)
Encoder注意力 | Decoder注意力 | 是否共享参数 | |
---|---|---|---|
GPT | 单向 | 单向 | 是 |
UniLM | 双向 | 单向 | 是 |
T5 | 双向 | 单向 | 否 |
https://mp.weixin.qq.com/s/m_FU4NmjUsvxusRidDb-Xg
UniLM:一种既能阅读又能自动生成的预训练模型
https://mp.weixin.qq.com/s/yyUPqxpfBwUSRbwM6SSAcQ
UniLM论文阅读笔记
https://mp.weixin.qq.com/s/RjeuHXa8O3MzSpTOuOHMkQ
站在BERT肩膀上的NLP新秀们:XLMs、MASS和UNILM
https://mp.weixin.qq.com/s/UEBKSKEkZTbpR49_Rh50Jg
微软统一预训练语言模型UniLM 2.0解读
https://mp.weixin.qq.com/s/dFT7KKMH56unkOEA9H4Kuw
吊打BERT Large的小型预训练模型ELECTRA终于开源!真相却让人…
https://mp.weixin.qq.com/s/6i9eQISKsWU0jawKzWg8nQ
超越bert,最新预训练模型ELECTRA论文阅读笔记
https://mp.weixin.qq.com/s/lkB1xn6G2P5Nivj7DcYg5w
Electra: 判别还是生成,这是一个选择
预训练刚兴起时,在语言模型的输出端重用Embedding权重是很常见的操作,比如BERT、第一版的T5、早期的GPT,都使用了这个操作,这是因为当模型主干部分不大且词表很大时,Embedding层的参数量很可观,如果输出端再新增一个独立的同样大小的权重矩阵的话,会导致显存消耗的激增。不过随着模型参数规模的增大,Embedding层的占比相对变小了,加之《Rethinking embedding coupling in pre-trained language models》等研究表明共享Embedding可能会有些负面影响,所以现在共享Embedding的做法已经越来越少了。
https://kexue.fm/archives/9698
语言模型输出端共享Embedding的重新探索
对于Transformer模型来说,其长度的外推性是我们一直在追求的良好性质,它是指我们在短序列上训练的模型,能否不用微调地用到长序列上并依然保持不错的效果。
自从Transform被提出以来,一个基本问题还没有被解决,一个模型如何在推断时对训练期间没有见过的更长序列进行外推。众所周知,Bert支持的最长句子长度是512,那为什么Bert只能支持512的句子长度呢?
我们看一下BertEmbeddings的初始化,我们可以看到position_ids,被初始化成0-511,这个也就是BERT处理文本最大长度是512的原因,这里Bert使用的是绝对位置编码。
参考:
https://spaces.ac.cn/archives/9431
长度外推性与局部注意力
https://zhuanlan.zhihu.com/p/656684326
大模型位置编码-ALiBi位置编码
Rotary Position Embedding是苏剑林的作品,并被后来流行的LLAMA等大模型所采用。
参考:
https://spaces.ac.cn/archives/8265
博采众长的旋转式位置编码
https://www.zhihu.com/question/298203515
如何评价BERT模型?
https://mp.weixin.qq.com/s/Fao3i99kZ1a6aa3UhAYKhA
全面超越人类!Google称霸SQuAD,BERT横扫11大NLP测试
https://mp.weixin.qq.com/s/INDOBcpg5p7vtPBChAIjAA
最强预训练模型BERT的Pytorch实现
https://mp.weixin.qq.com/s/SZMYj4rMneR3OWST007H-Q
解读谷歌最强NLP模型BERT:模型、数据和训练
https://mp.weixin.qq.com/s/8uZ2SJtzZhzQhoPY7XO9uw
详细解读谷歌新模型BERT为什么嗨翻AI圈
https://zhuanlan.zhihu.com/p/66053631
BERT
https://mp.weixin.qq.com/s/WEbJnO04DOrsxUbzpgL66g
BERT源码分析(PART I)
https://mp.weixin.qq.com/s/iXjE7KoyvFQ8uekLKRK4jw
BERT源码分析(PART II)
https://mp.weixin.qq.com/s/DxBC_x5ZWC6SECfnwDGnVg
BERT源码分析(PART III)
https://mp.weixin.qq.com/s/kI_k_plZbRzmdeXxt2_2WA
从Transformer到BERT模型
https://mp.weixin.qq.com/s/Bnk0nIjBdb58WVJEY8MqnA
NLP中各种各样的编码器
https://mp.weixin.qq.com/s/CofeiL4fImq98UeuJ4hWTg
预训练BERT,官方代码发布前他们是这样用TensorFlow解决的
https://mp.weixin.qq.com/s/HOD1Hb70NhTXXCXlopzfng
BERT推理加速实践
https://mp.weixin.qq.com/s/0luHJsw7WWJskJWGThR5qg
使用BERT做文本摘要
您的打赏,是对我的鼓励
请访问这里提交评论