Q:RNN-based没有attention之类机制的模型是怎么获得long memory的能力的啊?
A:这个形式就是Transformers are RNNs的形式,只不过把Q换成了positional invariant的time weighting。最近很多work都显示Attention里的Q其实没啥用,换成一个跟着相对位置exponential decay的term就行了。
参考:
https://zhuanlan.zhihu.com/p/605425639
RWKV 14B对比GLM 130B和NeoX 20B,展示RWKV的性能
Encoder注意力 | Decoder注意力 | 是否共享参数 | |
---|---|---|---|
GPT | 单向 | 单向 | 是 |
UniLM | 双向 | 单向 | 是 |
T5 | 双向 | 单向 | 否 |
https://mp.weixin.qq.com/s/m_FU4NmjUsvxusRidDb-Xg
UniLM:一种既能阅读又能自动生成的预训练模型
https://mp.weixin.qq.com/s/yyUPqxpfBwUSRbwM6SSAcQ
UniLM论文阅读笔记
https://mp.weixin.qq.com/s/RjeuHXa8O3MzSpTOuOHMkQ
站在BERT肩膀上的NLP新秀们:XLMs、MASS和UNILM
https://mp.weixin.qq.com/s/UEBKSKEkZTbpR49_Rh50Jg
微软统一预训练语言模型UniLM 2.0解读
https://mp.weixin.qq.com/s/dFT7KKMH56unkOEA9H4Kuw
吊打BERT Large的小型预训练模型ELECTRA终于开源!真相却让人…
https://mp.weixin.qq.com/s/6i9eQISKsWU0jawKzWg8nQ
超越bert,最新预训练模型ELECTRA论文阅读笔记
https://mp.weixin.qq.com/s/lkB1xn6G2P5Nivj7DcYg5w
Electra: 判别还是生成,这是一个选择
预训练刚兴起时,在语言模型的输出端重用Embedding权重是很常见的操作,比如BERT、第一版的T5、早期的GPT,都使用了这个操作,这是因为当模型主干部分不大且词表很大时,Embedding层的参数量很可观,如果输出端再新增一个独立的同样大小的权重矩阵的话,会导致显存消耗的激增。不过随着模型参数规模的增大,Embedding层的占比相对变小了,加之《Rethinking embedding coupling in pre-trained language models》等研究表明共享Embedding可能会有些负面影响,所以现在共享Embedding的做法已经越来越少了。
https://kexue.fm/archives/9698
语言模型输出端共享Embedding的重新探索
对于Transformer模型来说,其长度的外推性是我们一直在追求的良好性质,它是指我们在短序列上训练的模型,能否不用微调地用到长序列上并依然保持不错的效果。
自从Transform被提出以来,一个基本问题还没有被解决,一个模型如何在推断时对训练期间没有见过的更长序列进行外推。众所周知,Bert支持的最长句子长度是512,那为什么Bert只能支持512的句子长度呢?
我们看一下BertEmbeddings的初始化,我们可以看到position_ids,被初始化成0-511,这个也就是BERT处理文本最大长度是512的原因,这里Bert使用的是绝对位置编码。
参考:
https://spaces.ac.cn/archives/9431
长度外推性与局部注意力
https://zhuanlan.zhihu.com/p/656684326
大模型位置编码-ALiBi位置编码
Rotary Position Embedding是苏剑林的作品,并被后来流行的LLAMA等大模型所采用。DeepSeek的实验显示ALiBi明显不如RoPE。
RoPE采用绝对位置编码的形式实现相对位置编码,即寻找满足下式的g:
\[<f_{q}\left(x_{m}, m\right), f_{k}\left(x_{n}, n\right)>=g\left(x_{m}, x_{n}, m-n\right)\]其中的m和n是位置,x是未添加Position Embedding的原始词向量。上式左侧的内积运算,实际上就是Attention中的QK内积。
最终找到的g的公式(d=2)如下:
\[g\left(\boldsymbol{x}_{m}, \boldsymbol{x}_{n}, m-n\right)=\left(\begin{array}{ll} \boldsymbol{q}_{m}^{(1)} & \boldsymbol{q}_{m}^{(2)} \end{array}\right)\left(\begin{array}{cc} \cos ((m-n) \theta) & -\sin ((m-n) \theta) \\ \sin ((m-n) \theta) & \cos ((m-n) \theta) \end{array}\right)\left(\begin{array}{c} k_{n}^{(1)} \\ k_{n}^{(2)} \end{array}\right)\]也可以扩展到更高维度:
\[\boldsymbol{R}_{\Theta, m}^{d}=\underbrace{\left(\begin{array}{ccccccc} \cos m \theta_{0} & -\sin m \theta_{0} & 0 & 0 & \cdots & 0 & 0 \\ \sin m \theta_{0} & \cos m \theta_{0} & 0 & 0 & \cdots & 0 & 0 \\ 0 & 0 & \cos m \theta_{1} & -\sin m \theta_{1} & \cdots & 0 & 0 \\ 0 & 0 & \sin m \theta_{1} & \cos m \theta_{1} & \cdots & 0 & 0 \\ \vdots & \vdots & \vdots & \vdots & \ddots & \vdots & \vdots \\ 0 & 0 & 0 & 0 & \cdots & \cos m \theta_{d / 2-1} & -\sin m \theta_{d / 2-1} \\ 0 & 0 & 0 & 0 & \cdots & \sin m \theta_{d / 2-1} & \cos m \theta_{d / 2-1} \end{array}\right)}_{\boldsymbol{W}_{m}}\]考虑到上述形式和欧拉公式以及复数的关系,这实际上就是一个如下图所示的旋转变换:
参考:
https://spaces.ac.cn/archives/8265
博采众长的旋转式位置编码
https://blog.csdn.net/v_JULY_v/article/details/134085503
一文通透位置编码:从标准位置编码、旋转位置编码RoPE到ALiBi、LLaMA 2 Long
两种常见的外推方法:
PI:Position Interpolation,形象的说就是增加线上点的密度。
ABF:Adjusted Base Frequency,增加base旋转的角密度。
https://blog.csdn.net/v_JULY_v/article/details/135072211
大模型长度扩展综述:从直接外推ALiBi、插值PI、NTK-aware插值、YaRN到S2-Attention
https://blog.csdn.net/v_JULY_v/article/details/137955982
一文速览Llama 3及其微调:从如何把长度扩展到100万到如何微调Llama3 8B
https://www.zhihu.com/question/298203515
如何评价BERT模型?
https://mp.weixin.qq.com/s/Fao3i99kZ1a6aa3UhAYKhA
全面超越人类!Google称霸SQuAD,BERT横扫11大NLP测试
https://mp.weixin.qq.com/s/INDOBcpg5p7vtPBChAIjAA
最强预训练模型BERT的Pytorch实现
https://mp.weixin.qq.com/s/SZMYj4rMneR3OWST007H-Q
解读谷歌最强NLP模型BERT:模型、数据和训练
https://mp.weixin.qq.com/s/8uZ2SJtzZhzQhoPY7XO9uw
详细解读谷歌新模型BERT为什么嗨翻AI圈
https://zhuanlan.zhihu.com/p/66053631
BERT
https://mp.weixin.qq.com/s/WEbJnO04DOrsxUbzpgL66g
BERT源码分析(PART I)
https://mp.weixin.qq.com/s/iXjE7KoyvFQ8uekLKRK4jw
BERT源码分析(PART II)
https://mp.weixin.qq.com/s/DxBC_x5ZWC6SECfnwDGnVg
BERT源码分析(PART III)
https://mp.weixin.qq.com/s/kI_k_plZbRzmdeXxt2_2WA
从Transformer到BERT模型
https://mp.weixin.qq.com/s/Bnk0nIjBdb58WVJEY8MqnA
NLP中各种各样的编码器
https://mp.weixin.qq.com/s/CofeiL4fImq98UeuJ4hWTg
预训练BERT,官方代码发布前他们是这样用TensorFlow解决的
https://mp.weixin.qq.com/s/HOD1Hb70NhTXXCXlopzfng
BERT推理加速实践
https://mp.weixin.qq.com/s/0luHJsw7WWJskJWGThR5qg
使用BERT做文本摘要
https://mp.weixin.qq.com/s/IY8J09LvDAr8owYffKi5Dw
五问BERT:深入理解NLP领域爆红的预训练模型
https://zhuanlan.zhihu.com/p/106901954
BERT, ELMo, & GPT-2: 这些上下文相关的表示到底有多上下文化?
https://mp.weixin.qq.com/s/mkDmn4zy_s87kiiDIkx0VQ
NLP的12种后BERT预训练方法
https://www.zhihu.com/question/327450789
Bert如何解决长文本问题?
https://mp.weixin.qq.com/s/QTELpbr480AJsBINm-FHKQ
代码也能预训练,微软&哈工大最新提出CodeBERT模型,支持自然-编程双语处理
https://mp.weixin.qq.com/s/ZEWCcxTEuEMvQ5__t3gkBg
BERT技术体系综述论文:40项分析探究BERT如何work
https://mp.weixin.qq.com/s/OsfeAA_tbzAddh1eunwx2w
关于BERT,面试官们都怎么问
https://mp.weixin.qq.com/s/e3n_16uB-qGeGSaGwzlBDw
这群工程师,业余将中文NLP推进了一大步(中文预训练模型)
https://mp.weixin.qq.com/s/V4pbjP5na1OYp-TorUik8g
详聊如何用BERT实现关系抽取
https://mp.weixin.qq.com/s/s5YIG6rBEy6fZkFLh-CzoA
后BERT时代生存指南之VL-BERT篇
https://zhuanlan.zhihu.com/p/113326366
如何训练并使用Bert
https://mp.weixin.qq.com/s/dmHxEkmVFXcCGhv8eH91Tw
从Word2Vec到BERT:上下文嵌入(Contextual Embedding)最新综述论文
https://mp.weixin.qq.com/s/g6-NjoFMPpxjsh38X-wTFQ
BERT,GPT-2这些顶尖工具到底该怎么用到我的模型里?
https://mp.weixin.qq.com/s/N6xBFZ82dkSGCbj6vC5nLQ
上下文预训练模型最全整理:原理、应用、开源代码、数据分享
https://mp.weixin.qq.com/s/-6XpuO7_ve_EdSPCMeWE7g
Attention isn’t all you need!BERT的力量之源远不止注意力
https://mp.weixin.qq.com/s/Y2bs2QegRadSR7lbiFFnWg
BERT一作Jacob Devlin斯坦福演讲PPT:BERT介绍与答疑
https://zhuanlan.zhihu.com/p/62308732
浅谈Bert:语言理解中的预训练编码器
https://mp.weixin.qq.com/s/1Cz6js4kYdvc8g4oKjVPeA
BERT烹饪之法:fintune的艺术
https://mp.weixin.qq.com/s/nVM2Kxc_Mn7BAC6-Pig2Uw
BERT模型的标准调优和花式调优
https://mp.weixin.qq.com/s/FwmEIZ3ugeZBbLIGHmH-_g
BERT之后,GLUE基准升级为SuperGLUE:难度更大
https://mp.weixin.qq.com/s/SDVxn3Ra1dKmr-XgKNg5IA
罗玲:From Word Representation to BERT
https://mp.weixin.qq.com/s/-bh8BL4LxnevS8xnW5U9ZA
中科院自动化所提出BIFT模型:面向自然语言生成,同步双向推断
https://mp.weixin.qq.com/s/7yCnAHk6x0ICtEwBKxXpOw
序列到序列自然语言生成任务超越BERT、GPT!微软提出通用预训练模型MASS
https://mp.weixin.qq.com/s/7sIUaSON53hsXUJjq8uVUA
马聪:NLP中的生成式预训练模型
https://mp.weixin.qq.com/s/Jrs8okgVAh0fymIq-jCqgA
模型压缩与蒸馏!BERT的忒修斯船
https://mp.weixin.qq.com/s/UNHu1eVNorWWKbDb0XBJcA
模型压缩与蒸馏!BERT家族的瘦身之路
https://mp.weixin.qq.com/s/oD_Vibp4Ygraix23K_oV2Q
BERT在58搜索的实践
https://mp.weixin.qq.com/s/bqvEeCyX8pqhJQfCUvUkEw
图解BERT:通俗的解释BERT是如何工作的
https://mp.weixin.qq.com/s/yPq1cGnhcbaNLOjadj91pw
Bert时代的创新:Bert在NLP各领域的应用进展
https://mp.weixin.qq.com/s/l-de0vfx-L24g58IxK-NKQ
Jeff Dean强推:可视化Bert网络,发掘其中的语言、语法树与几何学
https://mp.weixin.qq.com/s/nlFXfgM5KKZXnPdwd97JYg
哈工大讯飞联合实验室发布基于全词覆盖的中文BERT预训练模型
https://zhuanlan.zhihu.com/p/70389596
一批高质量中文BERT预训练模型请查收(上)
https://mp.weixin.qq.com/s/h1VUSY7_UZF3PmjSN0DMSg
从One-hot, Word embedding到Transformer,一步步教你理解Bert
https://zhuanlan.zhihu.com/p/132554155
超细节的BERT/Transformer知识点
https://mp.weixin.qq.com/s/UJlmjFHWhnlXXJoRv4zkEQ
虽被BERT碾压,但还是有必要谈谈BERT时代与后时代的NLP
您的打赏,是对我的鼓励