https://mp.weixin.qq.com/s/l4HN0_VzaiO-DwtNp9cLVA
循环注意力区域实现图像多标签分类
https://mp.weixin.qq.com/s/zhZLK4pgJzQXN49YkYnSjA
自适应注意力机制在Image Caption中的应用
https://mp.weixin.qq.com/s/uvr-G5-_lKpyfyn5g7ES0w
基于注意力机制,机器之心带你理解与训练神经机器翻译系统
https://mp.weixin.qq.com/s/ANpBFnsLXTIiW6WHzGrv2g
自注意力机制学习句子embedding
https://mp.weixin.qq.com/s/49fQX8yiOIwDyof3PD01rA
CMU&谷歌大脑提出新型问答模型QANet:仅使用卷积和自注意力,性能大大优于RNN
https://mp.weixin.qq.com/s/c64XucML13OwI26_UE9xDQ
滴滴披露语音识别新进展:基于Attention显著提升中文识别率
https://mp.weixin.qq.com/s/7OYY3L7gL4wVv_EjoosOHA
如何增强Attention Model的推理能力
https://mp.weixin.qq.com/s/9Kt6_DfeYRnhsb10aCSFGw
FAGAN:完全注意力机制(Full Attention)GAN,Self-attention+GAN
https://mp.weixin.qq.com/s/lZOIK5BRXZrmL_Z9crl6sA
机器翻译新突破!“普适注意力”模型:概念简单参数少,性能大增
https://mp.weixin.qq.com/s/jRfOzKO6OlQLokIzipbqUQ
为什么使用自注意力机制?
https://zhuanlan.zhihu.com/p/339123850
关于attention机制的一些细节的思考
https://mp.weixin.qq.com/s/n4mzHSweOT-vDWBGs0XFbw
卷积神经网络中的自我注意
https://mp.weixin.qq.com/s/h7sLwVXb_UI8jvJU-oe3Cg
Google AI提出“透明注意力”机制,实现更深层NMT模型
https://mp.weixin.qq.com/s/1LYz5SH5rVnPPJ0tZvRQAA
从各种注意力机制窥探深度学习在NLP中的神威
https://zhuanlan.zhihu.com/p/33078323
数字串识别:基于位置的硬性注意力机制
https://mp.weixin.qq.com/s/-gAISWjSiG6ccPuOPAEg3A
五张动图,看清神经机器翻译里的Attention!
https://mp.weixin.qq.com/s/aixpv9t1PLPRWUP6PvZ0EQ
用自注意力增强卷积:这是新老两代神经网络的对话
https://mp.weixin.qq.com/s/i3Xd_IB7R0-QPztn-pgpng
遍地开花的Attention,你真的懂吗?
https://zhuanlan.zhihu.com/p/151640509
注意力机制在推荐系统中的应用
https://mp.weixin.qq.com/s/-SU5cNbklI31WLmTawZJIQ
自注意模型学不好?这个方法帮你解决!
https://mp.weixin.qq.com/s/K5EbO0djcXHN4K5LQiMh5g
Triplet Attention机制让Channel和Spatial交互更加丰富
https://mp.weixin.qq.com/s/C4f0N_bVWU9YPY34t-HAEA
UNC&Adobe提出模块化注意力模型MAttNet,解决指示表达的理解问题
https://mp.weixin.qq.com/s/V3brXuey7Gear0f_KAdq2A
基于注意力机制的交易上下文感知推荐,悉尼科技大学和电子科技大学最新工作
https://mp.weixin.qq.com/s/2gxp7A38epQWoy7wK8Nl6A
谷歌翻译最新突破,“关注机制”让机器读懂词与词的联系
https://zhuanlan.zhihu.com/p/25928551
用深度学习(CNN RNN Attention)解决大规模文本分类问题-综述和实践
https://mp.weixin.qq.com/s/MjCIAlDWyHPLj_sGSPc4rg
复旦邱锡鹏组最新综述:A Survey of Transformers
https://mp.weixin.qq.com/s/-Y7Qy-5aJNJ5bx8QJf3k2w
Transformer及其变种
https://mp.weixin.qq.com/s/nSokDcIkOSSrRnhHCuu4Mg
Transformer家族简史(PART I)
https://mp.weixin.qq.com/s/p919Kfv-1GSDM6u6FpnBsA
Transformer家族简史(PART II)
https://mp.weixin.qq.com/s/M0zLw9hA5xzontKB7Zj23Q
Memory Transformer,一种简单明了的Transformer改造方案
https://mp.weixin.qq.com/s/FJeZ8X9gtyciqCTs9zvlLA
Transformer是CNN是GNN是RNN,Attention is all you need!
https://mp.weixin.qq.com/s/d1qqRw7sWyLdoyfnqMBdJQ
深度自适应Transformer
https://mp.weixin.qq.com/s/UowNtBm_hqnes-Lz3POXGQ
Transformers中的Beam Search高效实现
https://mp.weixin.qq.com/s/KdKbOrjeeo7Db095V7mSFA
Transformer之自适应宽度注意力
https://mp.weixin.qq.com/s/EuCCeWz_rkktwLuFJ75BXA
Transformer+AutoML: 遗传搜索在序列式任务上的应用
https://mp.weixin.qq.com/s/OEpLpWzkdfFUQf4cKNuG4w
Performer:基于正交随机特征的快速注意力计算
https://mp.weixin.qq.com/s/eWQLkiJ_XIo7LpTUE9c0qA
Transformer中的相对位置编码
https://mp.weixin.qq.com/s/mZBHjuHJG9Ffd0nSoJ2ISQ
什么是Transformer位置编码?
https://mp.weixin.qq.com/s/V0NAOgluyZN9P8iuhMKRwQ
Transformer为啥在NER上表现不好
https://mp.weixin.qq.com/s/ANFSNW1-mcjPqjcroNHeZQ
RealFormer:Real简单,Real有效
https://mp.weixin.qq.com/s/u-Twg6Cj6VfL6m4K0seBlw
谷歌研究院出品:高效Transformer模型最新综述
https://mp.weixin.qq.com/s/2S_2Z5-ioCNxH1kqFcUuQA
竞赛中的Transformer家族
https://mp.weixin.qq.com/s/mc6M2vEcPG6oMfKe3_apzQ
Transformer变体层出不穷,它们都长什么样?
https://mp.weixin.qq.com/s/IWUxVzpdGIX1Oxn4KxjhHA
一个Transformer,很强;两个,更强?(TransGAN)
https://mp.weixin.qq.com/s/IWUxVzpdGIX1Oxn4KxjhHA
TransGAN:两个Transformer可以构造一个强大的GAN
https://pytorch.org/blog/high-performance-llama-2/
https://huggingface.co/blog/zh/bloom-inference-optimization
https://huggingface.co/blog/zh/bloom-megatron-deepspeed
训练过程中,损失偶尔会出现毛刺的情况。针对这种情况,Falcon作者会恢复到上一个最新的Checkpoint,并跳过1B Token数据继续训练。作者训练Falcon-180B时出现了9次毛刺。
Google训练PaLM模型遇到了同样的问题。针对此种情况,作者会重启训练,并从毛刺之前的100个step开始,跳过200-500个Batch的数据。作者也做了消融实验,发现并不是单个数据的问题,而可能是这连续的一系列Batch数据引起的。
https://mp.weixin.qq.com/s/rLJlaqI2RL7TGUEQyx-QaA
万卡GPU集群实战:探索LLM预训练的挑战
https://docs.swanlab.cn/zh/examples/pretrain_llm.html
从零预训练一个自己的大模型
本人的魔改版本,wiki_zh dataset + Qwen tokenizer + llama 2 model:
https://github.com/antkillerfarm/antkillerfarm_crazy/tree/master/python/ml/huggingface/llm_train.py
在大模型训练过程中,为确保训练的稳定性与有效性,需密切关注多项关键指标以评估训练状态,其中包括但不限于perplexity (PPL)、gradient norm (GNorm)、activation norm、内存占用情况以及Loss scale等参数。
梯度裁剪(Gradient Clipping):作为一种常用的稳定训练手段,通常设定裁剪阈值为1.0,防止梯度过大引发训练不稳定。
Weight Decay(L2正则化):设置合理的权重衰减率,如0.1,有助于防止过拟合,增强模型泛化能力。
特殊层的调整:GLM研究发现,embedding层往往存在较大的梯度异常情况,故需根据实际情况适度调整相关参数。
https://blog.csdn.net/v_JULY_v/article/details/132178447
七月论文审稿GPT第1版:通过3万多篇paper和10多万的review数据微调RWKV
https://blog.csdn.net/v_JULY_v/article/details/134183799
七月论文审稿GPT第2版:用一万多条paper-review数据微调LLaMA2 7B最终反超GPT4
https://blog.csdn.net/v_JULY_v/article/details/131552592
基于LangChain+LLM的本地知识库问答:从企业单文档问答到批量文档问答
https://wandb.ai/ai2-llm/OLMo-7B/reports/OLMo-7B–Vmlldzo2NzQyMzk5
这个网页收录了作者训练LLM时,各项指标的变化曲线。
您的打赏,是对我的鼓励