Antkillerfarm Hacking V8.0

Attention » Attention（九）——Attention进阶, Transformer进阶

2024-10-09 :: 5433 Words

Attention进阶（续）
Transformer进阶
欧洲+

Attention进阶（续）

https://mp.weixin.qq.com/s/GGRORF5EfJ5xzMLwAsJt5w

从词袋到Transfomer，NLP十年突破史

https://zhuanlan.zhihu.com/p/125145283

Rethink深度学习中的Attention机制

https://mp.weixin.qq.com/s/fxEg8UOa3MeJ6qx5SjEHog

NLP领域中各式各样Attention知识系统性的梳理和总结

https://mp.weixin.qq.com/s/_5YaZdYa8bTFiAzHyrMFBg

理解卷积神经网络中的自注意力机制

https://mp.weixin.qq.com/s/y_hIhdJ1EN7D3p2PVaoZwA

阿里北大提出新attention建模框架，一个模型预测多种行为

https://mp.weixin.qq.com/s/Yq3S4WrsQRQC06GvRgGjTQ

打入神经网络思维内部

https://mp.weixin.qq.com/s/MJ1578NdTKbjU-j3Uuo9Ww

基于文档级问答任务的新注意力模型

https://mp.weixin.qq.com/s/_3pA8FZwzegSpyz_cK63BQ

Self-Attention GAN中的self-attention机制

https://mp.weixin.qq.com/s/l4HN0_VzaiO-DwtNp9cLVA

循环注意力区域实现图像多标签分类

https://mp.weixin.qq.com/s/zhZLK4pgJzQXN49YkYnSjA

自适应注意力机制在Image Caption中的应用

https://mp.weixin.qq.com/s/uvr-G5-_lKpyfyn5g7ES0w

基于注意力机制，机器之心带你理解与训练神经机器翻译系统

https://mp.weixin.qq.com/s/ANpBFnsLXTIiW6WHzGrv2g

自注意力机制学习句子embedding

https://mp.weixin.qq.com/s/49fQX8yiOIwDyof3PD01rA

CMU&谷歌大脑提出新型问答模型QANet：仅使用卷积和自注意力，性能大大优于RNN

https://mp.weixin.qq.com/s/c64XucML13OwI26_UE9xDQ

滴滴披露语音识别新进展：基于Attention显著提升中文识别率

https://mp.weixin.qq.com/s/7OYY3L7gL4wVv_EjoosOHA

如何增强Attention Model的推理能力

https://mp.weixin.qq.com/s/9Kt6_DfeYRnhsb10aCSFGw

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

https://mp.weixin.qq.com/s/lZOIK5BRXZrmL_Z9crl6sA

机器翻译新突破！“普适注意力”模型：概念简单参数少，性能大增

https://mp.weixin.qq.com/s/jRfOzKO6OlQLokIzipbqUQ

为什么使用自注意力机制？

https://zhuanlan.zhihu.com/p/339123850

关于attention机制的一些细节的思考

https://mp.weixin.qq.com/s/n4mzHSweOT-vDWBGs0XFbw

卷积神经网络中的自我注意

https://mp.weixin.qq.com/s/h7sLwVXb_UI8jvJU-oe3Cg

Google AI提出“透明注意力”机制，实现更深层NMT模型

https://mp.weixin.qq.com/s/1LYz5SH5rVnPPJ0tZvRQAA

从各种注意力机制窥探深度学习在NLP中的神威

https://zhuanlan.zhihu.com/p/33078323

数字串识别：基于位置的硬性注意力机制

https://mp.weixin.qq.com/s/-gAISWjSiG6ccPuOPAEg3A

五张动图，看清神经机器翻译里的Attention！

https://mp.weixin.qq.com/s/aixpv9t1PLPRWUP6PvZ0EQ

用自注意力增强卷积：这是新老两代神经网络的对话

https://mp.weixin.qq.com/s/i3Xd_IB7R0-QPztn-pgpng

遍地开花的Attention，你真的懂吗？

https://zhuanlan.zhihu.com/p/151640509

注意力机制在推荐系统中的应用

https://mp.weixin.qq.com/s/-SU5cNbklI31WLmTawZJIQ

自注意模型学不好？这个方法帮你解决！

https://mp.weixin.qq.com/s/K5EbO0djcXHN4K5LQiMh5g

Triplet Attention机制让Channel和Spatial交互更加丰富

https://mp.weixin.qq.com/s/C4f0N_bVWU9YPY34t-HAEA

UNC&Adobe提出模块化注意力模型MAttNet，解决指示表达的理解问题

https://mp.weixin.qq.com/s/V3brXuey7Gear0f_KAdq2A

基于注意力机制的交易上下文感知推荐，悉尼科技大学和电子科技大学最新工作

https://mp.weixin.qq.com/s/2gxp7A38epQWoy7wK8Nl6A

谷歌翻译最新突破，“关注机制”让机器读懂词与词的联系

https://zhuanlan.zhihu.com/p/25928551

用深度学习（CNN RNN Attention）解决大规模文本分类问题-综述和实践

Transformer进阶

https://mp.weixin.qq.com/s/MjCIAlDWyHPLj_sGSPc4rg

复旦邱锡鹏组最新综述：A Survey of Transformers

https://mp.weixin.qq.com/s/-Y7Qy-5aJNJ5bx8QJf3k2w

Transformer及其变种

https://mp.weixin.qq.com/s/nSokDcIkOSSrRnhHCuu4Mg

Transformer家族简史（PART I）

https://mp.weixin.qq.com/s/p919Kfv-1GSDM6u6FpnBsA

Transformer家族简史（PART II）

https://mp.weixin.qq.com/s/M0zLw9hA5xzontKB7Zj23Q

Memory Transformer，一种简单明了的Transformer改造方案

https://mp.weixin.qq.com/s/FJeZ8X9gtyciqCTs9zvlLA

Transformer是CNN是GNN是RNN，Attention is all you need！

https://mp.weixin.qq.com/s/d1qqRw7sWyLdoyfnqMBdJQ

深度自适应Transformer

https://mp.weixin.qq.com/s/UowNtBm_hqnes-Lz3POXGQ

Transformers中的Beam Search高效实现

https://mp.weixin.qq.com/s/KdKbOrjeeo7Db095V7mSFA

Transformer之自适应宽度注意力

https://mp.weixin.qq.com/s/EuCCeWz_rkktwLuFJ75BXA

Transformer+AutoML: 遗传搜索在序列式任务上的应用

https://mp.weixin.qq.com/s/OEpLpWzkdfFUQf4cKNuG4w

Performer:基于正交随机特征的快速注意力计算

https://mp.weixin.qq.com/s/eWQLkiJ_XIo7LpTUE9c0qA

Transformer中的相对位置编码

https://mp.weixin.qq.com/s/mZBHjuHJG9Ffd0nSoJ2ISQ

什么是Transformer位置编码？

https://mp.weixin.qq.com/s/V0NAOgluyZN9P8iuhMKRwQ

Transformer为啥在NER上表现不好

https://mp.weixin.qq.com/s/ANFSNW1-mcjPqjcroNHeZQ

RealFormer：Real简单，Real有效

https://mp.weixin.qq.com/s/u-Twg6Cj6VfL6m4K0seBlw

谷歌研究院出品：高效Transformer模型最新综述

https://mp.weixin.qq.com/s/2S_2Z5-ioCNxH1kqFcUuQA

竞赛中的Transformer家族

https://mp.weixin.qq.com/s/mc6M2vEcPG6oMfKe3_apzQ

Transformer变体层出不穷，它们都长什么样？

https://mp.weixin.qq.com/s/IWUxVzpdGIX1Oxn4KxjhHA

一个Transformer，很强；两个，更强？（TransGAN）

https://mp.weixin.qq.com/s/IWUxVzpdGIX1Oxn4KxjhHA

TransGAN：两个Transformer可以构造一个强大的GAN

欧洲+

公元8世纪，一堆枢机互不相让老是选不出教皇，教皇国的贵族和罗马城的市民都受不了，逼迫枢机一定要选出教皇，于是，枢机们临时现抓了从叙利亚来罗马朝圣的一个朝圣者，给连升三级（平信徒→执事→司铎→罗马主教）选为教皇，是为教皇额我略三世。此后1300年都没有再出现非欧洲出身的教皇，直到教皇方济各。

莫扎特的大儿子没有子承父业，而是成为了一个公务员/军官，有自己的别墅院子，吃父亲老本，到哪只要报出姓氏就受人尊敬，光靠费加罗婚礼一个版权就能吃一辈子。

有次门德尔松办的聚会上，大儿子走到门跟前说:“你能弹弹我敬爱的父亲的作品吗？”

门德尔松问您父亲是谁，大儿子说是莫扎特。门德尔松立马毕恭毕敬说:“我们今晚都弹他。”

尼玛这逼装得，都不需要自己努力，快乐一生，大儿子活了74岁。

大仲马父亲，简称老仲马，是法国破产侯爵和海地黑奴的私生子，出生加勒比随母亲姓Dumas。

而且在侯爵破产期间，老仲马也曾一度被卖为奴隶，后被赎回，24岁到法国，赶上大革命，14年间随拿破仑先后征战意奥，埃及，称为黑魔鬼将军，是《三个火枪手》达达尼昂的原型。

乔治乌-德治/齐公时代，顶级罗马尼亚数学家的经历就有点一言难尽了。

Valentin Poénaru（拓扑），巴黎大学博士（1963），1次ICM报告（1962）并在参会期间叛逃至法国。

Ciprian Foias（算子理论），罗马尼亚数学所博士（1962），2次ICM报告（1970,1978），1978年开会期间叛逃至法国，后前往美国。

George Lusztig（表示论），1969年出国开会期间不归，普林斯顿大学博士（1971）。3次ICM报告（1974,1983,1990），沃尔夫奖（2022）。值得一提的是，Lusztig的第二任（现任）夫人李工勤博士，是李国平院士（中国函数论奠基人）的幼女。

法官开始大动肝火，命令把全体裁判员关押起来，“不给肉，不给水，不让烤火，不让抽烟”，直到他们给出“庭上所能接受的判决”。这惹恼了全体裁判员，在被扣押两天两夜之后，他们一致做出了无罪判决。

这就是著名的布舍尔案判决。今天在布舍尔裁判团曾进行抗争的老贝利法庭（Old Bailey）外面立着一块碑，以纪念这个划时代的事件和这些勇敢的普通民众。

布舍尔案判决确立了这样一个从11世纪以来一直在司法实践中通行但却从未明确宣示的原则，即裁判团的裁决高于任何现行法律。这给了普通百姓一件强有力的武器以对抗政府的强权和体制的不公正。

https://www.zhihu.com/question/29907251

如何评价美国的陪审团制度？

1945年，美国打算用600辆卡车将整个蔡司搬迁到西德，但苏联同样也瞄准了蔡司，因此美国只好用两辆卡车带走了愿意走的45个技术人员，然后在西德成立了西德蔡司。

柏林墙倒塌时，东德蔡司有员工近7万人，其中一线员工不足1万，行政员工竟然高达6万。

艾琳皇后在798年或802年送给查理曼大帝总共八根王冠刺，由他存放在亚琛教堂，这八根刺在未来也成了查理曼自称西罗马正统的法统基础。

百年战争打的如火如荼的时候，法国王子让·贝里公爵和英国人谈判休战，唯利是图英国人一张口就索要大量的赔偿费，让贝里王子说能不能用荆棘王冠上的一根刺代替？英国人欣喜若狂如获至宝立刻同意了，这颗刺还在大英博物馆收藏的圣荆棘匣里。

根特市发生了干旱，出现饥荒，政府的救济粮不够，于是法王给当地的圣迈克尔教堂送了一根刺，立刻四面八方的朝见费赎罪费把根特的仓库塞的满满当当。

您的打赏，是对我的鼓励

Attention » Attention（九）——Attention进阶, Transformer进阶

Attention进阶（续）

Transformer进阶

欧洲+

Recent Posts in Attention

Recent Posts in All Blogs