Antkillerfarm Hacking V8.0

Attention » Large Language Model（三）——LLAMA, Chinchilla Law, MoE

2024-03-23 :: 5434 Words

LLM大乱战（续）
LLAMA
- GEMMA
- Llama 3
- GPT-J
LLM应用
Chinchilla Law
MoE

LLM大乱战（续）

数据泄露（data contamination）在大模型时代可以说是极难避免的。随着大模型训练数据规模的扩大，保证训练数据与常用benchmark之间没有重叠变得几乎不可能。

https://zhuanlan.zhihu.com/p/665426752

大模型是如何在评测中“作弊”的？

当年华为自己没有靠谱的团队，外包给别人训练了盘古。

现在当年训练盘古的人出来做自己的模型，这个模型就是KIMI。

去查下循环智能就知道了，盘古算是华为委托他们做的，ChatGPT火了之后，杨植麟把循环智能的人拉出来成立的moonshot。

此前就一直传闻张予彤在月之暗面的融资过程中“帮了不少忙”，收了不少融资费用，更有甚者直接点破，说kimi就是一个夫妻店。

中国模型4小龙：deepseek，qwen，豆包，kimi。

“大模型六小虎”（月之暗面、百川智能、智谱AI、零一万物、MiniMax、阶跃星辰）

“杭州六小龙”，指的是“游戏科学、深度求索、宇树科技、云深处科技、强脑科技和群核科技”这六家近期崛起于杭州，处于技术前沿、深具行业影响力的科企。

https://www.zhihu.com/question/654072307

如何看待月之暗面创始人杨植麟减股套现千万美金？

https://zhuanlan.zhihu.com/p/19272031682

DeepSeek创始人梁文锋

DeepSeek估值时，对标的是OpenAI，其估值区间被估算在10亿美元至1500亿美元之间。

根据“路边消息社”报道，现在想约见梁文锋，需要先报省委办公厅。一般人见不到梁文锋。网上还传出了“大年三十特警陪同回家，村口警察巡逻”的消息。

大模型开源有几个等级，开源程度从低到高：

仅模型开源（技术报告只列举了Evaluation）。主要利好做应用的公司（继续训练和微调）和普通用户（直接部署）技术报告开源训练过程。
比较详尽的描述了模型训练的关键细节。利好算法研究。训练代码开源/技术报告开源全部细节。
包含了数据配比的核心关键信息。这些信息价值连城，是原本需要耗费很多GPU资源才能得到的Know-how。
全量训练数据开源。其他有算力资源的团队可以基于训练数据和代码完全复现该模型。训练数据可以说是大模型团队最核心的资产。数据清洗框架和流程开源。
从源头的原始数据（比如 CC 网页、PDF 电子书等）到可训练的数据的清洗过程也开源，其他团队不仅可以基于此清洗框架复现数据预处理过程，还可以通过搜集更多的源（比如基于搜索引擎抓取的全量网页）来扩展自己的数据规模，得到比原始模型更强的基座模型。

实际上大部分的模型开源诸如LLaMa2、Mistral、Qwen等，只做到Level-1，像DeepSeek这样的可以做到Level-2。而Level-4及以上的开源一个都没有。

LLM时代的典型特征：学习速度跟不上知识的更新速度（下载速度跟不上模型的开源速度）。

参考：

https://www.zhihu.com/question/584132646

中国的大语言模型“悟道2.0”参数是GPT-3十倍，是否中国在大语言模型训练技术上已经远远超过美国？

https://zhuanlan.zhihu.com/p/463352552

稀疏性在机器学习中的发展趋势——Sparsity，稀疏激活，高效计算，MoE，稀疏注意力机制

https://zhuanlan.zhihu.com/p/254821426

乘风破浪的PTM：两年来预训练模型的技术进展（2020年之前的主流技术）

https://zhuanlan.zhihu.com/p/597586623

通向AGI之路：大型语言模型（LLM）技术精要

https://mp.weixin.qq.com/s/eV_9Mi2879w_gfoyiSm8Ug

LLM全景图（The Landscape of LLM）

https://www.zhihu.com/question/604592470

前两个月国产类ChatGPT大模型如雨后春笋，为何最近都没声音了?

https://mp.weixin.qq.com/s/oqhi58NcEVH1oVrW2p4xlQ

大模型参数高效微调技术原理综述（一）-背景、参数高效微调简介

https://mp.weixin.qq.com/s/fUAUr9X3XLndfjga2QIHbA

大模型参数高效微调技术原理综述（二）-BitFit、Prefix Tuning、Prompt Tuning

https://mp.weixin.qq.com/s/f4l04f78F507JRrCawnV8w

大模型参数高效微调技术原理综述（三）-P-Tuning、P-Tuning v2

https://mp.weixin.qq.com/s/nUAcCz6mcgGuUeuTfgqmOQ

大模型参数高效微调技术原理综述（四）-Adapter Tuning及其变体

https://mp.weixin.qq.com/s/N_N6RqKB9pjZ1tozfM5f5A

大模型参数高效微调技术原理综述（五）-LoRA、AdaLoRA、QLoRA

https://mp.weixin.qq.com/s/M2nds_FJBXooi08qDU-4yA

大模型参数高效微调技术原理综述（六）-MAM Adapter、UniPELT

https://mp.weixin.qq.com/s/P_AmTa4s8dOyc_0fZBgNPA

大模型参数高效微调技术原理综述（七）-最佳实践、总结

https://zhuanlan.zhihu.com/p/618695885

LLaMA, Alpaca, ColossalChat系列模型研究

https://zhuanlan.zhihu.com/p/638809556

大模型高效微调综述上：Adapter Tuning、AdaMix、PET、Prefix-Tuning、Prompt Tuning、P-tuning、P-tuning v2

https://zhuanlan.zhihu.com/p/651564985

主流大语言模型从预训练到微调的技术原理

LLAMA

代码：

https://github.com/facebookresearch/llama

有用的LLAMA模型：

https://huggingface.co/TheBloke/Llama-2-7B-Chat-GPTQ

https://huggingface.co/Trelis/Llama-2-7b-chat-hf-sharded-bf16

Inference：

https://clay-atlas.com/blog/2023/09/21/huggingface-transformers-streaming/

使用HuggingFace Transformer中的TextStreamer和TextIteratorStreamer來實現串流式（stream）輸出生成token

各类开源LLM打榜：

https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

参考：

https://github.com/jacoblee93/fully-local-pdf-chatbot

一个本地版本的阅读PDF的chatbot

https://s-tm.cn/2023/06/10/SaveModelSharding/

使用HuggingFace transformers进行模型分片存储

https://www.zhihu.com/question/653373334

如何看待Meta发布Llama3，并将推出400B+版本？

https://mp.weixin.qq.com/s/VU_qUQEjqUNHd0UK6RLM9g

一文带你了解LLAMA（羊驼）系列

GEMMA

官网：

https://www.kaggle.com/models/google/gemma

Llama 3

llama 3是Meta于2024年发布的LLM。

论文：

《The Llama 3 Herd of Models》

本论文发布于2024.7，它实际上是Llama 3.1的技术报告。

https://blog.csdn.net/v_JULY_v/article/details/140659420

一文速览Llama 3.1——对其92页paper的全面细致解读：涵盖语言、视觉、语音的架构、原理

GPT-J

GPT-J是一个由EleutherAI开发的自然语言处理（NLP）模型，基于GPT-3的架构，拥有6B个参数。它在800GB的开源文本数据集上进行训练，具有强大的语言生成和理解能力。

LLM应用

大语言模型参与的芯片前端设计迭代流程

https://zhuanlan.zhihu.com/p/1917883331829273687

Devin炮轰Claude：别再搞Multi-Agent了

MCP（Model Context Protocol）由Anthropic于2024年11月推出，是一个开放标准协议，用于统一大模型与外部工具、数据源之间的交互方式。

https://zhuanlan.zhihu.com/p/1895177200665350365

大白话聊一聊Tool、MCP和Agent来龙去脉

Chinchilla Law

最为知名的规模定律包括“Kaplan定律”和“Chinchilla定律”。

Kaplan定律指出，在固定计算量的前提下，扩大模型规模通常比增加数据量更为有效；

而Chinchilla定律则认为，模型规模和数据量同样重要。

DeepMind研究了在给定算力预算下训练Transformer语言模型的最佳模型大小和tokens数量。

在LLaMA-1预训练时候，从各种开源数据集，凑够了1.4T的tokens。按照Chinchilla Law，应该使用1,400B (1.4T) tokens来训练参数量大小为70B的LLM最佳。即：每个参数需要大约20个文本token。

https://zhuanlan.zhihu.com/p/627821763

训练LLM需要多少数据？

https://www.zhihu.com/question/628395521

如何看待微软论文声称ChatGPT是20B(200亿)参数量的模型？

6B模型可以在在12/16/24G显存的消费级显卡部署和训练。如果一个公司的模型不打算在消费级显卡部署，通常不会训6B这个规模。而且通常还会有一个1.4b或者2.8b，这个是比较适合在手机、车载端量化部署的尺寸。

13B模型按照4k长度组织数据，数据并行=2，刚好占满一个8卡机，并且可以量化部署在A10甚至4090。

下一档也不是130B，目前更大模型有16B、34B、52B、56B、65B、70B、100B、130B、170B、220B这几个规模，基本都是刚好占满某种规格的算力，要么是训练要么是推理。如果需要加快训练速度，只需要倍增卡数即可。比如我们训7B模型以8卡为单位，8x8卡训，70B模型以80卡为单位，80x6卡训。

https://www.zhihu.com/question/627258986

现在LLM的大小为什都设计成6/7B、13B和130B几个档次？

Meta在LLaMA的观点是：给定模型的目标性能，并不需要用最优的计算效率在最快时间训练好模型，而应该在更大规模的数据上，训练一个相对更小模型，这样的模型在推理阶段的成本更低，尽管训练阶段的效率不是最优的（同样的算力其实能获得更优的模型，但是模型尺寸也会更大）。

就算GPU管够，大模型一次训练也依然耗时巨大，而能够决定模型最终效果的环节非常多，所以合理的做法是先通过训小参数的Draft模型进行调试，跑通并打磨整个链路，等到都弄好之后再往上扩大参数量，逐级扩增——这是Scaling Law的基本玩法。

https://zhuanlan.zhihu.com/p/667489780

解析大模型中的Scaling Law

当batch size较小时，更新方向（即对真实梯度的近似）会具有很高的方差，导致的梯度更新主要是噪声。

当batch size非常大时，我们从训练数据中抽样的任何两组数据都会非常相似（因为它们几乎完全匹配真实梯度）。

所以就有了Gradient Noise Scale Law。

https://zhuanlan.zhihu.com/p/666997679

大Batch训练LLM探索

MoE

Mixture of Experts(MoE)

挑出模长最大的k个向量来逼近n个向量之和：模长越大的向量，在求和过程中越不容易被抵消，从而作用越突出。

https://kexue.fm/archives/10699

MoE环游记：从几何意义出发

开源项目：

https://github.com/XueFuzhao/OpenMoE

https://github.com/laekov/fastmoe

您的打赏，是对我的鼓励