大模型定义
- 大模型是指具有非常大的参数数量的人工神经网络模型.
- 大模型通常用于解决复杂的自然语言处理、计算机视觉和语音识别等任务。这些任务通常需要处理大量的输入数据,并从中提取复杂的特征和模式.
- 2021年8月份,李飞飞和100多位学者联名发表一份200多页的研究报告《On the Opportunities and Risk of Foundation Models》,将大模型统一命名为Foundation Models(基础模型),肯定了Foundation Models对智能体基本认知能力的推动作用,同时也指出大模型呈现出「涌现」与「同质化」的特性
大模型的好处
- 模型通用性方面,可以做到一个模型适配上百种缺特性,替代原有多个小模型,(a)减少了模型开发维护成本,(b)提升了模型的精度
- 数据训练方面,利用海量数据进行预训练,结合少量标注样本进行微调,(a)极大提升样本筛选效率约,(b)大大节省人工标注时间
大模型基础结构
Transformer
Transformer结构使得模型突破到上亿参数量
- 论文 Attention is All You Need 的 Transformer 结构开启了大模型大门
- Transformer 开创了继 MLP 、CNN和 RNN之后的第四大类模型
- 基于Transformer结构的模型又可以分为Encoder-only(Bert、RoBERTa等)、Decoder-only(GPT系列、LLaMA、OPT、Bloom等)、Encoder-Decoder(T5、BART、GLM等)这三类
MOE
Google Brain 设计的名叫「Switch Transformer」的简化稀疏架构(MOE),可以将语言模型的参数量扩展至 1.6 万亿
大模型训练方法
大模型训练方案总体分两步:
- 预训练大模型
- 下游任务微调
具体细节分为6步:
- 选择LLM基座和对应参数规模
- 执行SFT(监督指令微调),简单微调LLM模型
- 评估更新后的LLM效果,可借用业界自动评估工具或人工抽样评估
- 效果还不达标?两条路:扩大基座参数规模、继续走第2,3步
- 奖励模型(Reward Model)训练
- 强化学习训练:PPO、PPO_ptx
基座模型
Meta
- LLaMA: Open and Efficient Foundation Language Models
- OPT: Open Pre-trained Transformer Language Models
- T5: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
- mT5: A Massively Multilingual Pre-trained Text-to-Text Transformer
- UL2 and Flan-UL2: Unifying Language Learning Paradigms
EleutherAI
- GPT-NEO
- GPT-NeoX
OpenAI
- InstructGPT/ChatGPT: Training language models to follow instructions with human feedback 为指导
基座训练框架
以 Pytorch 为基础
- 英伟达的GPU+微软的DeepSpeed
以 Tensorflow 为基础
- Google的TPU+Tensorflow
以 MindSpore 为基础
- 华为昇腾Atlas800+MindSpore
大模型评估方法
- 人工评估:LIMA、Phoenix
- 使用 GPT-4 的反馈进行自动评估:Vicuna、Phoenix、Chimera、BELLE
- 指标评估(BLEU-4、ROUGE分数):ChatGLM-6B;对于像ROUGE-L分数的指标评估,有些地方称其为非自然指令评估(Unnatural Instruction Evaluation)
大模型评估工具
- Open AI evals