AI 基础 | | 约 6 分钟 | 2,069 字

GPT 系列模型发展史

回顾 GPT 从 GPT-1 到 GPT-4 的发展历程,了解大语言模型的演进

GPT 系列概览

版本发布时间参数量特点
GPT-120181.17 亿开创性
GPT-2201915 亿零样本学习
GPT-320201750 亿提示工程
GPT-3.520221750 亿RLHF + ChatGPT
GPT-42023约 1.7 万亿多模态 + 推理

GPT-1 (2018)

论文: “Improving Language Understanding by Generative Pre-Training”

核心贡献

  • 首次提出”预训练 + 微调”范式
  • 使用无监督预训练 + 有监督微调
  • 在多项 NLP 任务上取得 SOTA

架构

  • 12 层 Transformer 解码器
  • 1.17 亿参数
  • 训练数据:BooksCorpus(5000 MB)

意义

证明了大规模无监督预训练的有效性。


GPT-2 (2019)

论文: “Language Models are Unsupervised Multitask Learners”

核心贡献

  • 展示零样本学习能力
  • 模型足够大时,能在未见过任务上直接推理
  • 引发关于 AI 安全的讨论(最初不敢发布完整模型)

架构

  • 48 层 Transformer
  • 15 亿参数
  • 训练数据:WebText(800 万文档,约 40GB)

关键洞察

  • 参数量跨过某个阈值后,突然涌现能力
  • 语言模型可以成为通用任务求解器

GPT-3 (2020)

论文: “Language Models are Few-Shot Learners”

核心贡献

  • 少样本学习(Few-Shot)能力
  • 不需要微调,给几个示例就能完成任务
  • 上下文学习能力

架构

  • 96 层 Transformer
  • 1750 亿参数
  • 训练数据:Common Crawl + WebText2 + Books + Wikipedia(约 570GB)

API 能力

  • 零样本: 仅给任务描述
  • 少样本: 给 1-10 个示例
  • 一样本: 给 1 个示例

成本

  • 训练费用:约 1200 万美元
  • 推理成本仍然很高

GPT-3.5 + ChatGPT (2022)

训练方式:RLHF

  1. SFT (有监督微调): 用人类标注的对话数据微调
  2. 奖励模型: 训练一个奖励模型评估回答质量
  3. PPO 算法: 用强化学习优化模型输出

ChatGPT 特性

  • 对话友好
  • 承认不知道
  • 拒绝不当请求
  • 支持多轮对话

开放 API

  • 2022 年 11 月 ChatGPT 发布
  • 2023 年 3 月开放 API

GPT-4 (2023)

主要升级

  1. 多模态:支持图像输入
  2. 推理能力:显著提升复杂推理
  3. 更长上下文:32K / 128K token
  4. 指令遵循:更可靠地执行复杂指令
  5. 安全性:更少的幻觉和有害输出

技术细节(推测)

  • 专家混合架构 (MoE)
  • 约 1.7 万亿参数
  • 16 位专家,每层约 2 位专家激活

能力涌现

  • 思维链推理
  • 复杂任务规划
  • 代码调试
  • 多语言能力

发展趋势

1. 多模态

  • GPT-4V → 图像理解
  • Sora → 视频生成
  • GPT-4o → 实时语音/视频

2. 长上下文

  • 128K → 1M+ token
  • 书籍级理解

3. 工具使用

  • 调用函数
  • 浏览器/代码执行
  • 自主规划

4. Agent 能力

  • 多步任务规划
  • 自我反思修正
  • 长期记忆

对开发者的意义

  1. 提示工程变得更重要:同样模型,好提示 vs 差提示差距巨大
  2. 组合使用:根据任务选择合适的模型
  3. 工程能力:RAG、Agent、工具调用
  4. 成本意识:选择合适的模型和优化调用方式

总结

GPT 系列展示了 AI 发展的加速趋势:

  • 从 1 亿 → 1.7 万亿参数
  • 从微调到零样本/少样本
  • 从纯文本到多模态
  • 从问答到 Agent

理解这段历史,有助于把握 AI 发展的脉络和未来方向。

评论

加载中...

相关文章

分享:

评论

加载中...