AI 基础 | 2026年3月10日 | 约 6 分钟 | 2,069 字

GPT 系列模型发展史

回顾 GPT 从 GPT-1 到 GPT-4 的发展历程，了解大语言模型的演进

AI 基础 GPT 大语言模型

GPT 系列概览

版本	发布时间	参数量	特点
GPT-1	2018	1.17 亿	开创性
GPT-2	2019	15 亿	零样本学习
GPT-3	2020	1750 亿	提示工程
GPT-3.5	2022	1750 亿	RLHF + ChatGPT
GPT-4	2023	约 1.7 万亿	多模态 + 推理

GPT-1 (2018)

论文: “Improving Language Understanding by Generative Pre-Training”

核心贡献

首次提出”预训练 + 微调”范式
使用无监督预训练 + 有监督微调
在多项 NLP 任务上取得 SOTA

架构

12 层 Transformer 解码器
1.17 亿参数
训练数据：BooksCorpus（5000 MB）

意义

证明了大规模无监督预训练的有效性。

GPT-2 (2019)

论文: “Language Models are Unsupervised Multitask Learners”

核心贡献

展示零样本学习能力
模型足够大时，能在未见过任务上直接推理
引发关于 AI 安全的讨论（最初不敢发布完整模型）

架构

48 层 Transformer
15 亿参数
训练数据：WebText（800 万文档，约 40GB）

关键洞察

参数量跨过某个阈值后，突然涌现能力
语言模型可以成为通用任务求解器

GPT-3 (2020)

论文: “Language Models are Few-Shot Learners”

核心贡献

少样本学习（Few-Shot）能力
不需要微调，给几个示例就能完成任务
上下文学习能力

架构

96 层 Transformer
1750 亿参数
训练数据：Common Crawl + WebText2 + Books + Wikipedia（约 570GB）

API 能力

零样本: 仅给任务描述
少样本: 给 1-10 个示例
一样本: 给 1 个示例

成本

训练费用：约 1200 万美元
推理成本仍然很高

GPT-3.5 + ChatGPT (2022)

训练方式：RLHF

SFT (有监督微调): 用人类标注的对话数据微调
奖励模型: 训练一个奖励模型评估回答质量
PPO 算法: 用强化学习优化模型输出

ChatGPT 特性

对话友好
承认不知道
拒绝不当请求
支持多轮对话

开放 API

2022 年 11 月 ChatGPT 发布
2023 年 3 月开放 API

GPT-4 (2023)

主要升级

多模态：支持图像输入
推理能力：显著提升复杂推理
更长上下文：32K / 128K token
指令遵循：更可靠地执行复杂指令
安全性：更少的幻觉和有害输出

技术细节（推测）

专家混合架构 (MoE)
约 1.7 万亿参数
16 位专家，每层约 2 位专家激活

能力涌现

思维链推理
复杂任务规划
代码调试
多语言能力

发展趋势

1. 多模态

GPT-4V → 图像理解
Sora → 视频生成
GPT-4o → 实时语音/视频

2. 长上下文

128K → 1M+ token
书籍级理解

3. 工具使用

调用函数
浏览器/代码执行
自主规划

4. Agent 能力

多步任务规划
自我反思修正
长期记忆

对开发者的意义

提示工程变得更重要：同样模型，好提示 vs 差提示差距巨大
组合使用：根据任务选择合适的模型
工程能力：RAG、Agent、工具调用
成本意识：选择合适的模型和优化调用方式

总结

GPT 系列展示了 AI 发展的加速趋势：

从 1 亿 → 1.7 万亿参数
从微调到零样本/少样本
从纯文本到多模态
从问答到 Agent

理解这段历史，有助于把握 AI 发展的脉络和未来方向。

评论

加载中...

相关文章

OpenAI 模型全景：GPT-4o、o1 到 o3

梳理 OpenAI 模型线的演进，理解推理模型 vs 通用模型的区别

AI Agent 是什么：从概念到架构

理解 AI Agent 的核心概念、ReAct 模式、工具调用、记忆机制

AI 偏见与公平性：开发者需要知道的

识别和缓解 AI 系统中的偏见，包括数据偏见、算法偏见和评估方法

分享：

评论

加载中...