多模态大模型：算法、应用与微调

刘兆峰

扉页
版权信息
+书签
内容简介
前言
第一篇算法原理
第1章 Transformer模型
1.1 Seq2Seq结构
1.1.1 分词器
1.1.2 编码器-解码器结构
1.1.3 注意力机制
1.1.4 实战：日期转换
1.2 Transformer模型介绍
1.2.1 位置编码
1.2.2 模型架构
1.2.3 标准化和残差连接
1.2.4 线性层和softmax层
1.2.5 损失函数
1.2.6 实战：日期转换
1.2.7 小结
1.3 ViT模型介绍
1.3.1 注意力机制在图像上的应用
1.3.2 ViT模型架构
1.3.3 大数据预训练
1.3.4 ViT模型训练实践
1.4 本章总结
第2章 GPT系列模型
2.1 GPT-1
2.1.1 语言模型
2.1.2 训练框架
2.1.3 模型效果分析
2.2 GPT-2
2.2.1 模型架构分析
2.2.2 构造训练数据集
2.2.3 模型效果分析
2.3 GPT-3
2.3.1 上下文学习
2.3.2 构造训练数据集
2.3.3 训练停止判定
2.3.4 重要潜力
2.4 GPT-3.5
2.4.1 代码生成模型Codex
2.4.2 强化学习
2.4.3 ChatGPT的“孪生兄弟”：InstructGPT
2.4.4 RLAIF
2.5 GPT-4
2.5.1 GPT-4的非凡表现
2.5.2 基于规则的奖励模型
2.5.3 多模态架构
2.5.4 训练流程
2.5.5 局限性
2.6 语言模型的未来
2.6.1 自我学习与自我核实
2.6.2 稀疏专家模型
2.7 GPT系列的其他应用
2.7.1 MiniGPT-4
2.7.2 minGPT与nanoGPT
2.7.3 AutoGPT与AgentGPT
2.8 本章总结
第3章深度生成模型
3.1 从自编码器到变分自编码器
3.1.1 自编码器
3.1.2 变分自编码器
3.2 生成对抗网络
3.2.1 网络架构
3.2.2 算法描述
3.2.3 实战：手写数字图像生成
3.2.4 衍生应用
3.3 文本与图像的桥梁：CLIP
3.3.1 介绍
3.3.2 训练与推理
3.3.3 实战：图像文本匹配
3.3.4 CLIP的局限性
3.4 稳定扩散模型：Stable Diffusion
3.4.1 基本组件
3.4.2 扩散原理
3.4.3 数据集构建
3.4.4 流程梳理
3.4.5 实战：图像生成
3.4.6 Stable Diffusion升级
3.5 本章总结
第4章预训练模型
4.1 大模型的涌现能力
4.1.1 缩放法则
4.1.2 涌现能力
4.2 模型参数量估算
4.3 通信数据量分析
4.3.1 点对点通信
4.3.2 集群通信
4.4 分布式训练
4.4.1 基本概念
4.4.2 数据并行
4.4.3 模型并行
4.4.4 混合并行
4.4.5 混合精度训练
4.5 DeepSpeed
4.5.1 ZeRO
4.5.2 ZeRO-Offload
4.5.3 ZeRO-Infinity
4.6 模型即服务平台
4.6.1 ModelScope
4.6.2 Hugging Face
4.7 本章总结
第二篇应用实战
第5章文本生成应用实战：利用ChatPDF与文件对话
5.1 大模型的落地应用
5.1.1 外部增强：领域工具增强
5.1.2 提示词工程
5.1.3 模型微调
5.2 GLM系列模型
5.2.1 GLM与GLM-130B
5.2.2 ChatGLM、ChatGLM-6B和ChatGLM2-6B
5.2.3 ChatGLM与ChatGPT的区别
5.3 参数高效微调
5.3.1 Adapter Tuning
5.3.2 Prompt Tuning
5.3.3 Prefix-Tuning
5.3.4 P-Tuning
5.3.5 P-Tuning v2
5.3.6 ChatGLM2-6B的P-Tuning v2微调
5.4 大语言模型应用框架：LangChain
5.4.1 快速开始
5.4.2 基本概念
5.5 ChatGLM金融大模型挑战赛
5.5.1 任务目标
5.5.2 环境准备：SQLite
5.5.3 问题分析
5.5.4 NL2SQL
5.5.5 DocTree
5.5.6 集成
5.6 本章总结
第6章文本生成算法实战：DeepSpeed-Chat
6.1 ZeRO++
6.1.1 权重量化
6.1.2 分层切片
6.1.3 梯度量化
6.1.4 ZeRO++与DeepSpeed-Chat结合
6.2 DeepSpeed-Chat快速开始
6.3 DeepSpeed-Chat的RLHF训练
6.3.1 数据收集与整理
6.3.2 有监督微调
6.3.3 奖励模型微调
6.3.4 RLHF微调
6.3.5 模型部署与测试
6.4 DeepSpeed混合引擎
6.5 本章总结
第7章图像生成算法实战：Stable Diffusion微调
7.1 LoRA参数高效微调技术
7.1.1 奇异值分解
7.1.2 LoRA详解
7.2 用于Diffusers的LoRA微调
7.2.1 数据收集
7.2.2 训练参数配置
7.2.3 模型训练与测试
7.3 Stable Diffusion WebUI
7.3.1 安装
7.3.2 模型介绍
7.3.3 参数介绍
7.3.4 其他应用
7.4 可控扩散模型：ControlNet
7.4.1 原理介绍
7.4.2 安装插件并使用
7.5 本章总结
第8章代码生成算法实战：Code Llama微调
8.1 任务介绍
8.1.1 代码生成模型的应用场景
8.1.2 相关模型介绍
8.1.3 常用代码数据集
8.2 Llama 2
8.2.1 模型介绍
8.2.2 预训练
8.2.3 有监督微调
8.2.4 奖励模型训练
8.2.5 迭代微调
8.2.6 多轮对话一致性
8.3 算法竞赛大语言模型
8.3.1 数据获取
8.3.2 数据清洗
8.3.3 text-dedup
8.3.4 模型训练
8.4 本章总结
第9章综合应用实战：构建“漫画家”生成多模态漫画
9.1 应用介绍
9.1.1 需求分析
9.1.2 功能设计
9.2 功能实现选型
9.2.1 相关AI模型
9.2.2 后端技术栈
9.2.3 小结
9.3 相关模型部署
9.3.1 Stable Diffusion WebUI部署
9.3.2 语音识别模型：Whisper
9.3.3 语音合成模型：Sambert-Hifigan
9.4 后端应用搭建
9.4.1 创建项目
9.4.2 配置应用
9.4.3 基本功能开发
9.5 本章总结
作者简介
文后

简介

版权

多模态大模型：算法、应用与微调