来自:知乎,作者:陈巍
链接:https://zhuanlan.zhihu.com/p/590655677
去年12月1日,OpenAI推出人工智能聊天原型ChatGPT,再次赚足眼球,为AI界引发了类似AIGC让艺术家失业的大讨论。
一、ChatGPT的传承与特点
▌1.1 OpenAI家族
GPT家族主要模型对比
▌1.2 ChatGPT的主要特点
ChatGPT的主要特点
查询通过适度 API 进行过滤,并驳回潜在的种族主义或性别歧视提示。
二、ChatGPT/GPT的原理
▌2.1 NLP
▌2.2 GPT v.s. BERT
三、ChatGPT的技术架构
▌3.1 GPT家族的演进
ChatGPT与GPT 1-3的技术对比
▌3.2 人类反馈强化学习
真实性:是虚假信息还是误导性信息? 无害性:它是否对人或环境造成身体或精神上的伤害? 有用性:它是否解决了用户的任务?
▌3.3 TAMER框架
▌3.4 ChatGPT的训练
如果我们不断重复第二和第三阶段,通过迭代,会训练出更高质量的ChatGPT模型。
四、ChatGPT的局限
只要用户输入问题,ChatGPT 就能给予回答,是否意味着我们不用再拿关键词去喂 Google或百度,就能立即获得想要的答案呢?
那我们是该相信ChatGPT的结果还是不相信呢?
五、ChatGPT的未来改进方向
▌5.1 减少人类反馈的RLAIF
▌5.2 补足数理短板
▌5.3 ChatGPT的小型化
SparseGPT 压缩流程
六、ChatGPT的产业未来与投资机会
▌6.1 AIGC
▌6.2 受益场景
大模型呈爆发态势(更多的参数/更大的算力芯片需求)
参考文献:
ChatGPT: Optimizing Language Models for Dialogue ChatGPT: Optimizing Language Models for Dialogue
GPT论文:Language Models are Few-Shot Learners Language Models are Few-Shot Learners
InstructGPT论文:Training language models to follow instructions with human feedback Training language models to follow instructions with human feedback
huggingface解读RHLF算法:Illustrating Reinforcement Learning from Human Feedback (RLHF) Illustrating Reinforcement Learning from Human Feedback (RLHF)
RHLF算法论文:Augmenting Reinforcement Learning with Human Feedback cs.utexas.edu/~ai-lab/p
TAMER框架论文:Interactively Shaping Agents via Human Reinforcement cs.utexas.edu/~bradknox
PPO算法:Proximal Policy Optimization Algorithms Proximal Policy Optimization Algorithms