2023年11月28日发(作者:东风本田crv2019款报价及图片)

研究报告Research Report

16 Dec 2022

中国汽车 China Automobiles

OpenAI发布AI对话模型ChatGPT,开启生成式AI商业化新机遇

OpenAI Releases Language Model ChatGPT, Opening New Opportunities for AIGC to Commercialize

[Table_Info]

股票名称 评级 目标价

比亚迪

长安汽车

赛力斯

伯特利

江淮汽车

HAI China AutomobilesMSCI China

Outperform 309.80 56 38

Outperform 11.58 17 n.a.

Outperform 75.25 n.a. 707

Outperform 31.25 n.a. 80

Outperform 13.90 81 n.a.

市盈率P/E

2022E 2023E

(Please see APPENDIX 1 for English summary)

事件

当地时间1130日,美国人工智能公司OpenAI发布全新产品

ChatGPT,一款基于GPT-3.5的免费对话模型。公司CEO Sam Altman

透露上线五天该模型的全球用户数量已突破百万。

兼具理解力、创造力和记忆力,ChatGPT对话模型出圈作为一

款生成式人工智能模型,ChatGPT的主要功能是与用户进行自然语

言的交互,即与用户对话。据OpenAI官网介绍,ChatGPT在与用户

展开对话的过程中能够回答后续问题,承认自己的错误,质疑不

正确的前提,并拒绝不适当的请求。相较苹果Siri、微软小冰等AI

服务,ChatGPT最大的亮点之一在于它可以理解用户需求并创造内

容、协助代码编写、能够针对用户的追问在后续对话中进行修正或

补充。除了逻辑严密的创造能力之外,ChatGPT具有记忆能力,在

连续的对话中无需用户提供重复信息,其语言组织和表达能力也更

接近人类水平,使对话更自然流畅。目前的ChatGPT局限性也较为

明显,官网提示无法保证ChatGPT生成内容的准确性,此外部分创

作内容或涉及版权问题。

仰赖大训练规模和强化学习算法,资本注血充沛。ChatGPT的研发

公司OpenAI2015年成立,2018年发布生成式预训练Transform

模型GPT-1,随后于2019年和2020年分别优化推出GPT-2GPT-

3。训练参数方面,GPT-3GPT11.17亿提升至1,750亿,公司

通过提升训练语料的规模和质量实现GPT系列迭代,而ChatGPT

脱胎于GPT-3.5,其训练参数规模较前代GPT-3又提升了一个数量

级,功能更为强大。据悉,OpenAI正在开发的GPT-4模型训练规模

或达100万亿。算法模型方面,本次OpenAI引入的人工标注数据

PPO强化学习算法能够结合参数庞大的相关性模型与人类反馈,

在与人类互动中通过反馈来强化学习。换言之,用户给予的反馈越

多,ChatGPT就会被打磨得越好,这也是ChatGPT采取免费试用

策略的原因。资本和商业化方面,20197月公司与微软达成合作

协议,获得微软注资10亿美元同时向微软开放部分技术商业化权

限。追求高技术的OpenAI不仅获得了雄厚的研发资本,与微软的

合作也为之提供了商业化土壤。以GPT-3为例,微软官网宣布采用

GPT-3模型赋能内部商业产品Azure,服务企业用户。

不破不立,AI生成内容商业化前景广阔。OpenAI今年发布的人

工智能图像生成器DALL-E2之后,ChatGPT的推出再次拓展了生成

AI的商业化想象空间,也挑战了现有的商业逻辑。人工智能生成

内容将刺激AI生成文本、图像、视频、代码等C端需求,也启发了

诸如GPT-3在微软内部商业化落地服务企业的B端业务可能。

115

100

85

70

55

Dec-21Mar-22Jun-22Sep-22Dec-22

资料来源: Factset, HTI

Related Reports

特斯拉全系国产车型降价,有望垂直延伸市场份额(Tesla cuts starting

prices for China-made models to boost Q4 demand (25 Oct 2022)

英伟达发布车芯Thor,引领汽车智能芯片革新浪潮(Nvidia Releases Drive

Thor, One Chip to Rule All Software-Defined Vehicles (21 Sep 2022)

2022华为秋季新品发布会:问界M5 EV全面对标特斯拉Model Y,鸿蒙生

态全场景覆盖智慧生活(Huawei-backed AITO launches first all-electric

model M5 EV to take on Tesla Model Y (7 Sep 2022)

[Table_Author]

Barney Yao

************************

除此之外,类似ChatGPT的智能模型或会对搜索引擎产生一定替代。彭博指出

ChatGPT用户可以在对话中直接得到想要了解的资讯,这一新型交互形态可能会冲

击现有的搜索引擎广告业务。我们认为,ChatGPT的发布为AI生成内容产业链提供

了较多市场机遇,增加上下游需求,同时对现有商业规则的冲击也值得关注。

风险提示

AI生成内容法律法规不健全,模型开发不及预期,商业化进程不及预期等。

ChatGPT的训练步骤合称为RLHF技术

ChatGPT训练过程主要分为三个步骤。

第一步,使用有监督学习方式,基于GPT3.5微调训练一个初始模型,训练数据

约为2w~3w量级(此处为推测量级,我们根据兄弟模型InstructGPT的训练数据量

级估算)。由标注师分别扮演用户和聊天机器人,产生人工精标的多轮对话数据。

值得注意的是,在人类扮演聊天机器人时,会得到机器生成的一些建议来帮助人类

撰写自己的回复,以此提高撰写标注效率。以上精标的训练数据虽然数据量不大,

但质量和多样性很高,且来自真实世界数据。

第二步,收集相同上文下,根据回复质量进行排序的数据,即随机抽取一大批

Prompt,使用第一阶段微调模型,产生多个不同回答,之后标注人员对k个结果排

序,形成多组训练数据对。之后使用pairwise loss来训练奖励模型,可以预测出标

注者更喜欢哪个输出。\"从比较中\"学习可以给出相对精确的奖励值,这一步使得

ChatGPT从命令驱动转向了意图驱动。另外,训练数据不需过多,维持在万量级即

可。因为它不需要穷尽所有的问题,只要告诉模型人类的喜好,强化模型意图驱动

的能力即可。

第三步,使用PPO强化学习策略来微调第一阶段的模型。核心思想是随机抽取

新的Prompt,用第二阶段的Reward Model给产生的回答打分。这个分数即回答的

整体奖励(reward),进而将此奖励回传,由此产生的策略梯度可以更新PPO模型

参数。整个过程迭代数次直到模型收敛。强化学习算法可以简单理解为通过调整模

型参数,使模型得到最大的奖励,最大奖励意味着此时的回复最符合人工的选择取

向。PPO2017OpenAI提出的一种新型的强化学习策略优化的算法。它提出了

新的目标函数,可以在多个训练步骤实现小批量的更新,特点在于实现简单、易于

理解、性能稳定、能同时处理离散/连续动作空间问题、利于大规模训练。

以上三个步骤即ChatGPT的训练过程,合称为Reinforcement Learning from

Human FeedbackRLHF)技术。

图表 1 ChatGPT的训练原理

资料来源:OpenAI,海通国际

ChatGPT的成功基于OpenAI的技术积累

ChatGPT成功的关键原因:1)强大的基座模型能力(InstructGPT);2)大参

数语言模型(GPT3.5);3)高质量的真实数据(精标的多轮对话数据和比较排序数

据);4)性能稳定的强化学习算法(PPO算法)

图表 2 不同大模型的数据集训练规模 图表 3 更大的模型能够更有效地利用上下文信息

资料来源:Medium,海通国际 资料来源:OpenAI,海通国际

ChatGPT能够实现当前的交互,离不开OpenAIAI预训练大模型领域的积累。

OpenAI最初提出的GPT1,采取的是生成式预训练Transform模型(一种采用自注意

力机制的深度学习模型),此后整个GPT系列都贯彻了这一谷歌2017年提出,经由

OpenAI改造的伟大创新范式。简要来说,GPT1的方法包含预训练和微调两个阶段,

预训练遵循的是语言模型的目标,微调过程遵循的是文本生成任务的目的。

2019年,OpenAI继续提出GPT-2,所适用的任务开始锁定在语言模型。GPT-2

拥有和GPT1一样的模型结构,但得益于更高的数据质量和更大的数据规模,GPT-2

有了惊人的生成能力,不过它在音乐和讲故事等专业领域的任务表现很不好。2020

年的GPT-3GPT模型提升到全新的高度,其训练参数是GPT-210倍以上,技术

路线上则去掉了初代GPT的微调步骤,直接输入自然语言当作指示,给GPT训练读

过文字和句子后可接续问题的能力,同时包含了更为广泛的主题。

现在的ChatGPT则是由效果比GPT-3更强大的GPT-3.5系列模型提供支持,这些

模型使用微软Azure AI超级计算基础设施上的文本和代码数据进行训练。具体来

说,ChatGPT在一个开源数据集上进行训练,训练参数也是前代GPT310倍以上,

还多引入了两项功能:人工标注数据和强化学习,实现了在与人类互动时从反馈中

强化学习。

也因此,我们得以看到一个强大的ChatGPT能理解人类不同指令的含义,会

甄别高水准答案,能处理多元化的主题任务,既可以回答用户后续问题,也可以质

疑错误问题和拒绝不适当的请求。当初,GPT-3只能预测给定单词串后面的文字,

ChatGPT可以用更接近人类的思考方式参与用户的查询过程,可以根据上下文和

语境,提供恰当的回答,并模拟多种人类情绪和语气,还改掉了GPT-3的回答中看

似通顺,但脱离实际的毛病。

不仅如此,ChatGPT能参与到更海量的话题中来,更好的进行连续对话,有上

佳的模仿能力,具备一定程度的逻辑和常识,在学术圈和科技圈人士看来时常显得

博学而专业,而这些都是GPT-3所无法达到的。尽管目前ChatGPT还存在很多语言

模型中常见的局限性和不准确问题,但毋庸置疑的是,其在语言识别、判断和交互

层面存在巨大优势

ChatGPT前代模型演变历程

2019GPT2出世后,OpenAI就尝试结合GPT-2和强化学习。NeurIPS 2020

Learning to Summarize with Human Feedback 工作中写道,OpenAI在摘要生成时,

利用了从人类反馈中的强化学习来训练。可以从这篇工作的整体流程图中,看出三

步走的核心思想:收集反馈数据 -> 训练奖励模型 -> PPO强化学习。

RLHF第一阶段是针对多个候选摘要人工排序;第二阶段是训练排序模型(依旧

使用GPT模型);第三阶段是利用PPO算法学习Policy(在摘要任务上微调过的

GPT)。

文中模型可以产生比10倍更大模型容量更好的摘要效果。但文中也同样指出,

模型的成功部分归功于增大了奖励模型的规模。但这需要很大量级的计算资源,例

如训练6.7B的强化学习模型需要320 GPU-days的成本。2020年初的OpenAIFine-

Tuning GPT-2 from Human Preferences可看出,它同样首先利用预训练模型来训练

reward模型,进而使用PPO策略进行强化学习,已初见ChatGPT的雏形。

图表 4 2020ChatGPT的强化模型方案 图表 5 RLHF框架:人类反馈+强化学习训练

资料来源:OpenAI,海通国际 资料来源:OpenAI,海通国际

ChatGPT是站在InstructGPT以及上述理论的肩膀上完成的一项出色的工作,

LLMlarge language modelPTM(pretrain language model)RL

reinforcement learning)出色结合证明这条方向可行。当然,这也是未来还将持续

发展的NLP甚至通用智能体的方向。

未来ChatGPT商业化应用空间广阔

以上得到验证的核心技术结构可以应用的潜在领域:

1)视频生成:图片生成+文本故事生成组合为视频;

2)音乐生成(为已有视频生成配乐);

3)图片生成优化:为图片生成的模型提供更好的人类打分数据,用强化学习

方式优化原有的图片生成效果(类似从GPT3ChatGPT式的进步);

4)代码生成;

5)文本生成优化:在某些专业领域提供更多的标注性数据,对领域内的文本

生成效果进行强化,例如营销宣传等。

我们认为,未来在应用层面上,因为ChatGPT的出现和迭代,更多AI+的机会

将不断迸发,比如:

1)诞生更专业的客服机器人和机器翻译;

2)创业者朝着更垂直更专业化的 AI 进发(医疗、教育等);

3)出现新的创业机会,即 AI 基础设施的机会(模型运维,管理,训练等)。

风险提示

AI生成内容法律法规不健全,模型开发不及预期,商业化进程不及预期等。


更多推荐

tesla特斯拉官网