浅析Chat GPT-1到GPT-4的发展历程
发布时间:2023-02-16 10:42:41 所属栏目:大数据 来源:互联网
导读:OpenAI的Generative Pre-trained Transformer(GPT)模型通过引入非常强大的语言模型,在自然语言处理(NLP)领域引起了巨大震动。这些模型可以执行各种NLP任务,如问题解答、文本蕴涵、文本总结等,而无需任何监督训练。这些语言模型只需要很少或根本不需要示例
OpenAI的Generative Pre-trained Transformer(GPT)模型通过引入非常强大的语言模型,在自然语言处理(NLP)领域引起了巨大震动。这些模型可以执行各种NLP任务,如问题解答、文本蕴涵、文本总结等,而无需任何监督训练。这些语言模型只需要很少或根本不需要示例就可以理解任务并执行与以监督方式训练的最 先进模型相当或甚至更好的任务。 下面将介绍这些模型的发展历程,并了解它们在近两年的时间里是如何演变的。我们从目标和概念、使用的数据集、模型架构和实现细节以及性能评估介绍。 一 GPT-1 通过生成预训练(GPT-1)提高语言理解: 1.学习目标和概念 NLP任务的半监督学习(无监督预训练后有监督微调)包括以下三个部分: a.无监督语言建模(预训练):对于无监督学习,使用标准语言模型目标。 其中 T 是无监督数据 {t_1,…,t_n} 中的标记集,k 是上下文窗口的大小,θ 是使用随机梯度下降训练的神经网络的参数。 b.监督微调:本部分旨在最大化观察标签y、给定特征或标记x_1、…、x_n的可能性。 其中 C 是由训练示例组成的标记数据集。 作者没有简单地最大化等式 (ii) 中提到的目标,而是添加了一个辅助学习目标用于监督微调,以获得更好的泛化和更快的收敛。修改后的培训目标表述为: -在示例的不同部分之间添加了分隔符标记,以便可以按顺序发送输入。对于回答问题、选择题等任务,每个示例都发送了多个序列。例如,由上下文、问题和答案序列组成的训练示例。 2.数据集 GPT-1使用BooksCorpus数据集来训练语言模型。BooksCorpus有大约7000本未出版的书,这些书有助于根据未发现的数据训练语言模型。该数据不太可能在下游任务的测试集中找到。此外,这个语料库有大量的连续文本,这有助于模型学习大范围的依赖关系。 3.模型架构和实现细节 GPT-1使用了12层仅解码器的转换器结构,并对训练语言模型进行了自我关注。模型的架构在很大程度上与转换器的原始工作中描述的相同。掩蔽有助于实现语言模型目标,其中语言模型不能访问当前单词右侧的后续单词。 以下是实施细节: a.对于无监督培训: •使用了具有 40,000 个合并的字节对编码 (BPE) 词汇表。 •模型使用 768 维状态将标记编码为词嵌入。位置嵌入也是在训练期间学习的。 •使用 12 层模型,每个自注意力层有 12 个注意力。 •对于位置前馈层,使用了 3072 维状态。 •使用 Adam 优化器,学习率为 2.5e-4。 •注意力、残差和嵌入丢失被用于正则化,丢失率为 0.1。L2 正则化的修改版本也用于非偏置权重。 •GELU 用作激活函数。 •该模型在大小为 64、序列长度为 512 的小批量上训练了 100 个周期。该模型总共有 117M 个参数。 4.总结 GPT-1在12项任务中的9项中的表现优于专门训练的受监督的最 先进模型。 该模型的另一个重要成就是其在各种任务上的零样本性能。由于预训练,该模型在不同的NLP任务(如问题回答、模式解决、情绪分析等)上的零样本性能有所改进。 GPT-1证明语言模型是一个有效的预训练目标,可以帮助模型很好地推广。该体系结构促进了迁移学习,并且可以执行各种NLP任务,只需很少的微调。该模型显示了生成性预训练的力量,并为其他模型开辟了道路,这些模型可以通过更大的数据集和更多的参数更好地释放这种潜力。 二 GPT-2 语言模型是无监督的多任务学习(GPT-2): GPT-2模型的发展主要是在使用更大的数据集和向模型中添加更多参数以学习更强大的语言模型方面。让我们看看GPT-2模型的重大发展以及概念: 1.学习目标和概念 以下是在 NLP 背景下讨论的两个重要概念。 •任务调节:语言模型的训练目标被表述为 P(输出|输入)。然而,GPT-2 旨在使用相同的无监督模型学习多个任务。为此,学习目标应修改为 P(output|input, task)。这种修改被称为任务调节,其中模型预计会为不同任务的相同输入产生不同的输出。一些模型在架构级别实现任务调节,在该级别模型同时提供输入和任务。对于语言模型,输出、输入和任务都是自然语言的序列。因此,执行语言模型的任务条件通过向模型提供示例或自然语言指令来执行任务。任务调节构成了零样本任务转换的基础。 2.数据集 为了创建一个广泛且高质量的数据集,抓取了 Reddit 平台并从高赞文章的出站链接中提取数据。生成的名为 WebText 的数据集包含来自超过 800 万份文档的 40GB 文本数据。该数据集用于训练 GPT-2,与用于训练 GPT-1 模型的 Book Corpus 数据集相比规模庞大。所有维基百科文章都从 WebText 中删除,因为许多测试集包含维基百科文章。 3.模型架构和实现细节 GPT-2 有 15 亿个参数。是 GPT-1(117M 参数)的 10 倍。与 GPT-1 的主要区别是: •GPT-2 有 48 层,使用 1600 维向量进行词嵌入。 •层归一化被移动到每个子块的输入,并在最终的自注意力块之后添加了一个额外的层•归一化。 •在初始化时,残差层的权重按 1/√N 缩放,其中 N 是残差层的数量。 •训练了 117M(与 GPT-1 相同)、345M、762M 和 1.5B(GPT-2)参数的四种语言模型。每个后续模型的困惑度都低于前一个模型。这表明同一数据集上的语言模型的困惑度随着参数数量的增加而降低。此外,参数数量最多的模型在每个下游任务上的表现都更好。 4.总结 GPT-2 在阅读、理解、总结、翻译、问答等下游任务的多个数据集上进行了评估。让我们详细了解其中一些任务以及 GPT-2 在这些任务上的表现: •GPT-2 在零样本设置中改进了 8 个语言建模数据集中的 7 个的现有技术水平。 •儿童读物数据集评估语言模型在名词、介词、命名实体等词类上的表现。GPT-2 将普通名词和命名实体识别的最 先进准确度提高了约 7%。 •GPT-2 能够在零样本测试的 8 个语言建模数据集中的 7 个上取得最 先进的结果。 GPT-2 表明,在更大的数据集和更多参数上进行训练提高了语言模型理解任务的能力,并超越了零样本设置中许多任务的最新技术水平。随着模型容量的增加,性能以对数线性方式增加。此外,语言模型的困惑度下降并没有出现饱和,而是随着参数数量的增加而持续下降。事实上,GPT-2对WebText数据集的拟合不足,更多时间的训练可能会进一步降低困惑度。这表明 GPT-2 的模型大小不是限制,构建更大的语言模型将减少困惑并使语言模型更好地理解自然语言。 三 GPT-3 语言模型是少样本学习者(GPT-3): 为了构建非常强大的语言模型,无需进行微调,只需少量演示即可理解任务并执行任务,OpenAI构建了具有1750亿参数的GPT-3模型。该模型的参数是微软强大的图灵NLG语言模型的10倍,参数是GPT-2的100倍。由于大量的参数和广泛的数据集GPT-3已经过训练,它在零样本和少样本设置在下游NLP任务中表现良好。由于它的容量大,它有写文章的能力,很难与人类写的文章区分开来。它还可以执行从未明确训练过的即时任务,如总结数字、编写SQL查询和代码、解读句子中的单词、编写React和JavaScript代码,给出任务的自然语言描述等。让我们了解GPT-3中的概念和发展,以及该模型的一些更广泛的影响和限制: 1.学习目标和概念 •上下文学习:大型语言模型使用它们所训练的文本数据来开发模式识别和其他技能。在学习预测给定上下文词的下一个词的主要目标的同时,语言模型也开始识别数据中的模式,这有助于它们最大限度地减少语言建模任务的损失。后来,这种能力在零样本任务转换期间帮助模型。当出现少量示例或需要做什么的描述时,语言模型会将示例的模式与其过去从类似数据中学到的知识相匹配,并使用该知识来执行任务。这是大型语言模型的一个强大能力,随着模型参数数量的增加而增加。 •少样本、单样本 和 零样本 设置:如前所述,少样本、单样本 和 零样本 设置是零样本任务转换的特例。在少样本设置中,模型提供了任务描述和适合模型上下文窗口的尽可能多的示例。在单样本设置中,模型仅提供一个示例,而在零样本设置中,不提供任何示例。随着模型容量的增加,模型的少样本、单样本 和 零样本能力也随之提升。 2.数据集 GPT-3 在五个不同语料库的混合体上进行训练,每个语料库都分配有一定的权重。高质量的数据集被更频繁地采样,并且模型在它们上训练了不止一个周期。使用的五个数据集是 Common Crawl、WebText2、Books1、Books2 和 Wikipedia。 3.模型和实现细节 •GPT-3 的架构与 GPT-2 相同。与 GPT-2 的几个主要区别是: •GPT-3 有 96 层,每层有 96 个关注点。 •GPT-3 的词嵌入大小从 GPT-2 的 1600 增加到 12888。 4.总结 GPT-3 在大量语言建模和 NLP 数据集上进行了评估。对于 LAMBADA 和 Penn Tree Bank 等语言建模数据集,GPT-3 在少量或零样本设置中的表现优于现有技术。对于其他数据集,它无法击败最 先进的技术,但提高了零样本最 先进的性能。GPT-3 在 NLP 任务中也表现相当不错,如闭卷问答、模式解析、翻译等,经常击败最 先进的或与微调模型相当的表现。对于大多数任务,模型在少样本设置中的表现优于单样本和零样本设置。 (编辑:十堰站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |