Skip to content

什么是大语言模型?

定义

大语言模型(Large Language Model,简称 LLM)是一种基于深度学习的通用自然语言处理模型。 简单来说,它就像一个“超级语言专家”,通过学习海量文本数据,掌握了语言的规律和模式,从而能够理解和生成自然语言。

  • 通用性:LLM 不仅能完成特定任务,而是在各种 NLP 任务中都能表现出色。
  • 大规模:LLM 的参数规模非常庞大,通常拥有数十亿甚至数千亿的参数。参数越多,模型就越能学习到复杂的语言模式。

🤖️ 大模型在 NLP 领域的突破,为通用人工智能(AGI)开辟了新的道路。 语言是人类交流和思考的工具,让机器理解和生成自然语言是实现 AGI 的关键一步。 虽然 LLM 取得了显著进展,但要实现真正的 AGI,还需要解决诸如长期记忆、深入推理和数据安全等挑战。

核心概念

理解 LLM 的关键在于掌握以下核心概念:

  • Transformer 架构:Transformer 是一种由 Google 在 2017 年提出的神经网络架构,它彻底改变了 NLP 领域。 相比于传统的循环神经网络(RNN)和卷积神经网络(CNN),Transformer 引入了自注意力机制,可以并行处理文本,效率更高,效果更好。 Transformer 主要由编码器(Encoder)和解码器(Decoder)两部分组成。

  • 编码器模型 (Encoder):编码器的作用是理解输入句子的含义,并将其转化为一个向量表示,这个向量包含了输入句子的关键信息。 举个例子,输入“我喜欢 NLP”,编码器可能会输出一个向量 [0.1, 0.2, 0.3, 0.4]

  • 解码器模型 (Decoder):解码器则负责根据编码器的输出和自身的上下文信息,生成新的句子。 比如,输入向量 [0.1, 0.2, 0.3, 0.4],解码器可能会输出“我喜欢机器学习”。 编码器和解码器之间通过注意力机制进行信息交互。

  • 注意力机制 (Attention Mechanism):注意力机制是 Transformer 的核心组成部分,它让模型能够关注输入句子中最重要的部分。以下例子说明了编码器和解码器如何通过注意力机制进行交互:

    输入句子:我 love NLP。
    
    编码器:
    输入:我 love NLP。
    输出:向量 [0.1, 0.2, 0.3, 0.4],代表输入句子的特征信息。
    
    解码器:
    输入:[0.1, 0.2, 0.3, 0.4]
    输出:我
    (此时解码器只生成了第一个词“我”,并将其作为上下文信息。)
    
    注意力:解码器的注意力机制会查询编码器的输出 [0.1, 0.2, 0.3, 0.4],并生成注意力分布 [0.6, 0.2, 0.1, 0.1],表示解码器当前更关注编码器第 1 个输出元素(对应“我”)。
    
    解码器:
    输入:[0.1, 0.2, 0.3, 0.4],[0.6, 0.2, 0.1, 0.1]
    上下文:我
    输出:love
    (解码器利用注意力分布所强调的编码器输出信息,以及上下文“我”,生成 “love” 作为当前最佳输出。)
    .....
    解码器最终生成:我 love 机器学习。
  • 自回归模型 (Autoregressive Model):自回归模型是一种生成模型,它通过逐步生成序列中的每个元素来生成整个序列。 在 Transformer 的解码器中,每一步都会生成一个词元(token),并将当前生成的词元加入到上下文中,用于生成下一个词元。 例如,模型输入“我 love”,输出“我 love NLP”,然后基于“我 love NLP”生成“我 love 自然语言处理”。 这种每一步都基于前面生成的内容生成新的输出的策略,就是自回归。 GPT-2、GPT-3 等都是典型的自回归模型。

  • 掩码模型 (Masked Language Model, MLM):掩码模型是一种训练语言模型的方法,它随机地将输入文本中的一些词元进行掩盖(mask),然后训练模型根据上下文来预测被掩盖的词元。 例如,输入句子“我 love [MASK] learning”,模型需要预测 [MASK] 位置的词,输出“我 love machine learning”。 BERT 就是一种典型的掩码模型。

大语言模型的发展历程

下图展示了大语言模型的发展历程,重点关注了具有代表性的模型。 图中不同颜色代表不同的模型架构:灰色表示非 Transformer 模型,蓝色表示仅解码器模型,粉色表示仅编码器模型,绿色表示编码器-解码器模型。 实心方块表示开源模型,空心方块表示闭源模型。

大语言模型进化树

仅编码器模型 (Encoder-only Models)

仅编码器模型,如 BERT,通过预测句子中被掩盖的词语来学习语言表示。 这种方法使模型能够理解词语及其上下文之间的关系。 这些模型在各种 NLP 任务中表现出色,例如情感分析和命名实体识别。 然而,仅编码器模型通常需要针对特定任务进行微调。 BERT 在 LLM 早期发展阶段推动了仅编码器模型的发展。 (BERT 主要用于自然语言理解任务:双向预训练语言模型 + fine-tuning(微调))

仅解码器模型 (Decoder-only Models)

仅解码器模型,如 GPT-3,通过根据给定序列中前面的词语来预测下一个词语来生成文本。 扩大模型规模可以显著提高其在少样本或零样本情况下的表现。 GPT-3 的出现表明,通过提示和上下文学习,可以在没有大量训练数据的情况下获得合理的结果,从而展示了自回归语言模型的优势。 仅解码器模型在 2021 年 GPT-3 之后经历了快速发展。 (GPT 主要用于自然语言生成任务:自回归预训练语言模型 + Prompting(指示/提示))

LLM 的应用方向

LLM 在各个领域都有广泛的应用:

  • 自然语言理解:利用 LLM 的泛化能力处理实际数据与训练数据分布不一致或训练数据稀缺的情况。
  • 自然语言生成:利用 LLM 生成连贯、上下文相关的高质量文本,用于各种应用,如文章写作、对话生成等。
  • 知识密集型任务:利用 LLM 中存储的丰富知识来处理需要专业知识或常识的任务,如问答、知识图谱构建等。
  • 推理能力:利用 LLM 的推理能力来提升决策制定和问题解决能力,如逻辑推理、常识推理等。

更多学习资源

  1. 大语言模型发展历程https://briefgpt.xyz/lm
    通过时间线展示大模型的发布情况,清晰明了,并实时更新。
  2. 大型语言模型的实用指南https://github.com/Mooler0410/LLMsPracticalGuide
    提供在业务中使用大语言模型的最佳实践。
  3. https://github.com/morsoli/llm-books/blob/main/LLMProjects/01-llm/01-1.md