LLM Training

这些是我从非常推荐的书籍 https://www.manning.com/books/build-a-large-language-model-from-scratch 中整理的笔记,附加了一些额外信息。

Basic Information

您应该先阅读这篇文章,以了解一些基本概念:

0. Basic LLM Concepts

1. Tokenization

这个初始阶段的目标非常简单:以某种合理的方式将输入划分为标记(ID)

1. Tokenizing

2. Data Sampling

这个第二阶段的目标非常简单:对输入数据进行采样,并为训练阶段准备数据,通常通过将数据集分隔为特定长度的句子,并生成预期的响应。

https://github.com/HackTricks-wiki/hacktricks/blob/cn/todo/llm-training-data-preparation/2.-data-sampling.md

3. Token Embeddings

这个第三阶段的目标非常简单:为词汇表中的每个标记分配一个所需维度的向量以训练模型。 词汇表中的每个单词将在X维空间中有一个点。 请注意,最初每个单词在空间中的位置是“随机”初始化的,这些位置是可训练的参数(在训练过程中会得到改善)。

此外,在标记嵌入期间创建了另一层嵌入,它表示(在这种情况下)单词在训练句子中的绝对位置。这样,句子中不同位置的单词将具有不同的表示(含义)。

3. Token Embeddings

4. Attention Mechanisms

这个第四阶段的目标非常简单:应用一些注意机制。这些将是许多重复的层,将捕捉词汇表中单词与当前用于训练LLM的句子中其邻居的关系。 为此使用了许多层,因此将有许多可训练的参数来捕捉这些信息。

4. Attention Mechanisms

5. LLM Architecture

这个第五阶段的目标非常简单:开发完整LLM的架构。将所有内容整合在一起,应用所有层,并创建所有函数以生成文本或将文本转换为ID及其反向操作。

该架构将用于训练和预测文本。

5. LLM Architecture

6. Pre-training & Loading models

这个第六阶段的目标非常简单:从头开始训练模型。为此,将使用之前的LLM架构,通过对数据集进行循环,使用定义的损失函数和优化器来训练模型的所有参数。

https://github.com/HackTricks-wiki/hacktricks/blob/cn/todo/llm-training-data-preparation/6.-pre-training-and-loading-models.md

7.0. LoRA Improvements in fine-tuning

使用LoRA大大减少了所需的微调已训练模型的计算量。

7.0. LoRA Improvements in fine-tuning

7.1. Fine-Tuning for Classification

本节的目标是展示如何微调一个已经预训练的模型,以便LLM选择给定文本被分类到每个给定类别的概率(例如,文本是否为垃圾邮件)。

https://github.com/HackTricks-wiki/hacktricks/blob/cn/todo/llm-training-data-preparation/7.1.-fine-tuning-for-classification.md

7.2. Fine-Tuning to follow instructions

本节的目标是展示如何微调一个已经预训练的模型以遵循指令,而不仅仅是生成文本,例如,作为聊天机器人响应任务。

7.2. Fine-Tuning to follow instructions

Last updated