LLM Training

To są moje notatki z bardzo polecanej książki https://www.manning.com/books/build-a-large-language-model-from-scratch z dodatkowymi informacjami.

Basic Information

Powinieneś zacząć od przeczytania tego posta, aby poznać podstawowe pojęcia, które powinieneś znać:

0. Basic LLM Concepts

1. Tokenization

Celem tej początkowej fazy jest bardzo proste: Podzielić dane wejściowe na tokeny (id) w sposób, który ma sens.

1. Tokenizing

2. Data Sampling

Celem tej drugiej fazy jest bardzo proste: Próbkować dane wejściowe i przygotować je do fazy treningowej, zazwyczaj poprzez podział zbioru danych na zdania o określonej długości i generowanie również oczekiwanej odpowiedzi.

https://github.com/HackTricks-wiki/hacktricks/blob/pl/todo/llm-training-data-preparation/2.-data-sampling.md

3. Token Embeddings

Celem tej trzeciej fazy jest bardzo proste: Przypisać każdemu z poprzednich tokenów w słowniku wektor o pożądanych wymiarach do trenowania modelu. Każde słowo w słowniku będzie punktem w przestrzeni o X wymiarach. Zauważ, że początkowo pozycja każdego słowa w przestrzeni jest po prostu "losowo" inicjowana, a te pozycje są parametrami, które można trenować (będą poprawiane podczas treningu).

Ponadto, podczas osadzania tokenów tworzona jest kolejna warstwa osadzeń, która reprezentuje (w tym przypadku) absolutną pozycję słowa w zdaniu treningowym. W ten sposób słowo w różnych pozycjach w zdaniu będzie miało różne reprezentacje (znaczenie).

3. Token Embeddings

4. Attention Mechanisms

Celem tej czwartej fazy jest bardzo proste: Zastosować pewne mechanizmy uwagi. Będą to liczne powtarzające się warstwy, które będą uchwytywać relację słowa w słowniku z jego sąsiadami w bieżącym zdaniu używanym do trenowania LLM. Do tego celu używa się wielu warstw, więc wiele parametrów do trenowania będzie uchwytywać te informacje.

4. Attention Mechanisms

5. LLM Architecture

Celem tej piątej fazy jest bardzo proste: Opracować architekturę całego LLM. Połączyć wszystko, zastosować wszystkie warstwy i stworzyć wszystkie funkcje do generowania tekstu lub przekształcania tekstu na ID i odwrotnie.

Ta architektura będzie używana zarówno do trenowania, jak i przewidywania tekstu po jego wytrenowaniu.

5. LLM Architecture

6. Pre-training & Loading models

Celem tej szóstej fazy jest bardzo proste: Wytrenować model od podstaw. W tym celu zostanie użyta wcześniejsza architektura LLM z pewnymi pętlami przechodzącymi przez zbiory danych, korzystając z określonych funkcji straty i optymalizatora, aby wytrenować wszystkie parametry modelu.

https://github.com/HackTricks-wiki/hacktricks/blob/pl/todo/llm-training-data-preparation/6.-pre-training-and-loading-models.md

7.0. LoRA Improvements in fine-tuning

Użycie LoRA znacznie zmniejsza obliczenia potrzebne do dostosowania już wytrenowanych modeli.

7.0. LoRA Improvements in fine-tuning

7.1. Fine-Tuning for Classification

Celem tej sekcji jest pokazanie, jak dostosować już wytrenowany model, aby zamiast generować nowy tekst, LLM wybierał prawdopodobieństwa danego tekstu, aby zostać skategoryzowanym w każdej z podanych kategorii (na przykład, czy tekst jest spamem, czy nie).

https://github.com/HackTricks-wiki/hacktricks/blob/pl/todo/llm-training-data-preparation/7.1.-fine-tuning-for-classification.md

7.2. Fine-Tuning to follow instructions

Celem tej sekcji jest pokazanie, jak dostosować już wytrenowany model, aby podążał za instrukcjami zamiast tylko generować tekst, na przykład, odpowiadając na zadania jako chatbot.

7.2. Fine-Tuning to follow instructions

Last updated