LLM Training
Last updated
Last updated
これは非常に推奨される本 https://www.manning.com/books/build-a-large-language-model-from-scratch からの私のメモで、いくつかの追加情報が含まれています。
知っておくべき基本概念については、この投稿を読むことから始めるべきです:
この初期段階の目標は非常にシンプルです:入力を意味のある方法でトークン(ID)に分割すること。
この第二段階の目標は非常にシンプルです:入力データをサンプリングし、通常は特定の長さの文にデータセットを分け、期待される応答も生成することでトレーニングフェーズの準備をすること。
この第三段階の目標は非常にシンプルです:語彙内の各トークンに対して、モデルをトレーニングするために必要な次元のベクトルを割り当てること。語彙内の各単語はX次元の空間内の点になります。 最初は各単語の空間内の位置は「ランダムに」初期化され、これらの位置はトレーニング中に改善されるトレーニング可能なパラメータです。
さらに、トークン埋め込み中に別の埋め込み層が作成され、これは(この場合)トレーニング文内の単語の絶対位置を表します。このように、文内の異なる位置にある単語は異なる表現(意味)を持ちます。
この第四段階の目標は非常にシンプルです:いくつかのアテンションメカニズムを適用すること。これらは語彙内の単語と現在トレーニング中の文内の隣接単語との関係を捉えるための多くの繰り返し層**になります。 これには多くの層が使用されるため、多くのトレーニング可能なパラメータがこの情報を捉えることになります。
この第五段階の目標は非常にシンプルです:完全なLLMのアーキテクチャを開発すること。すべてをまとめ、すべての層を適用し、テキストを生成したり、テキストをIDに変換したりその逆を行うためのすべての関数を作成します。
このアーキテクチャは、トレーニング後のテキストの予測にも使用されます。
この第六段階の目標は非常にシンプルです:ゼロからモデルをトレーニングすること。これには、定義された損失関数とオプティマイザを使用して、データセットをループしながらすべてのパラメータをトレーニングするために、前のLLMアーキテクチャが使用されます。
LoRAの使用は、すでにトレーニングされたモデルをファインチューニングするために必要な計算を大幅に削減します。
このセクションの目標は、すでにプレトレーニングされたモデルをファインチューニングする方法を示すことです。新しいテキストを生成するのではなく、LLMが与えられたテキストが各カテゴリに分類される確率を選択することです(例えば、テキストがスパムかどうか)。
このセクションの目標は、テキストを生成するだけでなく、指示に従うためにすでにプレトレーニングされたモデルをファインチューニングする方法を示すことです。例えば、チャットボットとしてタスクに応答することです。