LLM Training

ये मेरी नोट्स हैं बहुत ही अनुशंसित किताब से https://www.manning.com/books/build-a-large-language-model-from-scratch कुछ अतिरिक्त जानकारी के साथ।

Basic Information

आपको कुछ बुनियादी अवधारणाओं के बारे में जानने के लिए इस पोस्ट को पढ़ना चाहिए:

1. Tokenization

इस प्रारंभिक चरण का लक्ष्य बहुत सरल है: इनपुट को कुछ इस तरह से टोकन (ids) में विभाजित करें जो समझ में आए।

2. Data Sampling

इस दूसरे चरण का लक्ष्य बहुत सरल है: इनपुट डेटा का सैंपल लें और इसे प्रशिक्षण चरण के लिए तैयार करें, आमतौर पर डेटासेट को एक विशिष्ट लंबाई के वाक्यों में विभाजित करके और अपेक्षित प्रतिक्रिया भी उत्पन्न करके।

3. Token Embeddings

इस तीसरे चरण का लक्ष्य बहुत सरल है: शब्दकोश में पिछले टोकनों में से प्रत्येक को मॉडल को प्रशिक्षित करने के लिए इच्छित आयामों का एक वेक्टर सौंपें। शब्दकोश में प्रत्येक शब्द X आयामों के एक स्थान में एक बिंदु होगा। ध्यान दें कि प्रारंभ में प्रत्येक शब्द की स्थिति "यादृच्छिक रूप से" प्रारंभ की जाती है और ये स्थितियाँ प्रशिक्षित करने योग्य पैरामीटर हैं (प्रशिक्षण के दौरान सुधारित होंगी)।

इसके अलावा, टोकन एम्बेडिंग के दौरान एक और एम्बेडिंग परत बनाई जाती है जो (इस मामले में) प्रशिक्षण वाक्य में शब्द की सटीक स्थिति का प्रतिनिधित्व करती है। इस तरह, वाक्य में विभिन्न स्थितियों में एक शब्द का अलग प्रतिनिधित्व (अर्थ) होगा।

4. Attention Mechanisms

इस चौथे चरण का लक्ष्य बहुत सरल है: कुछ ध्यान तंत्र लागू करें। ये बहुत सारे दोहराए जाने वाले परतें होंगी जो शब्दकोश में एक शब्द के पड़ोसियों के साथ वर्तमान वाक्य में संबंध को कैप्चर करेंगी जिसका उपयोग LLM को प्रशिक्षित करने के लिए किया जा रहा है। इसके लिए बहुत सारी परतें उपयोग की जाती हैं, इसलिए बहुत सारे प्रशिक्षित करने योग्य पैरामीटर इस जानकारी को कैप्चर करने जा रहे हैं।

5. LLM Architecture

इस पांचवे चरण का लक्ष्य बहुत सरल है: पूर्ण LLM की आर्किटेक्चर विकसित करें। सब कुछ एक साथ रखें, सभी परतें लागू करें और पाठ उत्पन्न करने या पाठ को IDs में और इसके विपरीत परिवर्तित करने के लिए सभी कार्यों को बनाएं।

यह आर्किटेक्चर दोनों के लिए उपयोग की जाएगी, प्रशिक्षण और भविष्यवाणी के लिए पाठ के बाद इसे प्रशिक्षित किया गया।

6. Pre-training & Loading models

इस छठे चरण का लक्ष्य बहुत सरल है: मॉडल को शून्य से प्रशिक्षित करें। इसके लिए पिछले LLM आर्किटेक्चर का उपयोग किया जाएगा जिसमें डेटा सेट पर परिभाषित हानि कार्यों और ऑप्टिमाइज़र का उपयोग करते हुए लूप होंगे ताकि मॉडल के सभी पैरामीटर को प्रशिक्षित किया जा सके।

7.0. LoRA Improvements in fine-tuning

LoRA का उपयोग पहले से प्रशिक्षित मॉडलों को फाइन ट्यून करने के लिए आवश्यक गणना को बहुत कम करता है।

7.1. Fine-Tuning for Classification

इस अनुभाग का लक्ष्य यह दिखाना है कि पहले से प्रशिक्षित मॉडल को कैसे फाइन-ट्यून किया जाए ताकि नया पाठ उत्पन्न करने के बजाय LLM प्रत्येक दिए गए श्रेणी में वर्गीकृत होने के लिए दिए गए पाठ की संभावनाएँ प्रदान करे (जैसे कि कोई पाठ स्पैम है या नहीं)।

7.2. Fine-Tuning to follow instructions

इस अनुभाग का लक्ष्य यह दिखाना है कि निर्देशों का पालन करने के लिए पहले से प्रशिक्षित मॉडल को कैसे फाइन-ट्यून किया जाए न कि केवल पाठ उत्पन्न करने के लिए, उदाहरण के लिए, एक चैट बॉट के रूप में कार्यों का उत्तर देना।

PreviousTest LLMs Next0. Basic LLM Concepts

Last updated 2 months ago