7.0. LoRA Improvements in fine-tuning
Last updated
Last updated
Η χρήση του LoRA μειώνει πολύ τους υπολογισμούς που απαιτούνται για να προσαρμόσετε ήδη εκπαιδευμένα μοντέλα.
Το LoRA καθιστά δυνατή την προσαρμογή μεγάλων μοντέλων με αποδοτικό τρόπο, αλλάζοντας μόνο ένα μικρό μέρος του μοντέλου. Μειώνει τον αριθμό των παραμέτρων που χρειάζεται να εκπαιδεύσετε, εξοικονομώντας μνήμη και υπολογιστικούς πόρους. Αυτό συμβαίνει επειδή:
Μειώνει τον Αριθμό των Εκπαιδεύσιμων Παραμέτρων: Αντί να ενημερώνει ολόκληρη τη μήτρα βαρών στο μοντέλο, το LoRA χωρίζει τη μήτρα βαρών σε δύο μικρότερες μήτρες (που ονομάζονται A και B). Αυτό καθιστά την εκπαίδευση ταχύτερη και απαιτεί λιγότερη μνήμη επειδή λιγότερες παράμετροι χρειάζεται να ενημερωθούν.
Αυτό συμβαίνει επειδή αντί να υπολογίζει την πλήρη ενημέρωση βαρών ενός επιπέδου (μήτρα), την προσεγγίζει ως το γινόμενο 2 μικρότερων μητρών μειώνοντας την ενημέρωση για υπολογισμό:\
2. **Διατηρεί τους Αρχικούς Βάρη του Μοντέλου Αμετάβλητους**: Το LoRA σας επιτρέπει να διατηρείτε τους αρχικούς βάρους του μοντέλου ίδιους και να ενημερώνετε μόνο τις **νέες μικρές μήτρες** (A και B). Αυτό είναι χρήσιμο γιατί σημαίνει ότι η αρχική γνώση του μοντέλου διατηρείται και προσαρμόζετε μόνο ό,τι είναι απαραίτητο. 3. **Αποτελεσματική Προσαρμογή για Συγκεκριμένες Εργασίες**: Όταν θέλετε να προσαρμόσετε το μοντέλο σε μια **νέα εργασία**, μπορείτε απλά να εκπαιδεύσετε τις **μικρές μήτρες LoRA** (A και B) αφήνοντας το υπόλοιπο του μοντέλου όπως είναι. Αυτό είναι **πολύ πιο αποδοτικό** από το να εκπαιδεύσετε ολόκληρο το μοντέλο ξανά. 4. **Αποτελεσματικότητα Αποθήκευσης**: Μετά την προσαρμογή, αντί να αποθηκεύσετε ένα **εντελώς νέο μοντέλο** για κάθε εργασία, χρειάζεται μόνο να αποθηκεύσετε τις **μήτρες LoRA**, οι οποίες είναι πολύ μικρές σε σύγκριση με το ολόκληρο μοντέλο. Αυτό διευκολύνει την προσαρμογή του μοντέλου σε πολλές εργασίες χωρίς να χρησιμοποιείτε υπερβολικό χώρο αποθήκευσης.
Για να υλοποιήσετε τα LoraLayers αντί για τα γραμμικά κατά τη διάρκεια μιας προσαρμογής, προτείνεται αυτός ο κώδικας εδώ https://github.com/rasbt/LLMs-from-scratch/blob/main/appendix-E/01_main-chapter-code/appendix-E.ipynb: