4. Attention Mechanisms
Механізми уваги та самоувага в нейронних мережах
Механізми уваги дозволяють нейронним мережам зосереджуватися на конкретних частинах вхідних даних під час генерації кожної частини виходу. Вони призначають різні ваги різним вхідним даним, допомагаючи моделі вирішити, які вхідні дані є найбільш релевантними для поставленого завдання. Це є критично важливим у таких завданнях, як машинний переклад, де розуміння контексту всього речення необхідне для точного перекладу.
Мета цього четвертого етапу дуже проста: застосувати деякі механізми уваги. Це будуть багато повторюваних шарів, які захоплюють зв'язок слова у словнику з його сусідами в поточному реченні, що використовується для навчання LLM. Для цього використовується багато шарів, тому багато навчальних параметрів будуть захоплювати цю інформацію.
Розуміння механізмів уваги
У традиційних моделях послідовність до послідовності, що використовуються для перекладу мов, модель кодує вхідну послідовність у вектор контексту фіксованого розміру. Однак цей підхід має труднощі з довгими реченнями, оскільки вектор контексту фіксованого розміру може не захоплювати всю необхідну інформацію. Механізми уваги вирішують це обмеження, дозволяючи моделі враховувати всі вхідні токени під час генерації кожного вихідного токена.
Приклад: Машинний переклад
Розглянемо переклад німецького речення "Kannst du mir helfen diesen Satz zu übersetzen" на англійську. Переклад слово за словом не дасть граматично правильного англійського речення через відмінності в граматичних структурах між мовами. Механізм уваги дозволяє моделі зосереджуватися на релевантних частинах вхідного речення під час генерації кожного слова вихідного речення, що призводить до більш точного та узгодженого перекладу.
Вступ до самоуваги
Самоувага, або внутрішня увага, є механізмом, де увага застосовується в межах однієї послідовності для обчислення представлення цієї послідовності. Це дозволяє кожному токену в послідовності звертатися до всіх інших токенів, допомагаючи моделі захоплювати залежності між токенами незалежно від їх відстані в послідовності.
Ключові концепції
Токени: Окремі елементи вхідної послідовності (наприклад, слова в реченні).
Векторні представлення: Векторні представлення токенів, що захоплюють семантичну інформацію.
Ваги уваги: Значення, які визначають важливість кожного токена відносно інших.
Обчислення ваг уваги: покроковий приклад
Розглянемо речення "Hello shiny sun!" і представимо кожне слово з 3-вимірним векторним представленням:
Hello:
[0.34, 0.22, 0.54]
shiny:
[0.53, 0.34, 0.98]
sun:
[0.29, 0.54, 0.93]
Наша мета - обчислити вектор контексту для слова "shiny" за допомогою самоуваги.
Крок 1: Обчислення оцінок уваги
Просто помножте кожне значення виміру запиту на відповідне значення кожного токена і додайте результати. Ви отримуєте 1 значення для кожної пари токенів.
Для кожного слова в реченні обчисліть оцінку уваги відносно "shiny", обчислюючи скалярний добуток їх векторних представлень.
Оцінка уваги між "Hello" та "shiny"
Оцінка уваги між "shiny" та "shiny"
Оцінка уваги між "sun" та "shiny"
Крок 2: Нормалізація оцінок уваги для отримання ваг уваги
Не губіться в математичних термінах, мета цієї функції проста: нормалізувати всі ваги так, щоб вони в сумі давали 1.
Крім того, функція softmax використовується, оскільки вона підкреслює відмінності завдяки експоненціальній частині, що полегшує виявлення корисних значень.
Застосуйте функцію softmax до оцінок уваги, щоб перетворити їх на ваги уваги, які в сумі дають 1.
Обчислення експонент:
Обчислення суми:
Обчислення ваг уваги:
Крок 3: Обчислення вектора контексту
Просто візьміть кожну вагу уваги і помножте її на відповідні виміри токена, а потім додайте всі виміри, щоб отримати лише 1 вектор (вектор контексту)
Вектор контексту обчислюється як зважена сума векторних представлень усіх слів, використовуючи ваги уваги.
Обчислення кожного компонента:
Зважене векторне представлення "Hello":
* **Зважене векторне представлення "shiny"**:
* **Зважене векторне представлення "sun"**:
Сумування зважених векторних представлень:
вектор контексту=[0.0779+0.2156+0.1057, 0.0504+0.1382+0.1972, 0.1237+0.3983+0.3390]=[0.3992,0.3858,0.8610]
Цей вектор контексту представляє збагачене векторне представлення для слова "shiny", включаючи інформацію з усіх слів у реченні.
Підсумок процесу
Обчисліть оцінки уваги: Використовуйте скалярний добуток між вектором представлення цільового слова та векторами представлення всіх слів у послідовності.
Нормалізуйте оцінки для отримання ваг уваги: Застосуйте функцію softmax до оцінок уваги, щоб отримати ваги, які в сумі дають 1.
Обчисліть вектор контексту: Помножте векторне представлення кожного слова на його вагу уваги та підсумуйте результати.
Самоувага з навчальними вагами
На практиці механізми самоуваги використовують навчальні ваги для навчання найкращих представлень для запитів, ключів і значень. Це передбачає введення трьох матриць ваг:
Запит - це дані, які використовуються, як і раніше, тоді як матриці ключів і значень - це просто випадкові навчальні матриці.
Крок 1: Обчислення запитів, ключів і значень
Кожен токен матиме свою власну матрицю запиту, ключа та значення, множачи свої значення вимірів на визначені матриці:
Ці матриці перетворюють оригінальні векторні представлення в новий простір, придатний для обчислення уваги.
Приклад
Припустимо:
Вхідний розмір
din=3
(розмір векторного представлення)Вихідний розмір
dout=2
(бажаний розмір для запитів, ключів і значень)
Ініціалізуйте матриці ваг:
Обчисліть запити, ключі та значення:
Крок 2: Обчислення масштабованої уваги за допомогою скалярного добутку
Обчислення оцінок уваги
Схоже на попередній приклад, але цього разу, замість використання значень вимірів токенів, ми використовуємо матрицю ключів токена (яка вже була обчислена за допомогою вимірів):. Отже, для кожного запиту qi
та ключа kj
:
Масштабування оцінок
Щоб запобігти тому, щоб скалярні добутки ставали занадто великими, масштабуйте їх за квадратним коренем розміру ключа dk
:
Оцінка ділиться на квадратний корінь розмірів, оскільки скалярні добутки можуть ставати дуже великими, і це допомагає їх регулювати.
Застосування Softmax для отримання ваг уваги: Як у початковому прикладі, нормалізуйте всі значення так, щоб їхня сума дорівнювала 1.
Крок 3: Обчислення контекстних векторів
Як у початковому прикладі, просто складіть усі матриці значень, множачи кожну з них на її вагу уваги:
Приклад коду
Взявши приклад з https://github.com/rasbt/LLMs-from-scratch/blob/main/ch03/01_main-chapter-code/ch03.ipynb, ви можете перевірити цей клас, який реалізує функціональність самостійної уваги, про яку ми говорили:
Зверніть увагу, що замість ініціалізації матриць випадковими значеннями, використовується nn.Linear
, щоб позначити всі ваги як параметри для навчання.
Причинна Увага: Приховування Майбутніх Слів
Для LLM ми хочемо, щоб модель враховувала лише токени, які з'являються перед поточною позицією, щоб прогнозувати наступний токен. Причинна увага, також відома як замаскована увага, досягає цього, модифікуючи механізм уваги, щоб запобігти доступу до майбутніх токенів.
Застосування Маски Причинної Уваги
Щоб реалізувати причинну увагу, ми застосовуємо маску до оцінок уваги перед операцією softmax, щоб залишкові значення все ще сумувалися до 1. Ця маска встановлює оцінки уваги майбутніх токенів на негативну нескінченність, забезпечуючи, що після softmax їх ваги уваги дорівнюють нулю.
Кроки
Обчислити Оцінки Уваги: Так само, як і раніше.
Застосувати Маску: Використовуйте верхню трикутну матрицю, заповнену негативною нескінченністю вище діагоналі.
Застосувати Softmax: Обчисліть ваги уваги, використовуючи замасковані оцінки.
Маскування Додаткових Ваг Уваги з Допомогою Dropout
Щоб запобігти перенавчанню, ми можемо застосувати dropout до ваг уваги після операції softmax. Dropout випадковим чином обнуляє деякі з ваг уваги під час навчання.
Звичайний дроп-аут становить близько 10-20%.
Code Example
Code example from https://github.com/rasbt/LLMs-from-scratch/blob/main/ch03/01_main-chapter-code/ch03.ipynb:
Розширення одноголової уваги до багатоголової уваги
Багатоголова увага на практиці полягає в виконанні декількох екземплярів функції самостійної уваги, кожен з яких має свої власні ваги, тому розраховуються різні фінальні вектори.
Приклад коду
Можливо, можна повторно використовувати попередній код і просто додати обгортку, яка запускає його кілька разів, але це більш оптимізована версія з https://github.com/rasbt/LLMs-from-scratch/blob/main/ch03/01_main-chapter-code/ch03.ipynb, яка обробляє всі голови одночасно (зменшуючи кількість витратних циклів). Як ви можете бачити в коді, розміри кожного токена діляться на різні розміри відповідно до кількості голів. Таким чином, якщо токен має 8 розмірів і ми хочемо використовувати 3 голови, розміри будуть поділені на 2 масиви по 4 розміри, і кожна голова використовуватиме один з них:
Для ще однієї компактної та ефективної реалізації ви можете використовувати клас torch.nn.MultiheadAttention
у PyTorch.
Коротка відповідь ChatGPT про те, чому краще розділити виміри токенів між головами, а не дозволяти кожній голові перевіряти всі виміри всіх токенів:
Хоча дозволити кожній голові обробляти всі вимірювання вбудовування може здаватися вигідним, оскільки кожна голова матиме доступ до всієї інформації, стандартною практикою є розподіл вимірів вбудовування між головами. Цей підхід забезпечує баланс між обчислювальною ефективністю та продуктивністю моделі та заохочує кожну голову вивчати різноманітні представлення. Тому розподіл вимірів вбудовування зазвичай є кращим, ніж дозволяти кожній голові перевіряти всі виміри.
References
Last updated