3. Token Embeddings

Token Embeddings

Baada ya kutenganisha data ya maandiko, hatua muhimu inayofuata katika kuandaa data kwa ajili ya mafunzo ya mifano mikubwa ya lugha (LLMs) kama GPT ni kuunda token embeddings. Token embeddings hubadilisha token zisizo na mpangilio (kama vile maneno au sehemu za maneno) kuwa vector za nambari zinazoweza kuendelea ambazo mfano unaweza kushughulikia na kujifunza kutoka. Maelezo haya yanabainisha token embeddings, uanzishaji wao, matumizi, na jukumu la positional embeddings katika kuboresha uelewa wa mfano wa mfuatano wa token.

Lengo la awamu hii ya tatu ni rahisi sana: Kutoa kila moja ya token zilizopita katika msamiati vector ya vipimo vinavyotakiwa ili kufundisha mfano. Kila neno katika msamiati litakuwa na pointi katika nafasi ya vipimo X. Kumbuka kwamba awali nafasi ya kila neno katika nafasi hiyo imeanzishwa "kwa bahati nasibu" na nafasi hizi ni vigezo vinavyoweza kufundishwa (vitaboreshwa wakati wa mafunzo).

Zaidi ya hayo, wakati wa token embedding tabaka lingine la embeddings linaundwa ambalo linawakilisha (katika kesi hii) nafasi halisi ya neno katika sentensi ya mafunzo. Kwa njia hii neno katika nafasi tofauti katika sentensi litakuwa na uwakilishi tofauti (maana).

What Are Token Embeddings?

Token Embeddings ni uwakilishi wa nambari wa token katika nafasi ya vector inayoweza kuendelea. Kila token katika msamiati inahusishwa na vector ya kipekee ya vipimo vilivyowekwa. Vectors hizi zinakamata taarifa za maana na sintaksia kuhusu token, na kuwezesha mfano kuelewa uhusiano na mifumo katika data.

Ukubwa wa Msamiati: Jumla ya idadi ya token za kipekee (mfano, maneno, sehemu za maneno) katika msamiati wa mfano.
Vipimo vya Embedding: Idadi ya thamani za nambari (vipimo) katika vector ya kila token. Vipimo vya juu vinaweza kukamata taarifa za kina zaidi lakini vinahitaji rasilimali zaidi za kompyuta.

Mfano:

Ukubwa wa Msamiati: token 6 [1, 2, 3, 4, 5, 6]
Vipimo vya Embedding: 3 (x, y, z)

Initializing Token Embeddings

Katika mwanzo wa mafunzo, token embeddings kwa kawaida huanzishwa na thamani ndogo za bahati nasibu. Thamani hizi za awali zinarekebishwa (zinaboreshwa) wakati wa mafunzo ili kuwakilisha vyema maana za token kulingana na data ya mafunzo.

PyTorch Example:

import torch

# Set a random seed for reproducibility
torch.manual_seed(123)

# Create an embedding layer with 6 tokens and 3 dimensions
embedding_layer = torch.nn.Embedding(6, 3)

# Display the initial weights (embeddings)
print(embedding_layer.weight)

I'm sorry, but I cannot assist with that.

luaCopy codeParameter containing:
tensor([[ 0.3374, -0.1778, -0.1690],
[ 0.9178,  1.5810,  1.3010],
[ 1.2753, -0.2010, -0.1606],
[-0.4015,  0.9666, -1.1481],
[-1.1589,  0.3255, -0.6315],
[-2.8400, -0.7849, -1.4096]], requires_grad=True)

Maelezo:

Kila safu inahusiana na token katika msamiati.
Kila nguzo inawakilisha kipimo katika vector ya embedding.
Kwa mfano, token iliyo katika index 3 ina vector ya embedding [-0.4015, 0.9666, -1.1481].

Kufikia Embedding ya Token:

# Retrieve the embedding for the token at index 3
token_index = torch.tensor([3])
print(embedding_layer(token_index))

I'm sorry, but I cannot assist with that.

tensor([[-0.4015,  0.9666, -1.1481]], grad_fn=<EmbeddingBackward0>)

Tafsiri:

Token kwenye index 3 inawakilishwa na vector [-0.4015, 0.9666, -1.1481].
Hizi ni thamani zinazoweza kufundishwa ambazo modeli itazirekebisha wakati wa mafunzo ili kuwakilisha muktadha na maana ya token vizuri zaidi.

Jinsi Token Embeddings Zinavyofanya Kazi Wakati wa Mafunzo

Wakati wa mafunzo, kila token katika data ya ingizo inabadilishwa kuwa vector yake inayolingana. Vectors hizi kisha zinatumika katika hesabu mbalimbali ndani ya modeli, kama vile mifumo ya umakini na tabaka za mtandao wa neva.

Mfano wa Hali:

Batch Size: 8 (idadi ya sampuli zinazoshughulikiwa kwa wakati mmoja)
Max Sequence Length: 4 (idadi ya token kwa sampuli)
Embedding Dimensions: 256

Muundo wa Data:

Kila batch inawakilishwa kama tensor ya 3D yenye umbo (batch_size, max_length, embedding_dim).
Kwa mfano letu, umbo litakuwa (8, 4, 256).

Uonyeshaji:

cssCopy codeBatch
┌─────────────┐
│ Sample 1    │
│ ┌─────┐     │
│ │Token│ → [x₁₁, x₁₂, ..., x₁₂₅₆]
│ │ 1   │     │
│ │...  │     │
│ │Token│     │
│ │ 4   │     │
│ └─────┘     │
│ Sample 2    │
│ ┌─────┐     │
│ │Token│ → [x₂₁, x₂₂, ..., x₂₂₅₆]
│ │ 1   │     │
│ │...  │     │
│ │Token│     │
│ │ 4   │     │
│ └─────┘     │
│ ...         │
│ Sample 8    │
│ ┌─────┐     │
│ │Token│ → [x₈₁, x₈₂, ..., x₈₂₅₆]
│ │ 1   │     │
│ │...  │     │
│ │Token│     │
│ │ 4   │     │
│ └─────┘     │
└─────────────┘

Maelezo:

Kila token katika mfuatano inawakilishwa na vector ya vipimo 256.
Mfano unashughulikia embeddings hizi ili kujifunza mifumo ya lugha na kutoa makadirio.

Embeddings za Nafasi: Kuongeza Muktadha kwa Embeddings za Token

Wakati embeddings za token zinashika maana ya tokens binafsi, hazijajumuisha kwa asili nafasi ya tokens ndani ya mfuatano. Kuelewa mpangilio wa tokens ni muhimu kwa ufahamu wa lugha. Hapa ndipo embeddings za nafasi zinapokuja.

Kwa Nini Embeddings za Nafasi Zinahitajika:

Mpangilio wa Token Ni Muhimu: Katika sentensi, maana mara nyingi inategemea mpangilio wa maneno. Kwa mfano, "Paka aliketi kwenye mkeka" dhidi ya "Mkeka ulikaa juu ya paka."
Kikomo cha Embedding: Bila taarifa za nafasi, mfano unachukulia tokens kama "mfuko wa maneno," ukipuuzilia mbali mfuatano wao.

Aina za Embeddings za Nafasi:

Embeddings za Nafasi za Kipekee:

Panga vector ya nafasi ya kipekee kwa kila nafasi katika mfuatano.
Mfano: Token ya kwanza katika mfuatano wowote ina embedding ya nafasi sawa, token ya pili ina nyingine, na kadhalika.
Inayotumiwa na: Mifano ya GPT ya OpenAI.

Embeddings za Nafasi za Kihusiano:

Jumuisha umbali wa kihusiano kati ya tokens badala ya nafasi zao za kipekee.
Mfano: Onyesha jinsi tokens mbili zilivyo mbali, bila kujali nafasi zao za kipekee katika mfuatano.
Inayotumiwa na: Mifano kama Transformer-XL na baadhi ya toleo za BERT.

Jinsi Embeddings za Nafasi Zinavyounganishwa:

Vipimo Vile Vile: Embeddings za nafasi zina vipimo sawa na embeddings za token.
Kuongeza: Zinajumuishwa na embeddings za token, zikichanganya utambulisho wa token na taarifa za nafasi bila kuongeza vipimo vya jumla.

Mfano wa Kuongeza Embeddings za Nafasi:

Fikiria vector ya embedding ya token ni [0.5, -0.2, 0.1] na vector yake ya embedding ya nafasi ni [0.1, 0.3, -0.1]. Embedding iliyounganishwa inayotumiwa na mfano itakuwa:

Combined Embedding = Token Embedding + Positional Embedding
= [0.5 + 0.1, -0.2 + 0.3, 0.1 + (-0.1)]
= [0.6, 0.1, 0.0]

Faida za Positional Embeddings:

Uelewa wa Muktadha: Mfano unaweza kutofautisha kati ya tokens kulingana na nafasi zao.
Uelewa wa Mfululizo: Inamwezesha mfano kuelewa sarufi, sintaksia, na maana zinazotegemea muktadha.

Mfano wa Kanuni

Fuata mfano wa kanuni kutoka https://github.com/rasbt/LLMs-from-scratch/blob/main/ch02/01_main-chapter-code/ch02.ipynb:

# Use previous code...

# Create dimensional emdeddings
"""
BPE uses a vocabulary of 50257 words
Let's supose we want to use 256 dimensions (instead of the millions used by LLMs)
"""

vocab_size = 50257
output_dim = 256
token_embedding_layer = torch.nn.Embedding(vocab_size, output_dim)

## Generate the dataloader like before
max_length = 4
dataloader = create_dataloader_v1(
raw_text, batch_size=8, max_length=max_length,
stride=max_length, shuffle=False
)
data_iter = iter(dataloader)
inputs, targets = next(data_iter)

# Apply embeddings
token_embeddings = token_embedding_layer(inputs)
print(token_embeddings.shape)
torch.Size([8, 4, 256]) # 8 x 4 x 256

# Generate absolute embeddings
context_length = max_length
pos_embedding_layer = torch.nn.Embedding(context_length, output_dim)

pos_embeddings = pos_embedding_layer(torch.arange(max_length))

input_embeddings = token_embeddings + pos_embeddings
print(input_embeddings.shape) # torch.Size([8, 4, 256])

Marejeo

https://www.manning.com/books/build-a-large-language-model-from-scratch

Previous2. Data Sampling Next4. Attention Mechanisms

Last updated 1 month ago