5. LLM Architecture
LLM Architecture
Lengo la awamu hii ya tano ni rahisi sana: Kuunda usanifu wa LLM kamili. Panga kila kitu pamoja, tumia tabaka zote na uunde kazi zote za kuzalisha maandiko au kubadilisha maandiko kuwa IDs na kinyume chake.
Usanifu huu utatumika kwa mafunzo na kutabiri maandiko baada ya kufundishwa.
Mfano wa usanifu wa LLM kutoka https://github.com/rasbt/LLMs-from-scratch/blob/main/ch04/01_main-chapter-code/ch04.ipynb:
Mwakilishi wa kiwango cha juu unaweza kuonekana katika:
Input (Maandishi yaliyotolewa): Mchakato huanza na maandiko yaliyotolewa, ambayo yanabadilishwa kuwa uwakilishi wa nambari.
Tabaka la Token Embedding na Positional Embedding: Maandishi yaliyotolewa yanapita kupitia tabaka la token embedding na tabaka la positional embedding, ambayo yanakamata nafasi ya token katika mfuatano, muhimu kwa kuelewa mpangilio wa maneno.
Blocks za Transformer: Mfano una blocks 12 za transformer, kila moja ikiwa na tabaka nyingi. Blocks hizi hurudia mfuatano ufuatao:
Masked Multi-Head Attention: Inaruhusu mfano kuzingatia sehemu tofauti za maandiko ya ingizo kwa wakati mmoja.
Layer Normalization: Hatua ya kawaida ili kuimarisha na kuboresha mafunzo.
Feed Forward Layer: Inawajibika kwa kuchakata habari kutoka kwa tabaka la umakini na kufanya utabiri kuhusu token inayofuata.
Dropout Layers: Tabaka hizi zinazuia overfitting kwa kuacha vitengo kwa bahati nasibu wakati wa mafunzo.
Tabaka la Matokeo ya Mwisho: Mfano unatoa tensor ya 4x50,257-dimensional, ambapo 50,257 inawakilisha ukubwa wa msamiati. Kila safu katika tensor hii inahusiana na vector ambayo mfano hutumia kutabiri neno linalofuata katika mfuatano.
Lengo: Lengo ni kuchukua embeddings hizi na kuzibadilisha tena kuwa maandiko. Kwa haswa, safu ya mwisho ya matokeo inatumika kuzalisha neno linalofuata, linalowakilishwa kama "forward" katika mchoro huu.
Code representation
Kazi ya Kuamsha ya GELU
Madhumuni na Ufanisi
GELU (Gaussian Error Linear Unit): Kazi ya kuamsha ambayo inaingiza kutokuwa na mstari ndani ya mfano.
Kuamsha Kunyumbulika: Tofauti na ReLU, ambayo inafanya kuwa sifuri kwa pembejeo hasi, GELU inachora kwa laini pembejeo hadi matokeo, ikiruhusu thamani ndogo, zisizo sifuri kwa pembejeo hasi.
Mwelekeo wa Kihesabu:
Lengo la matumizi ya kazi hii baada ya tabaka za mstari ndani ya tabaka la FeedForward ni kubadilisha data ya mstari kuwa isiyo ya mstari ili kuruhusu mfano kujifunza uhusiano tata, usio wa mstari.
Mtandao wa Neva wa FeedForward
Mifano imeongezwa kama maoni ili kuelewa vyema mifano ya matrices:
Madhumuni na Ufanisi
Mtandao wa FeedForward Kulingana na Nafasi: Inatumia mtandao wa viwango viwili vilivyounganishwa kikamilifu kwa kila nafasi tofauti na kwa njia sawa.
Maelezo ya Kiwango:
Kiwango cha Kwanza cha Mstari: Kinapanua ukubwa kutoka
emb_dim
hadi4 * emb_dim
.Kazi ya GELU: Inatumia kutokuwa na mstari.
Kiwango cha Pili cha Mstari: Kinapunguza ukubwa kurudi kwenye
emb_dim
.
Kama unavyoona, mtandao wa Feed Forward unatumia viwango 3. Kiwango cha kwanza ni kiwango cha mstari ambacho kitazidisha ukubwa kwa 4 kwa kutumia uzito wa mstari (vigezo vya kufundisha ndani ya mfano). Kisha, kazi ya GELU inatumika katika ukubwa wote ili kuleta mabadiliko yasiyo ya mstari ili kupata uwakilishi mzuri na hatimaye kiwango kingine cha mstari kinatumika kurudi kwenye ukubwa wa awali wa ukubwa.
Mekanismu ya Umakini wa Vichwa Vingi
Hii tayari imeelezwa katika sehemu ya awali.
Madhumuni na Ufanisi
Umakini wa Kujitenga wa Vichwa Vingi: Inaruhusu mfano kuzingatia nafasi tofauti ndani ya mlolongo wa ingizo wakati wa kuandika token.
Vipengele Muhimu:
Maswali, Funguo, Thamani: Mipango ya mstari ya ingizo, inayotumika kuhesabu alama za umakini.
Vichwa: Mekanismu nyingi za umakini zinazoendesha kwa sambamba (
num_heads
), kila moja ikiwa na ukubwa mdogo (head_dim
).Alama za Umakini: Zinahesabiwa kama bidhaa ya dot ya maswali na funguo, zimepimwa na kufichwa.
Kuficha: Mask ya sababu inatumika kuzuia mfano kuzingatia token za baadaye (muhimu kwa mifano ya autoregressive kama GPT).
Uzito wa Umakini: Softmax ya alama za umakini zilizofichwa na kupimwa.
Vector ya Muktadha: Jumla ya uzito wa thamani, kulingana na uzito wa umakini.
Mipango ya Matokeo: Kiwango cha mstari cha kuunganisha matokeo ya vichwa vyote.
Lengo la mtandao huu ni kupata uhusiano kati ya token katika muktadha sawa. Zaidi ya hayo, token zimegawanywa katika vichwa tofauti ili kuzuia overfitting ingawa uhusiano wa mwisho uliofanywa kwa kila kichwa unachanganywa mwishoni mwa mtandao huu.
Zaidi ya hayo, wakati wa mafunzo mask ya sababu inatumika ili token za baadaye zisichukuliwe katika akaunti wakati wa kutafuta uhusiano maalum kwa token na dropout pia inatumika ili kuzuia overfitting.
Kiwango Kurekebisha
Madhumuni na Ufanisi
Layer Normalization: Mbinu inayotumika kurekebisha ingizo kati ya vipengele (embedding dimensions) kwa kila mfano binafsi katika kundi.
Vipengele:
eps
: Kiwango kidogo (1e-5
) kinachoongezwa kwenye variance ili kuzuia kugawanya na sifuri wakati wa normalization.scale
nashift
: Vigezo vinavyoweza kujifunza (nn.Parameter
) vinavyomruhusu modeli kupima na kuhamasisha matokeo yaliyorekebishwa. Vimeanzishwa kuwa moja na sifuri, mtawalia.Mchakato wa Kurekebisha:
Hesabu Mean (
mean
): Hesabu mean ya ingizox
kati ya dimension ya embedding (dim=-1
), ikihifadhi dimension kwa ajili ya broadcasting (keepdim=True
).Hesabu Variance (
var
): Hesabu variance yax
kati ya dimension ya embedding, pia ikihifadhi dimension. Kigezo chaunbiased=False
kinahakikisha kuwa variance inahesabiwa kwa kutumia mhesabu wa biased (kugawanya naN
badala yaN-1
), ambayo ni sahihi wakati wa kurekebisha juu ya vipengele badala ya sampuli.Normalize (
norm_x
): Inapunguza mean kutokax
na kugawanya na mzizi wa variance pamoja naeps
.Scale na Shift: Inatumia vigezo vinavyoweza kujifunza
scale
nashift
kwa matokeo yaliyorekebishwa.
Lengo ni kuhakikisha mean ya 0 na variance ya 1 kati ya dimensions zote za token sawa. Lengo la hili ni kuimarisha mafunzo ya mitandao ya neva ya kina kwa kupunguza mabadiliko ya ndani ya covariate, ambayo inahusisha mabadiliko katika usambazaji wa uhamasishaji wa mtandao kutokana na kubadilishwa kwa vigezo wakati wa mafunzo.
Transformer Block
Mifano imeongezwa kama maoni ili kuelewa vyema sura za matrices:
Madhumuni na Ufanisi
Muundo wa Tabaka: Inachanganya umakini wa vichwa vingi, mtandao wa feedforward, urekebishaji wa tabaka, na muunganisho wa ziada.
Urekebishaji wa Tabaka: Unatumika kabla ya tabaka za umakini na feedforward kwa mafunzo thabiti.
Muunganisho wa Ziada (Mifupisho): Ongeza ingizo la tabaka kwa matokeo yake ili kuboresha mtiririko wa gradient na kuwezesha mafunzo ya mitandao yenye kina.
Dropout: Unatumika baada ya tabaka za umakini na feedforward kwa ajili ya urekebishaji.
Ufanisi wa Hatua kwa Hatua
Njia ya Kwanza ya Ziada (Umakini wa Kibinafsi):
Ingizo (
shortcut
): Hifadhi ingizo la awali kwa muunganisho wa ziada.Urekebishaji wa Tabaka (
norm1
): Rekebisha ingizo.Umakini wa Vichwa Vingi (
att
): Tumia umakini wa kibinafsi.Dropout (
drop_shortcut
): Tumia dropout kwa urekebishaji.Ongeza Ziada (
x + shortcut
): Changanya na ingizo la awali.
Njia ya Pili ya Ziada (FeedForward):
Ingizo (
shortcut
): Hifadhi ingizo lililosasishwa kwa muunganisho wa ziada unaofuata.Urekebishaji wa Tabaka (
norm2
): Rekebisha ingizo.Mtandao wa FeedForward (
ff
): Tumia mabadiliko ya feedforward.Dropout (
drop_shortcut
): Tumia dropout.Ongeza Ziada (
x + shortcut
): Changanya na ingizo kutoka kwa njia ya kwanza ya ziada.
Block ya transformer inakusanya mitandao yote pamoja na kutumia urekebishaji na dropouts kuboresha utulivu wa mafunzo na matokeo. Kumbuka jinsi dropouts zinavyofanywa baada ya matumizi ya kila mtandao wakati urekebishaji unatumika kabla.
Zaidi ya hayo, inatumia mifupisho ambayo inajumuisha kuongeza matokeo ya mtandao na ingizo lake. Hii husaidia kuzuia tatizo la gradient inayopotea kwa kuhakikisha kuwa tabaka za mwanzo zinachangia "kiasi" kama zile za mwisho.
GPTModel
Mifano imeongezwa kama maelezo ili kuelewa vyema sura za matrices:
Madhumuni na Ufanisi
Tabaka za Kuunganisha:
Token Embeddings (
tok_emb
): Hubadilisha viashiria vya token kuwa embeddings. Kama ukumbusho, hizi ni uzito zinazotolewa kwa kila kipimo cha kila token katika kamusi.Positional Embeddings (
pos_emb
): Inaongeza taarifa za nafasi kwa embeddings ili kukamata mpangilio wa token. Kama ukumbusho, hizi ni uzito zinazotolewa kwa token kulingana na nafasi yake katika maandiko.Dropout (
drop_emb
): Inatumika kwa embeddings kwa ajili ya udhibiti.Transformer Blocks (
trf_blocks
): Safu yan_layers
transformer blocks ili kushughulikia embeddings.Normalisasi ya Mwisho (
final_norm
): Normalisasi ya tabaka kabla ya tabaka la matokeo.Tabaka la Matokeo (
out_head
): Inatoa hali za mwisho zilizofichwa kwa ukubwa wa kamusi ili kutoa logits kwa ajili ya utabiri.
Lengo la darasa hili ni kutumia mitandao mingine yote iliyotajwa ili kutabiri token inayofuata katika mfuatano, ambayo ni muhimu kwa kazi kama vile uzalishaji wa maandiko.
Kumbuka jinsi itakavy tumia transformer blocks nyingi kadri zilivyoonyeshwa na kwamba kila transformer block inatumia neti moja ya multi-head attestation, neti moja ya feed forward na normalizations kadhaa. Hivyo ikiwa transformer blocks 12 zinatumika, ongeza hii kwa 12.
Zaidi ya hayo, tabaka la normalisasi linaongezwa kabla ya matokeo na tabaka la mwisho la laini linatumika mwishoni kupata matokeo yenye vipimo sahihi. Kumbuka jinsi kila vector ya mwisho ina ukubwa wa kamusi iliyotumika. Hii ni kwa sababu inajaribu kupata uwezekano kwa kila token inayowezekana ndani ya kamusi.
Idadi ya Vigezo vya kufundisha
Baada ya muundo wa GPT kufafanuliwa, inawezekana kugundua idadi ya vigezo vya kufundisha:
Hatua kwa Hatua Hesabu
1. Tabaka za Kuunganisha: Kuunganisha Tokeni & Kuunganisha Nafasi
Tabaka:
nn.Embedding(vocab_size, emb_dim)
Vigezo:
vocab_size * emb_dim
Tabaka:
nn.Embedding(context_length, emb_dim)
Vigezo:
context_length * emb_dim
Jumla ya Vigezo vya Embedding
2. Transformer Blocks
Kuna blocks 12 za transformer, hivyo tutahesabu vigezo vya block moja kisha kuzidisha kwa 12.
Parameters per Transformer Block
a. Multi-Head Attention
Components:
Query Linear Layer (
W_query
):nn.Linear(emb_dim, emb_dim, bias=False)
Key Linear Layer (
W_key
):nn.Linear(emb_dim, emb_dim, bias=False)
Value Linear Layer (
W_value
):nn.Linear(emb_dim, emb_dim, bias=False)
Output Projection (
out_proj
):nn.Linear(emb_dim, emb_dim)
Calculations:
Kila moja ya
W_query
,W_key
,W_value
:
Kwa kuwa kuna tabaka tatu kama hizo:
Output Projection (
out_proj
):
Jumla ya Vigezo vya Multi-Head Attention:
b. FeedForward Network
Components:
First Linear Layer:
nn.Linear(emb_dim, 4 * emb_dim)
Second Linear Layer:
nn.Linear(4 * emb_dim, emb_dim)
Calculations:
First Linear Layer:
Second Linear Layer:
Jumla ya Vigezo vya FeedForward:
c. Layer Normalizations
Components:
Mifano miwili ya
LayerNorm
kwa block.Kila
LayerNorm
ina vigezo2 * emb_dim
(kuyeyusha na kuhamasisha).Calculations:
d. Jumla ya Vigezo kwa Transformer Block
Jumla ya Vigezo kwa ajili ya Vizui vya Transformer Vyote
3. Tabaka la Mwisho
a. Kurekebisha Tabaka la Mwisho
Parameta:
2 * emb_dim
(kubwa na kuhamasisha)
b. Safu ya Matokeo (out_head
)
Safu:
nn.Linear(emb_dim, vocab_size, bias=False)
Parameta:
emb_dim * vocab_size
4. Kuangazia Parameta Zote
Generate Text
Kuwa na mfano unaotabiri token inayofuata kama ile ya awali, inahitajika tu kuchukua thamani za token za mwisho kutoka kwa matokeo (kama zitakuwa zile za token inayotabiriwa), ambayo itakuwa thamani kwa kila kipengee katika msamiati na kisha tumia kazi ya softmax
kubadilisha vipimo kuwa uwezekano vinavyos suma 1 na kisha pata index ya kipengee kikubwa zaidi, ambacho kitakuwa index ya neno ndani ya msamiati.
Code from https://github.com/rasbt/LLMs-from-scratch/blob/main/ch04/01_main-chapter-code/ch04.ipynb:
Marejeleo
Last updated