7.2. Fine-Tuning to follow instructions

рдЗрд╕ рдЕрдиреБрднрд╛рдЧ рдХрд╛ рд▓рдХреНрд╖реНрдп рдпрд╣ рджрд┐рдЦрд╛рдирд╛ рд╣реИ рдХрд┐ рдХреИрд╕реЗ рдкрд╣рд▓реЗ рд╕реЗ рдкреНрд░рд╢рд┐рдХреНрд╖рд┐рдд рдореЙрдбрд▓ рдХреЛ рдирд┐рд░реНрджреЗрд╢реЛрдВ рдХрд╛ рдкрд╛рд▓рди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдлрд╛рдЗрди-рдЯреНрдпреВрди рдХрд┐рдпрд╛ рдЬрд╛рдП рди рдХрд┐ рдХреЗрд╡рд▓ рдкрд╛рда рдЙрддреНрдкрдиреНрди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП, рдЙрджрд╛рд╣рд░рдг рдХреЗ рд▓рд┐рдП, рдПрдХ рдЪреИрдЯ рдмреЙрдЯ рдХреЗ рд░реВрдк рдореЗрдВ рдХрд╛рд░реНрдпреЛрдВ рдХрд╛ рдЙрддреНрддрд░ рджреЗрдирд╛ред

Dataset

рдПрдХ LLM рдХреЛ рдирд┐рд░реНрджреЗрд╢реЛрдВ рдХрд╛ рдкрд╛рд▓рди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдлрд╛рдЗрди-рдЯреНрдпреВрди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП, LLM рдХреЛ рдлрд╛рдЗрди-рдЯреНрдпреВрди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдирд┐рд░реНрджреЗрд╢реЛрдВ рдФрд░ рдкреНрд░рддрд┐рдХреНрд░рд┐рдпрд╛рдУрдВ рдХреЗ рд╕рд╛рде рдПрдХ рдбреЗрдЯрд╛рд╕реЗрдЯ рд╣реЛрдирд╛ рдЖрд╡рд╢реНрдпрдХ рд╣реИред LLM рдХреЛ рдирд┐рд░реНрджреЗрд╢реЛрдВ рдХрд╛ рдкрд╛рд▓рди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдкреНрд░рд╢рд┐рдХреНрд╖рд┐рдд рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рд╡рд┐рднрд┐рдиреНрди рдкреНрд░рд╛рд░реВрдк рд╣реИрдВ, рдЙрджрд╛рд╣рд░рдг рдХреЗ рд▓рд┐рдП:

  • The Apply Alpaca prompt style example:

Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
Calculate the area of a circle with a radius of 5 units.

### Response:
The area of a circle is calculated using the formula \( A = \pi r^2 \). Plugging in the radius of 5 units:

\( A = \pi (5)^2 = \pi \times 25 = 25\pi \) square units.
  • Phi-3 рдкреНрд░реЙрдореНрдкреНрдЯ рд╢реИрд▓реА рдЙрджрд╛рд╣рд░рдг:

<|User|>
Can you explain what gravity is in simple terms?

<|Assistant|>
Absolutely! Gravity is a force that pulls objects toward each other.

рдПрдХ LLM рдХреЛ рдЗрди рдкреНрд░рдХрд╛рд░ рдХреЗ рдбреЗрдЯрд╛ рд╕реЗрдЯ рдХреЗ рд╕рд╛рде рдкреНрд░рд╢рд┐рдХреНрд╖рд┐рдд рдХрд░рдирд╛, рдХреЗрд╡рд▓ рдХрдЪреНрдЪреЗ рдкрд╛рда рдХреЗ рдмрдЬрд╛рдп, LLM рдХреЛ рдпрд╣ рд╕рдордЭрдиреЗ рдореЗрдВ рдорджрдж рдХрд░рддрд╛ рд╣реИ рдХрд┐ рдЙрд╕реЗ рдкреНрд░рд╛рдкреНрдд рдкреНрд░рд╢реНрдиреЛрдВ рдХреЗ рд▓рд┐рдП рд╡рд┐рд╢рд┐рд╖реНрдЯ рдЙрддреНрддрд░ рджреЗрдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИред

рдЗрд╕рд▓рд┐рдП, рдПрдХ рдбреЗрдЯрд╛ рд╕реЗрдЯ рдХреЗ рд╕рд╛рде рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдкрд╣рд▓реА рдЪреАрдЬреЛрдВ рдореЗрдВ рд╕реЗ рдПрдХ, рдЬрд┐рд╕рдореЗрдВ рдЕрдиреБрд░реЛрдз рдФрд░ рдЙрддреНрддрд░ рд╢рд╛рдорд┐рд▓ рд╣реИрдВ, рдЙрд╕ рдбреЗрдЯрд╛ рдХреЛ рд╡рд╛рдВрдЫрд┐рдд рдкреНрд░реЙрдореНрдкреНрдЯ рдкреНрд░рд╛рд░реВрдк рдореЗрдВ рдореЙрдбрд▓ рдХрд░рдирд╛ рд╣реИ, рдЬреИрд╕реЗ:

# Code from https://github.com/rasbt/LLMs-from-scratch/blob/main/ch07/01_main-chapter-code/ch07.ipynb
def format_input(entry):
instruction_text = (
f"Below is an instruction that describes a task. "
f"Write a response that appropriately completes the request."
f"\n\n### Instruction:\n{entry['instruction']}"
)

input_text = f"\n\n### Input:\n{entry['input']}" if entry["input"] else ""

return instruction_text + input_text

model_input = format_input(data[50])

desired_response = f"\n\n### Response:\n{data[50]['output']}"

print(model_input + desired_response)

рдлрд┐рд░, рд╣рдореЗрд╢рд╛ рдХреА рддрд░рд╣, рдбреЗрдЯрд╛ рд╕реЗрдЯ рдХреЛ рдкреНрд░рд╢рд┐рдХреНрд╖рдг, рдорд╛рдиреНрдпрддрд╛ рдФрд░ рдкрд░реАрдХреНрд╖рдг рдХреЗ рд▓рд┐рдП рд╕реЗрдЯ рдореЗрдВ рд╡рд┐рднрд╛рдЬрд┐рдд рдХрд░рдирд╛ рдЖрд╡рд╢реНрдпрдХ рд╣реИред

рдмреИрдЪрд┐рдВрдЧ рдФрд░ рдбреЗрдЯрд╛ рд▓реЛрдбрд░

рдлрд┐рд░, рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдХреЗ рд▓рд┐рдП рд╕рднреА рдЗрдирдкреБрдЯ рдФрд░ рдЕрдкреЗрдХреНрд╖рд┐рдд рдЖрдЙрдЯрдкреБрдЯ рдХреЛ рдмреИрдЪ рдХрд░рдирд╛ рдЖрд╡рд╢реНрдпрдХ рд╣реИред рдЗрд╕рдХреЗ рд▓рд┐рдП, рдпрд╣ рдЖрд╡рд╢реНрдпрдХ рд╣реИ:

  • рдкрд╛рдареЛрдВ рдХреЛ рдЯреЛрдХрдирд╛рдЗрдЬрд╝ рдХрд░реЗрдВ

  • рд╕рднреА рдирдореВрдиреЛрдВ рдХреЛ рд╕рдорд╛рди рд▓рдВрдмрд╛рдИ рдореЗрдВ рдкреИрдб рдХрд░реЗрдВ (рдЖрдорддреМрд░ рдкрд░ рд▓рдВрдмрд╛рдИ рдЙрд╕ рд╕рдВрджрд░реНрдн рдХреА рд▓рдВрдмрд╛рдИ рдХреЗ рд░реВрдк рдореЗрдВ рдмрдбрд╝реА рд╣реЛрдЧреА рдЬрд┐рд╕рдХрд╛ рдЙрдкрдпреЛрдЧ LLM рдХреЛ рдкреВрд░реНрд╡-рдкреНрд░рд╢рд┐рдХреНрд╖рд┐рдд рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдХрд┐рдпрд╛ рдЧрдпрд╛ рдерд╛)

  • рдПрдХ рдХрд╕реНрдЯрдо рдХреЛрд▓реЗрдЯ рдлрд╝рдВрдХреНрд╢рди рдореЗрдВ рдЗрдирдкреБрдЯ рдХреЛ 1 рд╕реНрдерд╛рдирд╛рдВрддрд░рд┐рдд рдХрд░рдХреЗ рдЕрдкреЗрдХреНрд╖рд┐рдд рдЯреЛрдХрди рдмрдирд╛рдПрдВ

  • рдкреНрд░рд╢рд┐рдХреНрд╖рдг рд╣рд╛рдирд┐ рд╕реЗ рдЙрдиреНрд╣реЗрдВ рдмрд╛рд╣рд░ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдХреБрдЫ рдкреИрдбрд┐рдВрдЧ рдЯреЛрдХрдиреЛрдВ рдХреЛ -100 рд╕реЗ рдмрджрд▓реЗрдВ: рдкрд╣рд▓реЗ endoftext рдЯреЛрдХрди рдХреЗ рдмрд╛рдж, рд╕рднреА рдЕрдиреНрдп endoftext рдЯреЛрдХрдиреЛрдВ рдХреЛ -100 рд╕реЗ рдкреНрд░рддрд┐рд╕реНрдерд╛рдкрд┐рдд рдХрд░реЗрдВ (рдХреНрдпреЛрдВрдХрд┐ cross_entropy(...,ignore_index=-100) рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдиреЗ рдХрд╛ рдЕрд░реНрде рд╣реИ рдХрд┐ рдпрд╣ -100 рд╡рд╛рд▓реЗ рд▓рдХреНрд╖реНрдпреЛрдВ рдХреЛ рдЕрдирджреЗрдЦрд╛ рдХрд░реЗрдЧрд╛)

  • [рд╡реИрдХрд▓реНрдкрд┐рдХ] рдкреНрд░рд╢реНрди рд╕реЗ рд╕рдВрдмрдВрдзрд┐рдд рд╕рднреА рдЯреЛрдХрдиреЛрдВ рдХреЛ -100 рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рдорд╛рд╕реНрдХ рдХрд░реЗрдВ рддрд╛рдХрд┐ LLM рдХреЗрд╡рд▓ рдЙрддреНрддрд░ рдЙрддреНрдкрдиреНрди рдХрд░рдирд╛ рд╕реАрдЦреЗред Alpaca рд╢реИрд▓реА рдореЗрдВ рдЗрд╕рдХрд╛ рдЕрд░реНрде рд╣реЛрдЧрд╛ ### Response: рддрдХ рд╕рдм рдХреБрдЫ рдорд╛рд╕реНрдХ рдХрд░рдирд╛ред

рдпрд╣ рдмрдирд╛рдиреЗ рдХреЗ рдмрд╛рдж, рдкреНрд░рддреНрдпреЗрдХ рдбреЗрдЯрд╛ рд╕реЗрдЯ (рдкреНрд░рд╢рд┐рдХреНрд╖рдг, рдорд╛рдиреНрдпрддрд╛ рдФрд░ рдкрд░реАрдХреНрд╖рдг) рдХреЗ рд▓рд┐рдП рдбреЗрдЯрд╛ рд▓реЛрдбрд░ рдмрдирд╛рдиреЗ рдХрд╛ рд╕рдордп рд╣реИред

рдкреВрд░реНрд╡-рдкреНрд░рд╢рд┐рдХреНрд╖рд┐рдд LLM рд▓реЛрдб рдХрд░реЗрдВ рдФрд░ рдлрд╛рдЗрди рдЯреНрдпреВрди рдХрд░реЗрдВ рдФрд░ рд╣рд╛рдирд┐ рдХреА рдЬрд╛рдВрдЪ рдХрд░реЗрдВ

рдЗрд╕реЗ рдлрд╛рдЗрди рдЯреНрдпреВрди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдПрдХ рдкреВрд░реНрд╡-рдкреНрд░рд╢рд┐рдХреНрд╖рд┐рдд LLM рд▓реЛрдб рдХрд░рдирд╛ рдЖрд╡рд╢реНрдпрдХ рд╣реИред рдпрд╣ рдкрд╣рд▓реЗ рд╣реА рдЕрдиреНрдп рдкреГрд╖реНрдареЛрдВ рдореЗрдВ рдЪрд░реНрдЪрд╛ рдХреА рдЬрд╛ рдЪреБрдХреА рд╣реИред рдлрд┐рд░, LLM рдХреЛ рдлрд╛рдЗрди рдЯреНрдпреВрди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдкрд╣рд▓реЗ рд╕реЗ рдЙрдкрдпреЛрдЧ рдХреА рдЧрдИ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдлрд╝рдВрдХреНрд╢рди рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдирд╛ рд╕рдВрднрд╡ рд╣реИред

рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдХреЗ рджреМрд░рд╛рди рдпрд╣ рднреА рджреЗрдЦрдирд╛ рд╕рдВрднрд╡ рд╣реИ рдХрд┐ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рд╣рд╛рдирд┐ рдФрд░ рдорд╛рдиреНрдпрддрд╛ рд╣рд╛рдирд┐ рдХреИрд╕реЗ рдпреБрдЧреЛрдВ рдХреЗ рджреМрд░рд╛рди рднрд┐рдиреНрди рд╣реЛрддреА рд╣реИ рдпрд╣ рджреЗрдЦрдиреЗ рдХреЗ рд▓рд┐рдП рдХрд┐ рдХреНрдпрд╛ рд╣рд╛рдирд┐ рдХрдо рд╣реЛ рд░рд╣реА рд╣реИ рдФрд░ рдХреНрдпрд╛ рдУрд╡рд░рдлрд┐рдЯрд┐рдВрдЧ рд╣реЛ рд░рд╣реА рд╣реИред рдпрд╛рдж рд░рдЦреЗрдВ рдХрд┐ рдУрд╡рд░рдлрд┐рдЯрд┐рдВрдЧ рддрдм рд╣реЛрддреА рд╣реИ рдЬрдм рдкреНрд░рд╢рд┐рдХреНрд╖рдг рд╣рд╛рдирд┐ рдХрдо рд╣реЛ рд░рд╣реА рд╣реИ рд▓реЗрдХрд┐рди рдорд╛рдиреНрдпрддрд╛ рд╣рд╛рдирд┐ рдХрдо рдирд╣реАрдВ рд╣реЛ рд░рд╣реА рд╣реИ рдпрд╛ рдпрд╣рд╛рдВ рддрдХ рдХрд┐ рдмрдврд╝ рд░рд╣реА рд╣реИред рдЗрд╕реЗ рд░реЛрдХрдиреЗ рдХреЗ рд▓рд┐рдП, рд╕рдмрд╕реЗ рд╕рд░рд▓ рдмрд╛рдд рдпрд╣ рд╣реИ рдХрд┐ рдЙрд╕ рдпреБрдЧ рдореЗрдВ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдХреЛ рд░реЛрдХ рджреЗрдВ рдЬрд╣рд╛рдВ рдпрд╣ рд╡реНрдпрд╡рд╣рд╛рд░ рд╢реБрд░реВ рд╣реЛрддрд╛ рд╣реИред

рдкреНрд░рддрд┐рдХреНрд░рд┐рдпрд╛ рдЧреБрдгрд╡рддреНрддрд╛

рдЪреВрдВрдХрд┐ рдпрд╣ рдПрдХ рд╡рд░реНрдЧреАрдХрд░рдг рдлрд╛рдЗрди-рдЯреНрдпреВрди рдирд╣реАрдВ рд╣реИ рдЬрд╣рд╛рдВ рд╣рд╛рдирд┐ рдХреЗ рдЙрддрд╛рд░-рдЪрдврд╝рд╛рд╡ рдкрд░ рдЕрдзрд┐рдХ рднрд░реЛрд╕рд╛ рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ, рдЗрд╕рд▓рд┐рдП рдкрд░реАрдХреНрд╖рдг рд╕реЗрдЯ рдореЗрдВ рдкреНрд░рддрд┐рдХреНрд░рд┐рдпрд╛рдУрдВ рдХреА рдЧреБрдгрд╡рддреНрддрд╛ рдХреА рдЬрд╛рдВрдЪ рдХрд░рдирд╛ рднреА рдорд╣рддреНрд╡рдкреВрд░реНрдг рд╣реИред рдЗрд╕рд▓рд┐рдП, рд╕рднреА рдкрд░реАрдХреНрд╖рдг рд╕реЗрдЯ рд╕реЗ рдЙрддреНрдкрдиреНрди рдкреНрд░рддрд┐рдХреНрд░рд┐рдпрд╛рдУрдВ рдХреЛ рдЗрдХрдЯреНрдард╛ рдХрд░рдирд╛ рдФрд░ рдЙрдирдХреА рдЧреБрдгрд╡рддреНрддрд╛ рдХреЛ рдореИрдиреНрдпреБрдЕрд▓ рд░реВрдк рд╕реЗ рдЬрд╛рдВрдЪрдирд╛ рдЕрдиреБрд╢рдВрд╕рд┐рдд рд╣реИ рдпрд╣ рджреЗрдЦрдиреЗ рдХреЗ рд▓рд┐рдП рдХрд┐ рдХреНрдпрд╛ рдЧрд▓рдд рдЙрддреНрддрд░ рд╣реИрдВ (рдзреНрдпрд╛рди рджреЗрдВ рдХрд┐ LLM рдкреНрд░рддрд┐рдХреНрд░рд┐рдпрд╛ рд╡рд╛рдХреНрдп рдХреЗ рдкреНрд░рд╛рд░реВрдк рдФрд░ рд╡рд╛рдХреНрдпрд╡рд┐рдиреНрдпрд╛рд╕ рдХреЛ рд╕рд╣реА рдврдВрдЧ рд╕реЗ рдмрдирд╛ рд╕рдХрддрд╛ рд╣реИ рд▓реЗрдХрд┐рди рдкреВрд░реА рддрд░рд╣ рд╕реЗ рдЧрд▓рдд рдЙрддреНрддрд░ рджреЗ рд╕рдХрддрд╛ рд╣реИред рд╣рд╛рдирд┐ рдХрд╛ рдЙрддрд╛рд░-рдЪрдврд╝рд╛рд╡ рдЗрд╕ рд╡реНрдпрд╡рд╣рд╛рд░ рдХреЛ рдирд╣реАрдВ рджрд░реНрд╢рд╛рдПрдЧрд╛)ред рдзреНрдпрд╛рди рджреЗрдВ рдХрд┐ рдпрд╣ рд╕рдореАрдХреНрд╖рд╛ рдЙрддреНрдкрдиреНрди рдкреНрд░рддрд┐рдХреНрд░рд┐рдпрд╛рдУрдВ рдФрд░ рдЕрдкреЗрдХреНрд╖рд┐рдд рдкреНрд░рддрд┐рдХреНрд░рд┐рдпрд╛рдУрдВ рдХреЛ рдЕрдиреНрдп LLMs рдХреЛ рдкрд╛рд╕ рдХрд░рдХреЗ рдФрд░ рдЙрдирд╕реЗ рдкреНрд░рддрд┐рдХреНрд░рд┐рдпрд╛рдУрдВ рдХрд╛ рдореВрд▓реНрдпрд╛рдВрдХрди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдХрд╣рдХрд░ рднреА рдХреА рдЬрд╛ рд╕рдХрддреА рд╣реИред

рдкреНрд░рддрд┐рдХреНрд░рд┐рдпрд╛рдУрдВ рдХреА рдЧреБрдгрд╡рддреНрддрд╛ рдХреА рдкреБрд╖реНрдЯрд┐ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдЪрд▓рд╛рдиреЗ рдХреЗ рд▓рд┐рдП рдЕрдиреНрдп рдкрд░реАрдХреНрд╖рдг:

  1. рдорд╛рд╕рд┐рд╡ рдорд▓реНрдЯреАрдЯрд╛рд╕реНрдХ рд▓реИрдВрдЧреНрд╡реЗрдЬ рдЕрдВрдбрд░рд╕реНрдЯреИрдВрдбрд┐рдВрдЧ (MMLU): MMLU 57 рд╡рд┐рд╖рдпреЛрдВ рдореЗрдВ рдПрдХ рдореЙрдбрд▓ рдХреЗ рдЬреНрдЮрд╛рди рдФрд░ рд╕рдорд╕реНрдпрд╛-рд╕рдорд╛рдзрд╛рди рдХреНрд╖рдорддрд╛рдУрдВ рдХрд╛ рдореВрд▓реНрдпрд╛рдВрдХрди рдХрд░рддрд╛ рд╣реИ, рдЬрд┐рд╕рдореЗрдВ рдорд╛рдирд╡рд┐рдХреА, рд╡рд┐рдЬреНрдЮрд╛рди рдФрд░ рдЕрдзрд┐рдХ рд╢рд╛рдорд┐рд▓ рд╣реИрдВред рдпрд╣ рд╡рд┐рднрд┐рдиреНрди рдХрдард┐рдирд╛рдИ рд╕реНрддрд░реЛрдВ рдкрд░ рд╕рдордЭ рдХрд╛ рдЖрдХрд▓рди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдмрд╣реБрд╡рд┐рдХрд▓реНрдкреАрдп рдкреНрд░рд╢реНрдиреЛрдВ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рддрд╛ рд╣реИ, рдкреНрд░рд╛рд░рдВрднрд┐рдХ рд╕реЗ рд▓реЗрдХрд░ рдЙрдиреНрдирдд рдкреЗрд╢реЗрд╡рд░ рддрдХред

  2. LMSYS рдЪреИрдЯрдмреЙрдЯ рдПрд░рд┐рдирд╛: рдпрд╣ рдкреНрд▓реЗрдЯрдлрд╝реЙрд░реНрдо рдЙрдкрдпреЛрдЧрдХрд░реНрддрд╛рдУрдВ рдХреЛ рд╡рд┐рднрд┐рдиреНрди рдЪреИрдЯрдмреЙрдЯреНрд╕ рдХреА рдкреНрд░рддрд┐рдХреНрд░рд┐рдпрд╛рдУрдВ рдХреА рддреБрд▓рдирд╛ рдПрдХ рд╕рд╛рде рдХрд░рдиреЗ рдХреА рдЕрдиреБрдорддрд┐ рджреЗрддрд╛ рд╣реИред рдЙрдкрдпреЛрдЧрдХрд░реНрддрд╛ рдПрдХ рдкреНрд░реЙрдореНрдкреНрдЯ рдЗрдирдкреБрдЯ рдХрд░рддреЗ рд╣реИрдВ, рдФрд░ рдХрдИ рдЪреИрдЯрдмреЙрдЯреНрд╕ рдкреНрд░рддрд┐рдХреНрд░рд┐рдпрд╛рдПрдБ рдЙрддреНрдкрдиреНрди рдХрд░рддреЗ рд╣реИрдВ рдЬрд┐рдиреНрд╣реЗрдВ рд╕реАрдзреЗ рддреБрд▓рдирд╛ рдХреА рдЬрд╛ рд╕рдХрддреА рд╣реИред

  3. AlpacaEval: AlpacaEval рдПрдХ рд╕реНрд╡рдЪрд╛рд▓рд┐рдд рдореВрд▓реНрдпрд╛рдВрдХрди рдврд╛рдВрдЪрд╛ рд╣реИ рдЬрд╣рд╛рдВ рдПрдХ рдЙрдиреНрдирдд LLM рдЬреИрд╕реЗ GPT-4 рдЕрдиреНрдп рдореЙрдбрд▓реЛрдВ рдХреА рдкреНрд░рддрд┐рдХреНрд░рд┐рдпрд╛рдУрдВ рдХрд╛ рд╡рд┐рднрд┐рдиреНрди рдкреНрд░реЙрдореНрдкреНрдЯреНрд╕ рдкрд░ рдореВрд▓реНрдпрд╛рдВрдХрди рдХрд░рддрд╛ рд╣реИред

  4. рдЬрдирд░рд▓ рд▓реИрдВрдЧреНрд╡реЗрдЬ рдЕрдВрдбрд░рд╕реНрдЯреИрдВрдбрд┐рдВрдЧ рдореВрд▓реНрдпрд╛рдВрдХрди (GLUE): GLUE рдиреМ рдкреНрд░рд╛рдХреГрддрд┐рдХ рднрд╛рд╖рд╛ рд╕рдордЭ рдХрд╛рд░реНрдпреЛрдВ рдХрд╛ рдПрдХ рд╕рдВрдЧреНрд░рд╣ рд╣реИ, рдЬрд┐рд╕рдореЗрдВ рднрд╛рд╡рдирд╛ рд╡рд┐рд╢реНрд▓реЗрд╖рдг, рдкрд╛рда рд╕рдВрдмрдВрдз рдФрд░ рдкреНрд░рд╢реНрди рдЙрддреНрддрд░ рд╢рд╛рдорд┐рд▓ рд╣реИрдВред

  5. SuperGLUE: GLUE рдкрд░ рдЖрдзрд╛рд░рд┐рдд, SuperGLUE рдореЗрдВ рдЕрдзрд┐рдХ рдЪреБрдиреМрддреАрдкреВрд░реНрдг рдХрд╛рд░реНрдп рд╢рд╛рдорд┐рд▓ рд╣реИрдВ рдЬреЛ рд╡рд░реНрддрдорд╛рди рдореЙрдбрд▓реЛрдВ рдХреЗ рд▓рд┐рдП рдХрдард┐рди рд╣реЛрдиреЗ рдХреЗ рд▓рд┐рдП рдбрд┐рдЬрд╝рд╛рдЗрди рдХрд┐рдП рдЧрдП рд╣реИрдВред

  6. рдЗрдорд┐рдЯреЗрд╢рди рдЧреЗрдо рдмреЗрдВрдЪрдорд╛рд░реНрдХ рдХреЗ рдкрд░реЗ (BIG-bench): BIG-bench рдПрдХ рдмрдбрд╝реЗ рдкреИрдорд╛рдиреЗ рдкрд░ рдмреЗрдВрдЪрдорд╛рд░реНрдХ рд╣реИ рдЬрд┐рд╕рдореЗрдВ 200 рд╕реЗ рдЕрдзрд┐рдХ рдХрд╛рд░реНрдп рд╣реИрдВ рдЬреЛ рдПрдХ рдореЙрдбрд▓ рдХреА рдХреНрд╖рдорддрд╛рдУрдВ рдХрд╛ рдкрд░реАрдХреНрд╖рдг рдХрд░рддреЗ рд╣реИрдВ рдЬреИрд╕реЗ рддрд░реНрдХ, рдЕрдиреБрд╡рд╛рдж, рдФрд░ рдкреНрд░рд╢реНрди рдЙрддреНрддрд░ред

  7. рднрд╛рд╖рд╛ рдореЙрдбрд▓реЛрдВ рдХрд╛ рд╕рдордЧреНрд░ рдореВрд▓реНрдпрд╛рдВрдХрди (HELM): HELM рд╡рд┐рднрд┐рдиреНрди рдореЗрдЯреНрд░рд┐рдХреНрд╕ рдЬреИрд╕реЗ рд╕рдЯреАрдХрддрд╛, robustness, рдФрд░ рдирд┐рд╖реНрдкрдХреНрд╖рддрд╛ рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рдПрдХ рд╡реНрдпрд╛рдкрдХ рдореВрд▓реНрдпрд╛рдВрдХрди рдкреНрд░рджрд╛рди рдХрд░рддрд╛ рд╣реИред

  8. OpenAI Evals: OpenAI рджреНрд╡рд╛рд░рд╛ рдПрдХ рдУрдкрди-рд╕реЛрд░реНрд╕ рдореВрд▓реНрдпрд╛рдВрдХрди рдврд╛рдВрдЪрд╛ рдЬреЛ рдХрд╕реНрдЯрдо рдФрд░ рдорд╛рдирдХреАрдХреГрдд рдХрд╛рд░реНрдпреЛрдВ рдкрд░ AI рдореЙрдбрд▓реЛрдВ рдХрд╛ рдкрд░реАрдХреНрд╖рдг рдХрд░рдиреЗ рдХреА рдЕрдиреБрдорддрд┐ рджреЗрддрд╛ рд╣реИред

  9. HumanEval: рдкреНрд░реЛрдЧреНрд░рд╛рдорд┐рдВрдЧ рд╕рдорд╕реНрдпрд╛рдУрдВ рдХрд╛ рдПрдХ рд╕рдВрдЧреНрд░рд╣ рдЬрд┐рд╕рдХрд╛ рдЙрдкрдпреЛрдЧ рднрд╛рд╖рд╛ рдореЙрдбрд▓реЛрдВ рдХреА рдХреЛрдб рдЬрдирд░реЗрд╢рди рдХреНрд╖рдорддрд╛рдУрдВ рдХрд╛ рдореВрд▓реНрдпрд╛рдВрдХрди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИред

  10. рд╕реНрдЯреИрдирдлреЛрд░реНрдб рдкреНрд░рд╢реНрди рдЙрддреНрддрд░ рдбреЗрдЯрд╛ рд╕реЗрдЯ (SQuAD): SQuAD рдореЗрдВ рд╡рд┐рдХрд┐рдкреАрдбрд┐рдпрд╛ рд▓реЗрдЦреЛрдВ рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдкреНрд░рд╢реНрди рд╣реЛрддреЗ рд╣реИрдВ, рдЬрд╣рд╛рдВ рдореЙрдбрд▓реЛрдВ рдХреЛ рд╕рдЯреАрдХ рдЙрддреНрддрд░ рджреЗрдиреЗ рдХреЗ рд▓рд┐рдП рдкрд╛рда рдХреЛ рд╕рдордЭрдирд╛ рдЖрд╡рд╢реНрдпрдХ рд╣реИред

  11. TriviaQA: рдЯреНрд░рд┐рд╡рд┐рдпрд╛ рдкреНрд░рд╢реНрдиреЛрдВ рдФрд░ рдЙрддреНрддрд░реЛрдВ рдХрд╛ рдПрдХ рдмрдбрд╝реЗ рдкреИрдорд╛рдиреЗ рдкрд░ рдбреЗрдЯрд╛ рд╕реЗрдЯ, рд╕рд╛рде рд╣реА рд╕рд╛рдХреНрд╖реНрдп рджрд╕реНрддрд╛рд╡реЗрдЬрд╝ред

рдФрд░ рдХрдИ рдФрд░ рдмрд╣реБрдд рдХреБрдЫ

рдирд┐рд░реНрджреЗрд╢реЛрдВ рдХрд╛ рдкрд╛рд▓рди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдлрд╛рдЗрди-рдЯреНрдпреВрдирд┐рдВрдЧ рдХреЛрдб

рдЖрдк рдЗрд╕ рдлрд╛рдЗрди рдЯреНрдпреВрдирд┐рдВрдЧ рдХреЛ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдХреЛрдб рдХрд╛ рдПрдХ рдЙрджрд╛рд╣рд░рдг https://github.com/rasbt/LLMs-from-scratch/blob/main/ch07/01_main-chapter-code/gpt_instruction_finetuning.py рдкрд░ рдкрд╛ рд╕рдХрддреЗ рд╣реИрдВред

рд╕рдВрджрд░реНрдн

Last updated