7.2. Fine-Tuning to follow instructions
O objetivo desta seção é mostrar como ajustar finamente um modelo já pré-treinado para seguir instruções em vez de apenas gerar texto, por exemplo, respondendo a tarefas como um chatbot.
Conjunto de Dados
Para ajustar finamente um LLM para seguir instruções, é necessário ter um conjunto de dados com instruções e respostas para ajustar o LLM. Existem diferentes formatos para treinar um LLM a seguir instruções, por exemplo:
O exemplo de estilo de prompt Apply Alpaca:
Exemplo de Estilo de Prompt Phi-3:
Treinar um LLM com esses tipos de conjuntos de dados em vez de apenas texto bruto ajuda o LLM a entender que ele precisa fornecer respostas específicas às perguntas que recebe.
Portanto, uma das primeiras coisas a fazer com um conjunto de dados que contém solicitações e respostas é modelar esses dados no formato de prompt desejado, como:
Então, como sempre, é necessário separar o conjunto de dados em conjuntos para treinamento, validação e teste.
Batching & Data Loaders
Então, é necessário agrupar todas as entradas e saídas esperadas para o treinamento. Para isso, é necessário:
Tokenizar os textos
Preencher todas as amostras para o mesmo comprimento (geralmente o comprimento será tão grande quanto o comprimento do contexto usado para pré-treinar o LLM)
Criar os tokens esperados deslocando 1 a entrada em uma função de colagem personalizada
Substituir alguns tokens de preenchimento por -100 para excluí-los da perda de treinamento: Após o primeiro token
endoftext
, substituir todos os outros tokensendoftext
por -100 (porque usarcross_entropy(...,ignore_index=-100)
significa que ele ignorará alvos com -100)[Opcional] Mascarar usando -100 também todos os tokens pertencentes à pergunta para que o LLM aprenda apenas a gerar a resposta. No estilo Apply Alpaca, isso significará mascarar tudo até
### Response:
Com isso criado, é hora de criar os carregadores de dados para cada conjunto de dados (treinamento, validação e teste).
Load pre-trained LLM & Fine tune & Loss Checking
É necessário carregar um LLM pré-treinado para ajustá-lo. Isso já foi discutido em outras páginas. Então, é possível usar a função de treinamento previamente utilizada para ajustar o LLM.
Durante o treinamento, também é possível ver como a perda de treinamento e a perda de validação variam durante as épocas para ver se a perda está sendo reduzida e se o overfitting está ocorrendo. Lembre-se de que o overfitting ocorre quando a perda de treinamento está sendo reduzida, mas a perda de validação não está sendo reduzida ou até mesmo aumentando. Para evitar isso, a coisa mais simples a fazer é parar o treinamento na época em que esse comportamento começa.
Response Quality
Como este não é um ajuste fino de classificação onde é possível confiar mais nas variações de perda, também é importante verificar a qualidade das respostas no conjunto de teste. Portanto, é recomendado reunir as respostas geradas de todos os conjuntos de teste e verificar sua qualidade manualmente para ver se há respostas erradas (note que é possível que o LLM crie corretamente o formato e a sintaxe da frase de resposta, mas dê uma resposta completamente errada. A variação da perda não refletirá esse comportamento). Note que também é possível realizar essa revisão passando as respostas geradas e as respostas esperadas para outros LLMs e pedir que avaliem as respostas.
Outros testes a serem realizados para verificar a qualidade das respostas:
Measuring Massive Multitask Language Understanding (MMLU): MMLU avalia o conhecimento e as habilidades de resolução de problemas de um modelo em 57 disciplinas, incluindo humanidades, ciências e mais. Ele usa perguntas de múltipla escolha para avaliar a compreensão em vários níveis de dificuldade, desde o elementar até o profissional avançado.
LMSYS Chatbot Arena: Esta plataforma permite que os usuários comparem respostas de diferentes chatbots lado a lado. Os usuários inserem um prompt, e vários chatbots geram respostas que podem ser comparadas diretamente.
AlpacaEval: AlpacaEval é uma estrutura de avaliação automatizada onde um LLM avançado como o GPT-4 avalia as respostas de outros modelos a vários prompts.
General Language Understanding Evaluation (GLUE): GLUE é uma coleção de nove tarefas de compreensão de linguagem natural, incluindo análise de sentimentos, implicação textual e resposta a perguntas.
SuperGLUE: Construindo sobre o GLUE, o SuperGLUE inclui tarefas mais desafiadoras projetadas para serem difíceis para os modelos atuais.
Beyond the Imitation Game Benchmark (BIG-bench): BIG-bench é um benchmark em larga escala com mais de 200 tarefas que testam as habilidades de um modelo em áreas como raciocínio, tradução e resposta a perguntas.
Holistic Evaluation of Language Models (HELM): HELM fornece uma avaliação abrangente em várias métricas, como precisão, robustez e justiça.
OpenAI Evals: Uma estrutura de avaliação de código aberto da OpenAI que permite testar modelos de IA em tarefas personalizadas e padronizadas.
HumanEval: Uma coleção de problemas de programação usados para avaliar as habilidades de geração de código de modelos de linguagem.
Stanford Question Answering Dataset (SQuAD): SQuAD consiste em perguntas sobre artigos da Wikipedia, onde os modelos devem compreender o texto para responder com precisão.
TriviaQA: Um conjunto de dados em larga escala de perguntas e respostas de trivia, juntamente com documentos de evidência.
e muitos, muitos mais
Follow instructions fine-tuning code
Você pode encontrar um exemplo do código para realizar esse ajuste fino em https://github.com/rasbt/LLMs-from-scratch/blob/main/ch07/01_main-chapter-code/gpt_instruction_finetuning.py
References
Last updated