Tudo sobre métricas, benchmarks e comparação de modelos de linguagem
📋 Visão Geral das Avaliações de LLM
A avaliação de Large Language Models (LLMs) é um campo complexo e em constante evolução. Esta página oferece um guia abrangente sobre as principais métricas, metodologias e ferramentas usadas para avaliar o desempenho de modelos de linguagem.
🎯 Por que Avaliar LLMs?
🔍 Qualidade de Resposta
Determinar se as respostas são precisas, relevantes e úteis para diferentes tarefas e domínios.
⚡ Performance
Medir velocidade, eficiência computacional e capacidade de processamento em escala.
🛡️ Segurança e Viés
Identificar vieses, conteúdo prejudicial e comportamentos não desejados do modelo.
🎪 Versatilidade
Avaliar a capacidade do modelo em diferentes tarefas e domínios de conhecimento.
🔄 Tipos de Avaliação
Avaliação Intrínseca: Mede propriedades inerentes do modelo (perplexidade, fluência)
Avaliação Extrínseca: Testa performance em tarefas específicas (QA, tradução, resumos)
Avaliação Humana: Julgamento humano sobre qualidade, utilidade e preferências
📊 Métricas de Avaliação
📤 Métricas Básicas de Texto
BLEU Score
Mede similaridade entre texto gerado e referência usando n-gramas. Usado principalmente em tradução automática. Varia de 0 a 1 (ou 0 a 100).
ROUGE
Recall-Oriented Understudy for Gisting Evaluation. Focado em recall, ideal para sumarização. ROUGE-N, ROUGE-L, ROUGE-S.
METEOR
Considera sinônimos e paráfrases, mais correlacionado com julgamento humano que BLEU. Usa stemming e wordnet.
BERTScore
Usa embeddings contextuais (BERT) para medir similaridade semântica, capturando melhor o significado.
🧠 Métricas de Capacidade Cognitiva
Perplexidade
Mede incerteza do modelo sobre o próximo token. Menor perplexidade = melhor predição. PPL = 2^(-log₂P)
Acurácia
Porcentagem de predições corretas. Simples mas fundamental para tarefas de classificação.
F1-Score
Média harmônica entre precisão e recall. Balanceia falsos positivos e negativos. F1 = 2×(P×R)/(P+R)
Exact Match (EM)
Porcentagem de respostas exatamente iguais à referência. Rigoroso mas útil para QA factual.
🧪 Calculadora de Métricas
Teste diferentes métricas com seus próprios textos: