📚 Glossário de Termos
BPE (Byte Pair Encoding)
Algoritmo de tokenização que quebra palavras em subunidades menores. Por exemplo, "programação" pode virar ["program", "##ação"]. Isso ajuda o modelo a entender palavras novas combinando partes conhecidas.
Embeddings
Representações numéricas de palavras como vetores multidimensionais. Palavras com significados similares ficam próximas no espaço vetorial. Por exemplo, "gato" e "cachorro" têm embeddings parecidos por serem ambos animais domésticos.
Multi-Head Attention
Mecanismo que permite ao modelo focar em diferentes aspectos das palavras simultaneamente. Cada "cabeça" aprende um tipo diferente de relação - uma pode focar em sintaxe, outra em semântica, etc.
Query, Key, Value (Q, K, V)
Componentes do mecanismo de atenção. Query é "o que estou procurando", Key é "o que cada palavra oferece", e Value é "a informação que será extraída". A atenção calcula similaridade entre Q e K para determinar quanto foco dar a cada V.
Softmax
Função que converte números em probabilidades (somam 100%). Valores maiores ficam com probabilidades maiores, mas todos os valores permanecem positivos.
Temperatura
Controla a "criatividade" do modelo. Temperatura baixa (0.1) = respostas mais previsíveis. Temperatura alta (1.5) = respostas mais variadas e criativas.
Top-k Sampling
Estratégia que considera apenas as k palavras mais prováveis para a próxima predição. Top-k=3 significa escolher entre as 3 opções mais prováveis, ignorando o resto.
Beam Search
Algoritmo de busca que mantém múltiplas sequências candidatas em paralelo, escolhendo sempre as mais prováveis. Beam=3 significa manter as 3 melhores sequências a cada passo.
Logits
Valores brutos de saída do modelo antes da aplicação do softmax. Números maiores indicam maior probabilidade, mas ainda não são probabilidades propriamente ditas.
Transformer
Arquitetura de rede neural que revolucionou o processamento de linguagem natural. Usa atenção para processar todas as palavras simultaneamente, ao invés de uma por vez como modelos anteriores.
Contexto
Informação agregada de todas as palavras anteriores, processada pelo mecanismo de atenção. É usado para predizer a próxima palavra considerando todo o histórico da conversa.
PCA (Análise de Componentes Principais)
Técnica para reduzir dimensionalidade dos dados. Aqui usamos para visualizar embeddings 8D em um gráfico 2D, preservando as relações mais importantes entre as palavras.