LLMs operam sobre sequências numéricas; os ids permitem representar qualquer token com um número inteiro que pode ser processado por matrizes de embeddings.
A tabela de embeddings converte IDs em vetores densos que carregam semântica aprendida durante o pré‑treino.
Token IDs são apenas endereços para os embeddings.
Attention is all you need
Relações de longa‑distância: "o gato que estava no quarto do apartamento 3 foi encontrado por…"
Qual parte do texto é mais importante agora?
Associa mais peso às palavras que parecem importantes, menos a aquelas que não fazem sentido.
Qual é a principal diferença entre um modelo pré‑treinado em grande escala e um modelo que recebe apenas fine‑tuning em uma tarefa específica?
Como a arquitetura Transformer, especialmente o mecanismo de atenção, facilita a criação de modelos com bilhões de parâmetros?
Em que situações um método tradicional (por ex., TF‑IDF + SVM) pode ser mais vantajoso do que um LLM para tarefas de NLP? Quais são os trade‑offs?
Quais preocupações éticas você identifica quando um LLM é usado como “juiz” em processos de tomada de decisão (ex.: triagem de currículos, avaliação de crédito)? Como mitigá‑las?