Função	Fórmula	Quando usar
ReLU		Camadas ocultas profundas (evita gradiente morto)
Sigmoid		Saída binária ou probabilidades
Tanh		Quando se deseja saída centrada em zero
GELU	(onde é a CDF normal)	Transformers, BERT, GPT

Tipo	Exemplo	Principais Componentes
CNN	LeNet, ResNet, EfficientNet	Convoluções, pooling, skip‑connections
RNN	LSTM, GRU	Gating, memória recorrente
Transformers	BERT, GPT, T5	Multi‑head self‑attention, positional encoding, feed‑forward

Perguntas e Discussão

Qual é a principal diferença entre um modelo pré‑treinado em grande escala e um modelo que recebe apenas fine‑tuning em uma tarefa específica?
Como a arquitetura Transformer, especialmente o mecanismo de atenção, facilita a criação de modelos com bilhões de parâmetros?
Em que situações um método tradicional (por ex., TF‑IDF + SVM) pode ser mais vantajoso do que um LLM para tarefas de NLP? Quais são os trade‑offs?
Quais preocupações éticas você identifica quando um LLM é usado como “juiz” em processos de tomada de decisão (ex.: triagem de currículos, avaliação de crédito)? Como mitigá‑las?

Tópicos em Ciência de Dados