Implementação simples: Saída do Bloco de MHA

def feedforward_network(x):
    # Rede feed‑forward simples com uma camada oculta
    # Pesos da camada oculta
    W1 = np.random.rand(x.shape[1], x.shape[1] * 2)
    # Viéses da camada oculta
    b1 = np.random.rand(x.shape[1] * 2)              
    # Pesos da camada de saída
    W2 = np.random.rand(x.shape[1] * 2, x.shape[1])  
    # Viéses da camada de saída
    b2 = np.random.rand(x.shape[1])                  
    
    # Ativação ReLU
    hidden_layer = np.maximum(0, np.dot(x, W1) + b1)  
    output_layer = np.dot(hidden_layer, W2) + b2
    
    return output_layer

# Passa as features de MHA pela rede (FC)
final_output = feedforward_network(multi_head_output)
print("Saída Final:\n", final_output)

Fonte: https://kostyanuman.substack.com/p/understanding-the-attention-mechanism.

Multi-Head Attention

Tópicos em Ciência de Dados

Objetivos de Aprendizagem

Revisão Rápida: Self‑Attention

Multi-Head Attention: Motivação

Multi-Head Attention (MHA)

Multi-Head Attention: Formulação Matemática

Implementação simples: Tokenização

Implementação simples: Self-Attention

Implementação simples: Multi-Head Attention

Implementação simples: Saída do Bloco de MHA

Resumo e Próximos Passos

Perguntas e Discussão