PyTorch快餐教程2019 (2) - Multi-Head Attention

上一节我们为了让一个完整的语言模型跑起来，可能给大家带来的学习负担过重了。没关系，我们这一节开始来还上节没讲清楚的债。

还记得我们上节提到的两个Attention吗？
两种Attention机制

上节我们给大家一个印象，现在我们正式开始介绍其原理。

Scaled Dot-Product Attention

首先说Scaled Dot-Product Attention，其计算公式为：
$
Attention(Q,K,V)=softmax(frac{QK^T}{sqrt{d_k}})V
$

Q乘以K的转置，再除以$d_k$的平方根进行缩放，经过一个可选的Mask，经过softmax之后，再与V相乘。
用代码实现如下：

def attention(query, key, value, mask=No

继续阅读与本文标签相同的文章

None

如何使用Terraform管理容器服务Kubernetes集群之--Serverless集群

如何使用Terraform管理容器服务Kubernetes集群之-标准版集群

收藏打印

PyTorch快餐教程2019 (2) - Multi-Head Attention

浏览：1562 2026-05-17

PyTorch快餐教程2019 (2) - Multi-Head Attention

Scaled Dot-Product Attention

继续阅读与本文标签相同的文章

如何使用Terraform管理容器服务Kubernetes集群之--Serverless集群

如何使用Terraform管理容器服务Kubernetes集群之-标准版集群

特别推荐 2026年05月17日星期日

精彩发现

热门标签

PyTorch快餐教程2019 (2) - Multi-Head Attention

浏览：1562 2026-05-17

PyTorch快餐教程2019 (2) - Multi-Head Attention

Scaled Dot-Product Attention

继续阅读与本文标签相同的文章

2026-05-17栏目： 教程

2026-05-17栏目： 教程

2026-05-17栏目： 教程

2026-05-17栏目： 教程

2026-05-17栏目： 教程

2026-04-23栏目： 教程

2026-04-23栏目： 教程

2026-04-23栏目： 教程

2026-04-23栏目： 教程

2026-04-24栏目： 教程

特别推荐 2026年05月17日 星期日

精彩发现

热门标签

相关文章

1628人阅读

294人阅读

1706人阅读

2026-05-17栏目：教程

2026-05-17栏目：教程

2026-05-17栏目：教程

2026-05-17栏目：教程

2026-05-17栏目：教程

2026-04-23栏目：教程

2026-04-23栏目：教程

2026-04-23栏目：教程

2026-04-23栏目：教程

2026-04-24栏目：教程

特别推荐 2026年05月17日星期日