Ctrlk

START
机器学习
神经网络
自然语言处理
搜索推荐
数学基础
实践技巧
工程栈
细分领域
算法
LATEX公式备忘

由 GitBook 提供支持

在本页

这有帮助吗？

神经网络
表征结构
Transformer

Multi-Head-Attention

Multi-Head-Attention的时间复杂度 qkv为什么要乘上不同的参数矩阵 qk相乘得到attention矩阵后, 为什么要进行scale Multi-head Attention中多头的作用

上一页Transformer 下一页Multi-Head-Attention的时间复杂度

最后更新于4年前

这有帮助吗？