📋
GARNET
Ctrlk
  • START
  • 机器学习
  • 神经网络
    • 梯度
    • 激活函数
    • 损失函数
    • 优化算法
    • Normalization
    • 表征结构
      • Attention机制
      • CNN
      • Transformer
        • Multi-Head-Attention
          • Multi-Head-Attention的时间复杂度
          • qkv为什么要乘上不同的参数矩阵
          • qk相乘得到attention矩阵后, 为什么要进行scale
          • Multi-head Attention中多头的作用
    • 预训练模型
  • 自然语言处理
  • 搜索推荐
  • 数学基础
  • 实践技巧
  • 工程栈
  • 细分领域
  • 算法
  • LATEX公式备忘
由 GitBook 提供支持
在本页

这有帮助吗?

  1. 神经网络
  2. 表征结构
  3. Transformer

Multi-Head-Attention

Multi-Head-Attention的时间复杂度qkv为什么要乘上不同的参数矩阵qk相乘得到attention矩阵后, 为什么要进行scaleMulti-head Attention中多头的作用
上一页Transformer下一页Multi-Head-Attention的时间复杂度

最后更新于4年前

这有帮助吗?