📋
GARNET
search
⌘Ctrlk
📋
GARNET
  • START
  • 机器学习
  • 神经网络
    • 梯度
    • 激活函数
    • 损失函数
    • 优化算法
    • Normalization
    • 表征结构
      • Attention机制
      • CNN
      • Transformer
        • Multi-Head-Attention
          • Multi-Head-Attention的时间复杂度
          • qkv为什么要乘上不同的参数矩阵
          • qk相乘得到attention矩阵后, 为什么要进行scale
          • Multi-head Attention中多头的作用
    • 预训练模型
  • 自然语言处理
  • 搜索推荐
  • 数学基础
  • 实践技巧
  • 工程栈
  • 细分领域
  • 算法
  • LATEX公式备忘
gitbook由 GitBook 提供支持
block-quote在本页chevron-down
  1. 神经网络chevron-right
  2. 表征结构chevron-right
  3. Transformer

Multi-Head-Attention

Multi-Head-Attention的时间复杂度chevron-rightqkv为什么要乘上不同的参数矩阵chevron-rightqk相乘得到attention矩阵后, 为什么要进行scalechevron-rightMulti-head Attention中多头的作用chevron-right
上一页Transformerchevron-left下一页Multi-Head-Attention的时间复杂度chevron-right

最后更新于4年前