目录
大语言模型权重Q,K,V的宽度:这里的0-15==16 来源于 48(嵌入向量)/3(头数)=16
大语言模型中多头中Q,K,V矩阵的长宽代表什么
基本概念
矩阵的长宽含义
大语言模型矩阵参数a(注意力宽度16),c(通道,词向量维度)表示什么