大语言模型权重Q,K,V的宽度:这里的0-15==16 来源于 48(嵌入向量)/3(头数)=16;大语言模型矩阵参数a(注意力宽度16),c(通道,词向量维度)表示什么

目录

大语言模型权重Q,K,V的宽度:这里的0-15==16 来源于 48(嵌入向量)/3(头数)=16

大语言模型中多头中Q,K,V矩阵的长宽代表什么 

基本概念

矩阵的长宽含义

大语言模型矩阵参数a(注意力宽度16),c(通道,词向量维度)表示什么


大语言模型权重Q,K,V的宽度:这里的0-15==16 来源于 48(嵌入向量)/3(头数)=16

大语言模型中多头中Q,K,V矩阵的长宽代表什么 

猜你喜欢

转载自blog.csdn.net/qq_38998213/article/details/143371817