放弃Softmax,首个线性注意力Transformer大模型:1750亿参数,速度、精度更优

NoSuchKey