注意メカニズムにおいて Q と K を乗算することの意義は何ですか? Q と K を乗算して、それらの間の類似度/重み行列を取得するのはなぜですか?

NoSuchKey

おすすめ

転載: blog.csdn.net/weixin_43135178/article/details/130152959