注意メカニズムにおいて Q と K を乗算することの意義は何ですか? Q と K を乗算して、それらの間の類似度/重み行列を取得するのはなぜですか?

NoSuchKey

Guess you like

Origin blog.csdn.net/weixin_43135178/article/details/130152959