使用大模型进行代码阅读——关于LLaMA模型代码的一些思考 - 代码天地

使用大模型进行代码阅读——关于LLaMA模型代码的一些思考

业界资讯 2023-06-05 19:21:20 阅读次数: 0

使用大模型进行代码阅读

关于LLaMA模型代码的一些思考

关于这个模型的代码其实挺简单的，如果了解transformer decoder的代码，这个代码理解起来相对会比较容易一些，但是在这个代码里面有几个问题，是自己的一些思考或者是疑问点吧，然后我就尝试去用大模型帮我去做了一些回答。

但是还是有一个疑问就是，为什么queries不需要存到缓存里面？

后来自己尝试理解了一下，是不是因为在进行attention计算的时候，我的key和value都是局部的，但是算的时候要跟整个序列即q去进行attention打分。而且key和value它是通过滑动窗口的形式去进行存储的，在计算和填充的时候会被多次的用到，但是我觉得query也是会被多次用到的，大模型告诉我说因为query后面不会被用的，所以不需要存储，有一点疑惑。

OK，下面我们来看一下效果吧。确实有被惊艳到。
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/ganxiwu9686/article/details/130370409

使用大模型进行代码阅读——关于LLaMA模型代码的一些思考

大模型演化的一些思考

一些代码模型

关于恶意经销商模型的一些思考

在项目中：关于代码优化的一些思考

关于精灵进程的一些思考和代码片段

Meta AI 重磅发布代码大模型 Code Llama

关于使用第三方库、代码复用的一些思考

关于大模型的一些问答（持续更新）

垂直领域大模型的一些思考及开源模型汇总

关于模型一致性与代码质量的思考

java的一些代码阅读笔记

Meta最新模型LLaMA细节与代码详解

Meta又向开源社区扔了一颗炸弹！发布AI代码生成SOTA大模型Code Llama

关于代理模型的一些理解

使用 Docker 和 Alpaca LoRA 对 LLaMA 65B 大模型进行 Fine-Tune

关于java反射的一些代码

关于重构代码的一些想法

关于一些多态基础代码

关于一些基础代码的实现

关于雅克比矩阵的一些代码

关于SiamKPN代码的一些要点

关于openldap的一些java代码

代码生成商业化一些思考

关于在vue中使用动画的一些思考

关于该不该使用微服务的一些思考

关于配置文件使用的一些思考

大语言模型带来的一些启发

大模型时代下的一些科研思路

大模型训练的一些坑点和判断

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)