1、Google发布开源agent开发工具ADK
2、超高效小型文档视觉模型SmolDocling,仅256M参数击败27倍大的模型
3、LightPROF:让小型LLM高效推理知识图谱的轻量级框架
4、OLMoTrace:首个实时追踪语言模型输出到万亿级训练数据的系统
5、VideoChat-R1:通过强化学习微调增强视频模型时空感知能力
1、Google发布开源agent开发工具ADK
Google刚刚推出了Agent Development Kit (ADK) —— 一个开源、代码优先的Python工具包,用于构建、评估和部署具有灵活性和控制力的复杂AIagent。
ADK专为寻求在构建与Google Cloud服务紧密集成的高级AI代理时需要精细控制和灵活性的开发者设计。它允许您直接在代码中定义代理行为、编排和工具使用,实现从笔记本电脑到云端的稳健调试、版本控制和部署。
核心特性:
- 代码优先开发:定义代理、工具和编排逻辑,实现最大控制、可测试性和版本控制
- 多代理架构:通过在灵活层次结构中组合多个专业代理来构建模块化和可扩展的应用
- 丰富的工具生态系统:使用预构建工具、自定义Python函数、API规范或集成现有工具
- 灵活编排:使用内置代理定义可预测的工作流,或利用LLM驱动的动态路由实现自适应行为
- 集成开发体验:使用CLI和可视化Web UI在本地开发、测试和调试
- 内置评估:通过评估响应质量和分步执行轨迹来衡量代理性能
- 部署就绪:容器化并随处部署您的代理—用Vertex AI Agent Engine、Cloud Run或Docker扩展
- 原生流支持:通过对双向流(文本和音频)的原生支持构建实时交互体验
- 状态、内存和工件:管理短期对话上下文,配置长期记忆,处理文件上传/下载
- 可扩展性:使用回调深度自定义代理行为,轻松集成第三方工具和服务
安装方法:
pip install google-adk
链接:https://github.com/google/adk-python
2、超高效小型文档视觉模型SmolDocling,仅256M参数击败27倍大的模型
一个256M参数的开源视觉语言模型,专为完整文档OCR设计,刚刚击败了比它大27倍的模型。
SmolDocling能够将完整文档转换为结构化元数据,在消费级GPU上仅使用不到500MB显存。
这个超紧凑的视觉语言模型专注于端到端文档转换,通过生成DocTags(一种新的通用标记格式)来全面处理整个页面,以完整上下文和位置捕获所有页面元素。与依赖大型基础模型或依赖手工制作的多个专业模型管道的集成解决方案不同,SmolDocling提供了端到端转换,准确捕获文档元素的内容、结构和空间位置,仅需256M参数。
SmolDocling在正确再现各种文档类型(包括商业文档、学术论文、技术报告、专利和表格)中的代码列表、表格、方程式、图表、列表等文档功能方面表现出很强的性能,大大超出了对科学论文的常见关注。
实验结果表明,SmolDocling与大小最多大27倍的其他视觉语言模型相比具有竞争力,同时大大减少了计算需求。
论文标题:SmolDocling: An ultra-compact vision-language model for end-to-end multi-modal document conversion
论文链接:https://arxiv.org/abs/2503.11576
3、LightPROF:让小型LLM高效推理知识图谱的轻量级框架
LightPROF是一个轻量级框架,使小规模语言模型能够使用结构化提示对知识图谱(KGs)进行复杂推理。
关键亮点:
(1)检索-嵌入-推理管道 — LightPROF引入了三阶段架构:
- 检索:使用语义感知锚实体和关系路径,从大型KGs中稳定提取紧凑的推理图谱
- 嵌入:新颖的知识适配器将推理图谱中的文本和结构信息编码为LLM友好的嵌入
- 推理:这些嵌入被映射到软提示中,然后注入到聊天风格的硬提示中,引导LLM推理,无需更新LLM本身
(2)即插即用&参数高效 — LightPROF仅训练适配器和投影模块,无需昂贵的微调即可与任何开源LLM(如LLaMa2-7B、LLaMa3-8B)无缝集成
(3) 优于更大模型 — 尽管使用小型LLM,LightPROF在KGQA任务上击败了基线(如StructGPT (ChatGPT)和ToG (LLaMa2-70B)):WebQSP上83.8%(vs. 72.6%)和CWQ上59.3%(vs. 57.6%)
(4)极端高效 — 与StructGPT相比,LightPROF减少了98%的令牌输入和30%的运行时间,同时保持准确性,即使在复杂的多跳问题中也能保持稳定输出
(5)消融研究见解 — 移除结构信号或训练步骤会严重降低性能,证实了知识适配器和检索策略的关键作用
论文标题:LightPROF: A Lightweight Reasoning Framework for Large Language Model on Knowledge Graph
论文链接:https://arxiv.org/abs/2504.03137
4、OLMoTrace:首个实时追踪语言模型输出到万亿级训练数据的系统
论文介绍了OLMOTRACE,这是第一个能够实时将语言模型的输出追溯到其完整多万亿级训练数据的系统。OLMOTRACE查找并显示语言模型输出片段与训练文本语料库中文档之间的逐字匹配。
由扩展版的infini-gram(Liu等人,2024)提供支持,该系统在几秒钟内返回追踪结果。OLMOTRACE可以帮助用户通过训练数据的视角理解语言模型的行为。研究人员展示了如何利用它来探索事实检查、幻觉和语言模型的创造力。OLMOTRACE是公开可用且完全开源的。
追踪语言模型(LM)输出回其训练数据是一个重要问题。随着LM在更高风险场景中得到应用,理解它们为什么会生成某些回应变得至关重要。然而,这些现代LM是在包含万亿级令牌的大规模文本语料库上训练的,这些语料库通常是专有的。完全开放的LM(例如OLMo)能够访问训练数据,但是现有的行为追踪方法由于计算需求大,尚未扩展到适用于这种多万亿级令牌的场景。
在OLMOTRACE的生产系统中,对于每个LM响应(平均约450个令牌),追踪过程平均在4.5秒内完成。
OLMOTRACE的目的是向用户提供一个工具,用于探索LM可能从哪里学习到生成特定的词序列,专注于逐字匹配作为LM输出和训练数据之间最直接的联系。
论文标题:OLMoTrace: Tracing Language Model Outputs Back to Trillions of Training Tokens
论文链接:https://arxiv.org/abs/2504.07096
5、VideoChat-R1:通过强化学习微调增强视频模型时空感知能力
近期强化学习领域的进展显著提高了多模态大型语言模型(MLLMs)的推理能力。虽然诸如群体相对策略优化(GRPO)和基于规则的奖励机制在文本和图像领域展示了前景,但它们在视频理解方面的应用仍然有限。
这篇论文系统性地探索了使用GRPO进行强化微调(RFT)以增强视频MLLMs的时空感知能力,同时保持一般能力。实验表明,RFT对特定任务的改进非常数据高效。
通过在有限样本的时空感知目标上进行多任务RFT,研究人员开发了VideoChat-R1,这是一个强大的视频MLLM,在时空感知任务上达到了最先进的性能,而不牺牲聊天能力,同时展现出新兴的时空推理能力。
与Qwen2.5-VL-7B相比,VideoChat-R1在时间定位(+31.8)和对象跟踪(+31.2)等任务中的性能提升了几倍。 此外,它在一般问答基准测试上也有显著改进,如VideoMME(+0.9)、MVBench(+1.0)和Perception Test(+0.9)。
研究发现强调了RFT用于视频MLLMs专门任务增强的潜力。研究人员希望他们的工作为未来在视频MLLMs中的强化学习研究提供有价值的见解。
论文标题:VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning
论文链接:https://arxiv.org/abs/2504.06958
如何系统学习掌握AI大模型?
AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。
学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。
这里给大家精心整理了一份
全面的AI大模型学习资源
,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享
!
1. 成长路线图&学习规划
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
2. 大模型经典PDF书籍
书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。(书籍含电子版PDF)
3. 大模型视频教程
对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识。
4. 2024行业报告
行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
5. 大模型项目实战
学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。
6. 大模型面试题
面试不仅是技术的较量,更需要充分的准备。
在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以
微信扫描下方CSDN官方认证二维码
,免费领取【保证100%免费
】