一、Qwen2.5-VL 简介
Qwen2.5-VL,Qwen 模型家族的旗舰视觉语言模型,比 Qwen2-VL 实现了巨大的飞跃。
欢迎访问 Qwen Chat (Qwen Chat)并选择 Qwen2.5-VL-72B-Instruct 进行体验。
1. 主要增强功能
1)直观地理解事物: Qwen2.5-VL 不仅能熟练识别花、鸟、鱼和昆虫等常见物体,还能高度分析文本、图表、图标、图形和图像中的布局。
2)具有代理功能: Qwen2.5-VL 可直接扮演视觉代理,能够推理和动态指挥工具,既能在电脑上使用,也能在手机上使用。
3)理解长视频并捕捉事件: Qwen2.5-VL可以理解1小时以上的视频,这次又增加了通过精确定位相关视频片段来捕捉事件的能力。
4)不同格式的可视化定位能力: Qwen2.5-VL 可通过生成边框或点来精确定位图像中的对象,并能为坐标和属性提供稳定的 JSON 输出。
5)生成结构化输出:用于扫描发票、表格、表格等数据。Qwen2.5-VL 支持对其内容进行结构化输出,有利于金融、商业等领域的使用。
2. 相较上一代模型架构更新
1)动态分辨率和帧速率训练,促进视频理解:通过采用动态 FPS 采样,qwen团队将动态分辨率扩展到了时间维度,使模型能够理解各种采样率的视频。相应地,qwen团队在时间维度上对 mRoPE 进行了更新,增加了 ID 和绝对时间对齐,使模型能够学习时间顺序和速度,最终获得精确定位特定时刻的能力。
2)精简高效的视觉编码器:qwen团队通过在 ViT 中战略性地实施窗口关注,提高了训练和推理速度。通过 SwiGLU 和 RMSNorm 进一步优化了 ViT 架构,使其与 Qwen2.5 LLM 的结构保持一致。
3. 模型地址
阿里在 Hugging Face 和 ModelScope (魔搭社区) 上开源了 Qwen2.5-VL 的 Base 和 Instruct 模型,包含 3B、7B 和 72B 在内的 3 个模型尺寸。
4. 相关资料地址
GitHub:https://github.com/QwenLM/Qwen2.5-VL
HuggingFace: https://huggingface.co/collections/Qwen/qwen25-vl-6795ffac22b334a837c0f9a5
魔搭: ModelScope: https://modelscope.cn/collections/Qwen25-VL-58fbb5d31f1d47
模型体验:https://chat.qwenlm.ai/
如果你的电脑硬件不支持,那么可以直接使用官方的免费平台来使用。免费平台是共享 GPU,有额度限制。唯一的好处可以直接免费使用 Qwen 2.5 VL 最强的 78B 模型!
阿里云帮助中心:大模型服务平台百炼(Model Studio)(https://help.aliyun.com/zh/model-studio/user-guide/vision?spm=a2c4g.11186623.4.2.14014422Fom0Ne&scm=20140722.H_2845871._.ID_2845871-OR_rec-V_1#7a7077f8a9r6o)
vllm官方文档:https://docs.vllm.ai/en/latest/models/engine_args.html
二、Quick Start 快速入门
1. Hugging Face
Qwen2.5-VL 的预训练模型检查点已经上传 Hugging Face 的模型中心(Model Hub)上,可以通过transformers
库进行调用。
pip install git+https://github.com/huggingface/transformers accelerate
千问团队同时提供了一个toolkit帮助更加方便的处理各种图形输入。
pip install qwen-vl-utils[decord]
#安装 flash-attn后,即可使用推荐的被注释掉的模型加载代码:
pip install flash-attn --no-build-isolation
from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessor
from qwen_vl_utils import process_vision_info
import torch
# default: Load the model