Qwen2.5-VL 开源视觉大模型，模型体验、下载、推理、微调、部署实战

一、Qwen2.5-VL 简介

Qwen2.5-VL，Qwen 模型家族的旗舰视觉语言模型，比 Qwen2-VL 实现了巨大的飞跃。

欢迎访问 Qwen Chat （Qwen Chat）并选择 Qwen2.5-VL-72B-Instruct 进行体验。

1. 主要增强功能

    1）直观地理解事物： Qwen2.5-VL 不仅能熟练识别花、鸟、鱼和昆虫等常见物体，还能高度分析文本、图表、图标、图形和图像中的布局。
    2）具有代理功能： Qwen2.5-VL 可直接扮演视觉代理，能够推理和动态指挥工具，既能在电脑上使用，也能在手机上使用。
    3）理解长视频并捕捉事件： Qwen2.5-VL可以理解1小时以上的视频，这次又增加了通过精确定位相关视频片段来捕捉事件的能力。
    4）不同格式的可视化定位能力： Qwen2.5-VL 可通过生成边框或点来精确定位图像中的对象，并能为坐标和属性提供稳定的 JSON 输出。
    5）生成结构化输出：用于扫描发票、表格、表格等数据。Qwen2.5-VL 支持对其内容进行结构化输出，有利于金融、商业等领域的使用。

2. 相较上一代模型架构更新

1）动态分辨率和帧速率训练，促进视频理解：通过采用动态 FPS 采样，qwen团队将动态分辨率扩展到了时间维度，使模型能够理解各种采样率的视频。相应地，qwen团队在时间维度上对 mRoPE 进行了更新，增加了 ID 和绝对时间对齐，使模型能够学习时间顺序和速度，最终获得精确定位特定时刻的能力。
2）精简高效的视觉编码器：qwen团队通过在 ViT 中战略性地实施窗口关注，提高了训练和推理速度。通过 SwiGLU 和 RMSNorm 进一步优化了 ViT 架构，使其与 Qwen2.5 LLM 的结构保持一致。

3. 模型地址

阿里在 Hugging Face 和 ModelScope （魔搭社区）上开源了 Qwen2.5-VL 的 Base 和 Instruct 模型，包含 3B、7B 和 72B 在内的 3 个模型尺寸。

4. 相关资料地址

GitHub：https://github.com/QwenLM/Qwen2.5-VL

HuggingFace: https://huggingface.co/collections/Qwen/qwen25-vl-6795ffac22b334a837c0f9a5

魔搭: ModelScope: https://modelscope.cn/collections/Qwen25-VL-58fbb5d31f1d47

模型体验：https://chat.qwenlm.ai/

如果你的电脑硬件不支持，那么可以直接使用官方的免费平台来使用。免费平台是共享 GPU，有额度限制。唯一的好处可以直接免费使用 Qwen 2.5 VL 最强的 78B 模型！

阿里云帮助中心：大模型服务平台百炼(Model Studio)（https://help.aliyun.com/zh/model-studio/user-guide/vision?spm=a2c4g.11186623.4.2.14014422Fom0Ne&scm=20140722.H_2845871._.ID_2845871-OR_rec-V_1#7a7077f8a9r6o）

vllm官方文档：https://docs.vllm.ai/en/latest/models/engine_args.html

二、Quick Start 快速入门

1. Hugging Face

Qwen2.5-VL 的预训练模型检查点已经上传 Hugging Face 的模型中心（Model Hub）上，可以通过transformers 库进行调用。

pip install git+https://github.com/huggingface/transformers accelerate

千问团队同时提供了一个toolkit帮助更加方便的处理各种图形输入。

pip install qwen-vl-utils[decord]

#安装 flash-attn后，即可使用推荐的被注释掉的模型加载代码：
pip install flash-attn --no-build-isolation

from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessor
from qwen_vl_utils import process_vision_info
import torch

# default: Load the model