图像识别在Java开发中的应用
在Java开发中,图像识别能力被广泛应用于多种场景,比如证件验证、商品识别等。过去,这类需求主要依赖OCR技术来实现,但识别精度和适应性有限。随着大模型技术的发展,现在可以利用这些先进的AI模型来进行图像识别,不仅大大提升了识别的准确性与效率,还扩展了应用范围,使得复杂背景下的物体检测和分类成为可能,极大地丰富了Java应用程序的功能性和用户体验。
本样例是一个java 做图像识别的具体步骤和代码,基于spring ai 和qwen vl大模型。
Spring AI 介绍 :为Java开发者打造的高效AI应用框架
在过去,Java 缺乏一个高效且统一的AI应用框架,这使得开发者在集成不同AI组件时面临诸多挑战。Spring团队为此推出了Spring AI,它作为一个专为AI工程设计的应用框架,旨在将Spring生态系统的设计原则(如可移植性和模块化)引入AI领域,并支持使用POJOs作为构建块。Spring AI的核心优势在于提供了一套标准化接口,让开发者能够轻松地切换不同的AI服务提供商(例如OpenAI、Azure等),而无需大量修改代码,仅通过更改配置即可实现。此外,Spring AI与现有的Spring生态及Java面向对象编程范式无缝兼容,极大简化了AI应用程序的开发流程。对于图像识别等功能的支持,Spring AI同样表现优异,开发者可以利用其提供的统一接口快速搭建高性能的图像处理应用。
千问VL大模型介绍
Qwen-VL是一款专为图像和视频识别设计的多模态大模型,其能力在国内处于领先地位。根据国内知名的大模型评测平台思南(https://arena.opencompass.org.cn/)显示,Qwen-VL的表现仅次于国际上知名的GPT与Claude模型;
同时,在国际视觉大模型竞技场(https://huggingface.co/spaces/lmarena-ai/chatbot-arena-leaderboard)中,它也稳居中国同类产品的首位。欢迎各界人士参与和支持这些公开测试平台,通过亲自体验来投票支持您心目中的最佳模型。
24年12月截止了,赶紧来拿奖金!总计30万,Spring AI Alibaba 应用框架挑战赛开赛点此了解
Spring AI Alibaba框架介绍
Spring AI Alibaba 是一个专为AI工程设计的应用框架,基于Spring生态系统的设计原则,支持国产大模型如阿里云的通义系列。它通过标准化不同AI提供者的接口实现,使得开发者能够以统一的方式编写代码,并通过简单的配置切换不同的AI服务供应商。核心优势在于提升了开发效率与灵活性,减少对接不同API的工作量。同时,Spring AI Alibaba 支持文本生成、图像生成等多种功能,便于快速集成强大的AI能力到应用中,促进业务创新和发展。
使用Spring AI Alibaba实现图像识别的详细教程
一、前置准备
首先,确保你的开发环境满足以下要求:
- JDK版本需在JDK 17及以上。
- Spring Boot版本需在3.3.x及以上。
接着,你需要访问阿里云百炼页面并登录您的阿里云账号。选择开通“百炼大模型推理”服务,并等待开通成功的短信通知。成功后,在右上角小人图标处创建一个新的API-KEY,并记录下这个key,它将被用于后续配置中。
此外,你还需要开启通义万象图像生成模型,按照以下步骤操作:
- 访问百炼控制台
- 在左侧列表栏选择“模型广场”,找到“图像生成”下的通义万象模型,点击对应的“API调用”按钮。
- 复制该模型的英文名称(qwen-vl-max-latest),这是你在配置中指定的模型名字。
最后,设置环境变量AI_DASHSCOPE_API_KEY
为刚才申请到的有效API-KEY值:
export AI_DASHSCOPE_API_KEY=${REPLACE-WITH-VALID-API-KEY}
二、添加仓库和依赖
由于spring-ai-alibaba-starter
尚未提交到Maven正式仓库,请在项目的pom.xml文件中添加如下仓库信息以支持从Spring自有的仓库拉取相关依赖:
<repositories>
<repository>
<id>sonatype-snapshots</id>
<url>https://oss.sonatype.org/content/repositories/snapshots</url>
<snapshots>
<enabled>true</enabled>
</snapshots>
</repository>
<repository>
<id>spring-milestones</id>
<name>Spring Milestones</name>
<url>https://repo.spring.io/milestone</url>
<snapshots>
<enabled>false</enabled>
</snapshots>
</repository>
<repository>
<id>spring-snapshots</id>
<name>Spring Snapshots</name>
<url>https://repo.spring.io/snapshot</url>
<releases>
<enabled>false</enabled>
</releases>
</repository>
</repositories>
同时,在<dependencies>
部分添加对spring-ai-alibaba-starter
及其所需其他库的依赖声明:
<dependency>
<groupId>com.alibaba.cloud.ai</groupId>
<artifactId>spring-ai-alibaba-starter</artifactId>
<version>1.0.0-M3.1</version>
</dependency>
请确保还包括了Spring Boot的父项目依赖:
<parent>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter-parent</artifactId>
<version>3.3.4</version>
<relativePath/> <!-- lookup parent from repository -->
</parent>
三、构建读图代码
为了实现基于Prompt和Flux流返回的图像识别功能,你可以创建一个名为ChatModelController
的控制器类,并按照下面的方式进行编码:
- 首先通过
@Value
注解来引入图片资源文件。
- 使用
ChatClient
实例与AI模型进行交互。
- 定义默认提示文本及模型名。
- 实现
/imageRecognition
端点处理GET请求,接收用户输入的prompt参数,并使用通义万象模型对上传或预定义的图片执行图像识别任务。
完整的控制器示例代码如下所示:
@RestController
@RequestMapping("/ai")
public class ChatModelController {
private static final Logger logger = LoggerFactory.getLogger(ChatModelController.class);
@Value("classpath:catexample.png") // 引入图片资源
private Resource imageResource;
private final ChatModel chatModel;
public ChatModelController(ChatModel chatModel) {
this.chatModel = chatModel;
}
private static final String DEFAULT_PROMPT = "这些是什么?";
private static final String DEFAULT_MODEL = "qwen-vl-max-latest";
@GetMapping("/imageRecognition")
public Flux<String> imageRecognition(
@RequestParam(value = "prompt", required = false, defaultValue = DEFAULT_PROMPT) String prompt,
HttpServletResponse response)
throws Exception {
response.setCharacterEncoding("UTF-8");
List<Media> mediaList = List.of(new Media(MimeTypeUtils.IMAGE_PNG, imageResource));
UserMessage message = new UserMessage(prompt, mediaList);
message.getMetadata().put(DashScopeChatModel.MESSAGE_FORMAT, MessageFormat.IMAGE);
return chatModel.stream(
new Prompt(
message,
DashScopeChatOptions.builder()
.withModel(DEFAULT_MODEL)
.withMultiModel(true)
.build()))
.map(resp -> resp.getResult().getOutput().getContent());
}
}
将一张图片放置于项目的src/main/resources
目录下,并命名为catexample.png
。现在,可以通过访问http://localhost:8080/ai/imageRecognition?prompt=你的描述
来测试图像识别功能了。记得替换URL中的localhost:8080
为你实际部署的应用服务器地址和端口。
以上就是基于Spring AI Alibaba实现带有Prompt和Flux流式响应的图像识别应用的具体步骤和全部所需配置及代码。希望对你有所帮助!