Java - 图像识别 ;含代码样例_可5分钟内完成_图像识别_java_识别图像

图像识别在Java开发中的应用

在Java开发中,图像识别能力被广泛应用于多种场景,比如证件验证、商品识别等。过去,这类需求主要依赖OCR技术来实现,但识别精度和适应性有限。随着大模型技术的发展,现在可以利用这些先进的AI模型来进行图像识别,不仅大大提升了识别的准确性与效率,还扩展了应用范围,使得复杂背景下的物体检测和分类成为可能,极大地丰富了Java应用程序的功能性和用户体验。

本样例是一个java 做图像识别的具体步骤和代码,基于spring ai 和qwen vl大模型。 

Spring AI 介绍 :为Java开发者打造的高效AI应用框架

在过去,Java 缺乏一个高效且统一的AI应用框架,这使得开发者在集成不同AI组件时面临诸多挑战。Spring团队为此推出了Spring AI,它作为一个专为AI工程设计的应用框架,旨在将Spring生态系统的设计原则(如可移植性和模块化)引入AI领域,并支持使用POJOs作为构建块。Spring AI的核心优势在于提供了一套标准化接口,让开发者能够轻松地切换不同的AI服务提供商(例如OpenAI、Azure等),而无需大量修改代码,仅通过更改配置即可实现。此外,Spring AI与现有的Spring生态及Java面向对象编程范式无缝兼容,极大简化了AI应用程序的开发流程。对于图像识别等功能的支持,Spring AI同样表现优异,开发者可以利用其提供的统一接口快速搭建高性能的图像处理应用。

千问VL大模型介绍

Qwen-VL是一款专为图像和视频识别设计的多模态大模型,其能力在国内处于领先地位。根据国内知名的大模型评测平台思南(https://arena.opencompass.org.cn/)显示,Qwen-VL的表现仅次于国际上知名的GPT与Claude模型;

同时,在国际视觉大模型竞技场(https://huggingface.co/spaces/lmarena-ai/chatbot-arena-leaderboard)中,它也稳居中国同类产品的首位。欢迎各界人士参与和支持这些公开测试平台,通过亲自体验来投票支持您心目中的最佳模型。

  24年12月截止了,赶紧来拿奖金!总计30万,Spring AI Alibaba 应用框架挑战赛开赛点此了解

Spring AI Alibaba框架介绍

Spring AI Alibaba 是一个专为AI工程设计的应用框架,基于Spring生态系统的设计原则,支持国产大模型如阿里云的通义系列。它通过标准化不同AI提供者的接口实现,使得开发者能够以统一的方式编写代码,并通过简单的配置切换不同的AI服务供应商。核心优势在于提升了开发效率与灵活性,减少对接不同API的工作量。同时,Spring AI Alibaba 支持文本生成、图像生成等多种功能,便于快速集成强大的AI能力到应用中,促进业务创新和发展。

使用Spring AI Alibaba实现图像识别的详细教程

一、前置准备

首先,确保你的开发环境满足以下要求:

  1. JDK版本需在JDK 17及以上。
  1. Spring Boot版本需在3.3.x及以上。

接着,你需要访问阿里云百炼页面并登录您的阿里云账号。选择开通“百炼大模型推理”服务,并等待开通成功的短信通知。成功后,在右上角小人图标处创建一个新的API-KEY,并记录下这个key,它将被用于后续配置中。

此外,你还需要开启通义万象图像生成模型,按照以下步骤操作:

  • 在左侧列表栏选择“模型广场”,找到“图像生成”下的通义万象模型,点击对应的“API调用”按钮。
  • 复制该模型的英文名称(qwen-vl-max-latest),这是你在配置中指定的模型名字。

最后,设置环境变量AI_DASHSCOPE_API_KEY为刚才申请到的有效API-KEY值:

export AI_DASHSCOPE_API_KEY=${REPLACE-WITH-VALID-API-KEY}
二、添加仓库和依赖

由于spring-ai-alibaba-starter尚未提交到Maven正式仓库,请在项目的pom.xml文件中添加如下仓库信息以支持从Spring自有的仓库拉取相关依赖:

<repositories>
    <repository>
        <id>sonatype-snapshots</id>

        <url>https://oss.sonatype.org/content/repositories/snapshots</url>

        <snapshots>
            <enabled>true</enabled>

        </snapshots>

    </repository>

    <repository>
        <id>spring-milestones</id>

        <name>Spring Milestones</name>

        <url>https://repo.spring.io/milestone</url>

        <snapshots>
            <enabled>false</enabled>

        </snapshots>

    </repository>

    <repository>
        <id>spring-snapshots</id>

        <name>Spring Snapshots</name>

        <url>https://repo.spring.io/snapshot</url>

        <releases>
            <enabled>false</enabled>

        </releases>

    </repository>

</repositories>

同时,在<dependencies>部分添加对spring-ai-alibaba-starter及其所需其他库的依赖声明:

<dependency>
  <groupId>com.alibaba.cloud.ai</groupId>

  <artifactId>spring-ai-alibaba-starter</artifactId>

  <version>1.0.0-M3.1</version>

</dependency>

请确保还包括了Spring Boot的父项目依赖:

<parent>
  <groupId>org.springframework.boot</groupId>

  <artifactId>spring-boot-starter-parent</artifactId>

  <version>3.3.4</version>

  <relativePath/> <!-- lookup parent from repository -->
</parent>
三、构建读图代码

为了实现基于Prompt和Flux流返回的图像识别功能,你可以创建一个名为ChatModelController的控制器类,并按照下面的方式进行编码:

  • 首先通过@Value注解来引入图片资源文件。
  • 使用ChatClient实例与AI模型进行交互。
  • 定义默认提示文本及模型名。
  • 实现/imageRecognition端点处理GET请求,接收用户输入的prompt参数,并使用通义万象模型对上传或预定义的图片执行图像识别任务。

完整的控制器示例代码如下所示:

@RestController
@RequestMapping("/ai")
public class ChatModelController {

    private static final Logger logger = LoggerFactory.getLogger(ChatModelController.class);

    @Value("classpath:catexample.png") // 引入图片资源
    private Resource imageResource;

    private final ChatModel chatModel;

    public ChatModelController(ChatModel chatModel) {
        this.chatModel = chatModel;
    }

    private static final String DEFAULT_PROMPT = "这些是什么?";
    private static final String DEFAULT_MODEL = "qwen-vl-max-latest";

    @GetMapping("/imageRecognition")
    public Flux<String> imageRecognition(
            @RequestParam(value = "prompt", required = false, defaultValue = DEFAULT_PROMPT) String prompt,
            HttpServletResponse response)
            throws Exception {
        response.setCharacterEncoding("UTF-8");

        List<Media> mediaList = List.of(new Media(MimeTypeUtils.IMAGE_PNG, imageResource));
        UserMessage message = new UserMessage(prompt, mediaList);
        message.getMetadata().put(DashScopeChatModel.MESSAGE_FORMAT, MessageFormat.IMAGE);

        return chatModel.stream(
                new Prompt(
                        message,
                        DashScopeChatOptions.builder()
                                .withModel(DEFAULT_MODEL)
                                .withMultiModel(true)
                                .build()))
                .map(resp -> resp.getResult().getOutput().getContent());
    }
}

将一张图片放置于项目的src/main/resources目录下,并命名为catexample.png。现在,可以通过访问http://localhost:8080/ai/imageRecognition?prompt=你的描述来测试图像识别功能了。记得替换URL中的localhost:8080为你实际部署的应用服务器地址和端口。

以上就是基于Spring AI Alibaba实现带有Prompt和Flux流式响应的图像识别应用的具体步骤和全部所需配置及代码。希望对你有所帮助!

猜你喜欢

转载自blog.csdn.net/whisperzzza/article/details/143385080