【AI实践】个人免费数学老师系列之(一):系统概述

出发点:
1、近期大型视觉语言模型(Large Vision Language Models, LVLMs)引领了OCR2.0时代的到来,加之类似Qwen2.5-Math的专用 大语言模型(LLM)不断演化,让个人开发者也能成为高质量的AI数学辅导老师。
2、作为曾经有过6年从业经验的教育科技工作者,借此契机整理迭代一下之前在教育OCR方面的实战内容,分享出来供大家品鉴玩赏。

0、提纲:

1、项目目标

日常辅导孩子作业时,如何通过手机拍照(类似上图)或电脑截屏,获得各道题的解题步骤和答案呢?

2、技术方案

2.1 运行流程

1、自动切题(将整页试题切分为单题,部分去除大标题/手写等干扰项)
2、识别OCR(提取题目的文本,包括混排的公式信息)
3、题目解析(理解文本,以生成解题步骤和答案)

2.2 涵盖模型

1、自动切题:基于 Transformer 的目标检测模型
2、识别OCR:比如 GOT-OCR2_0、Qwen2-VL 模型
3、题目解析:比如 Qwen2.5-Math 模型

3、初步效果

自动切题效果展示【后续篇章详述实现方案】:

4、计划拆解

【AI实践】个人免费数学老师系列之(一):系统概述【本篇】

【AI实践】个人免费数学老师系列之(二):自动切题【目标检测】

【AI实践】个人免费数学老师系列之(三):题目识别【OCR2.0】

【AI实践】个人免费数学老师系列之(四):题目解析【Qwen2.5-Math】

【AI实践】个人免费数学老师系列之(五):工程实践【代码开源】

敬请关注~

猜你喜欢

转载自blog.csdn.net/vison20080808/article/details/143288082