出发点:
1、近期大型视觉语言模型(Large Vision Language Models, LVLMs)引领了OCR2.0时代的到来,加之类似Qwen2.5-Math的专用 大语言模型(LLM)不断演化,让个人开发者也能成为高质量的AI数学辅导老师。
2、作为曾经有过6年从业经验的教育科技工作者,借此契机整理迭代一下之前在教育OCR方面的实战内容,分享出来供大家品鉴玩赏。
0、提纲:
- 项目目标
- 技术方案
- 初步效果
- 计划拆解
1、项目目标
日常辅导孩子作业时,如何通过手机拍照(类似上图)或电脑截屏,获得各道题的解题步骤和答案呢?
2、技术方案
2.1 运行流程
1、自动切题(将整页试题切分为单题,部分去除大标题/手写等干扰项)
2、识别OCR(提取题目的文本,包括混排的公式信息)
3、题目解析(理解文本,以生成解题步骤和答案)
2.2 涵盖模型
1、自动切题:基于 Transformer 的目标检测模型
2、识别OCR:比如 GOT-OCR2_0、Qwen2-VL 模型
3、题目解析:比如 Qwen2.5-Math 模型
3、初步效果
自动切题效果展示【后续篇章详述实现方案】:
4、计划拆解
【AI实践】个人免费数学老师系列之(一):系统概述【本篇】
【AI实践】个人免费数学老师系列之(二):自动切题【目标检测】
【AI实践】个人免费数学老师系列之(三):题目识别【OCR2.0】
【AI实践】个人免费数学老师系列之(四):题目解析【Qwen2.5-Math】
【AI实践】个人免费数学老师系列之(五):工程实践【代码开源】
敬请关注~