연구 정팔 포체 알고리즘

https://github.com/tesseract-ocr/tesseract/wiki GitHub의에 대한 정보를 제공합니다.

https://blog.csdn.net/guzhenping/article/details/51023687 정팔 포체에 대한 블로그.

이해 theTesseract OCR 엔진의 개인 서류의 이상보기

개요

전략적있는 문자 윤곽 형태의 블롭 (통신 도메인?) 분석 또는 비례 간격위한 정기적 전략적 텍스트 라인 텍스트 라인 영역에 얼룩으로서 식별된다. 다른 문자 간격에 텍스트 문자의 선은 문자 세분화 신속 간격을 고정 및 이격 간격의 비는 퍼지 분할 문자 간격을 사용하여 측정. 인식 프로세스는 두 가지로 나누어진다. 첫 번째 패스에서 차례로 각 단어를 확인하려고합니다. 좋은 단어 인식 결과는 다음과 같이 분류 적응 훈련 데이터를 전송한다. 그런 다음, 적응 분류기보다 정확하게 페이지에서 텍스트를 식별 할 수있는 기회를 갖게됩니다. 때문에 적응 분류 학습, 두 번째 문자 인식 그렇지 않으면 식별하는 식별하기 어려울 수 있습니다. 마지막으로, 모호성 간격을 해결하고, X-높이를 결정하기 위해 확인하는 것은 소문자를 가정합니다.

행을 찾기

라인 찾는 알고리즘 알려졌다 https://www.hpl.hp.com/techreports/94/HPL-94-113.pdf 검사의 일반적인 방법이 단순화 경사 검사 부분 영역의 화상에 적용하여 하프 변환 경사져 또는 투영 경사 방향의 최대 피크를 선택하는 텍스트 기준선, 다른 투사 각도의 소용 전류 선에 평행 한 방향을 찾을 수있다.

이 알고리즘은 다음과 같이이다 :

연결 컴포넌트 분석 프레임 좌표로 표시 BLOB 필드 통신 (개인 투기) BLOB 크기와 위치라고 함.

필터링 방울, 방울 선택 컬렉션은,이 컬렉션은 몸을 표현할 수있다. 정밀는 주로 드롭 캡을 필터링 밑줄 및 소음 차단, 매우 중요하지 않습니다. 높이까지의 통계를 기준으로, 블롭의 높이보다 작은 높이를 특정 범위 내의 폭 얼룩을 남겨 제거한다 폭.

는 x에 따르면, 프레임 정렬 방울의 왼쪽 가장자리의 좌표 주문 페이지 등은 BLOB이 잘못된 줄에 넣어되지 않습니다 보장 메울 수 있습니다. 기존의 가장 큰 덩어리의 교차 선을 찾기하지 않을 경우, 다음 첫 번째 덩어리로, 업데이트 새로운 BLOB 경계 제한 확장 라인의 후속 또한, 하한 평균 Y 덩어리에 따라 오프셋.

(개인 이해에 따라 범위를 제한하는 선택적으로 다음 좌표를 분배 한 후 상자 외부 통신에 따르면, 정확한 라인에 할당 된 통신 영역의 대부분을 보장하기 위해, 통신 영역의 경계는 변경 페이지 사선 상관 관계가 상대적으로 고정, 사용 정렬 후 통신 도메인에 직선 피팅.)

사각형의 최소 평균을 사용하여 이미 할당 된 덩어리에 기준선을 피팅 (최소 제곱을?) 적합 기준을.

키 포인트이다 간섭 필터 및 블롭 텍스트 라인 구성.

선 기울기 기울기 보정, 이미지 품질 보증을 확인하지 않고 페이지를 찾고. 가정하자 레이아웃 분석 텍스트 라인의 높이에 따라, 약 텍스트 영역의 텍스트와 같은 크기를 제공하고, 높이가 여과 간섭 정보보다 적을 수있다. 여과 덩어리는 피팅 겹치지 않는 더 적합하면, 병렬 라인 모델은 경사 질 수있다. 정렬 및 x 좌표 처리에 의해, BLOB가 페이지의 경사면으로 크게 기울어 존재 텍스트 줄에 할당 된 오류의 위험을 줄일 수 있으며, 텍스트의 다른 라인에 할당 될 수있다. 기준선 피팅의 최소 제곱 메디안 텍스트의 라인들에 할당 된 블롭 여과 간섭 (최소 제곱?), 블롭 다시 끼는 것 해당 라인에 다시 필터. 마지막으로, 블롭 합병, 구두점의 적어도 절반의 중첩 수준 및 문자 분수가 결합 된 분할 조립 기준을 수정합니다.

피팅베이스 라인

텍스트 행을 찾은 후, 차 스플라인보다 정확하게 기준에 맞게. 이 곡선 기준으로 정팔 포체 페이지를 처리 할 수 있습니다 또 다른 선례 OCR 시스템입니다. 블롭은 기준선과 원래 기준 합리적 연속 변위 맞게 몇 개의 그룹으로 분할된다. 차 스플라인 최소 제곱 법에 의해 밀도가 높은 영역 피팅.

 

 염기 하강 라인 중간 배관 및 상승 회선 실시 텍스트 라인, 라인 (Y 전체 라인 간격 상수가 약간 만곡 될 수있다)에 평행하다.

이격 간격 및 고정비

텍스트 행에 정기적으로보고, 일정 간격 빠르게 문자로 분할 할 수 있습니다. 최종 결정은 단어 인식 후에 이루어질 수 있도록 기준선과 수직 중심선 간격 사이의 제한된 범위에서 측정 된 비 고정 된 간격은, 근접 간격 임계 값이 단계에서 공간 블러를 고정 할 때.

인식

 

접착 하이픈 (도. 4), 판별 식별 신뢰를 이용한 정점 후보 분할 점의 다각형 근사에 의해. 문자 분할 오류, 후보 경계는 여전히 결과 가난한 바느질을 사용할 때. 접합 검색 우선 순위 큐 미확인 평가 식별의 조합. 분할 스티치 방식의 첫 번째 사용 후에는 문자 분할 세그먼트 데이터 구조를 유지하고 단순화한다.

 

 

 

 

미지의 기능은 반드시 정확하게 트레이닝 코퍼스이다 훈련 과정에서, 기능 세그먼트로 대략 다각형을 사용하지만, 인식 (정규 단위) 미성년자를 추출하여 프로파일에서 고정 된 길이를 특징으로하고, 많은 일치 프로토 타입 기능 클러스터링을위한 교육 자료. 짧은 굵은 선이 원형 (도. 6)과 같이, 다각형 근사 세그먼트 집계하여 가늘고 긴 라인 미지로부터 추출된다. 기능 분할 문자 기능과 완전한 문자가 일치하지 않습니다,하지만 작은 부분이 잘 일치로 기능이 구분됩니다. 이 작은 실수로 기능 매칭이 사건을 분할 문자를 해결할 수 있음을 보여줍니다. 유일한 문제는 계산 된 위치 및 특징들 사이의 거리를 계산하는 비용이 원형이 높기 때문이다. 알 추출 기능은 다각형 근사 원형 차원 벡터 (X, Y, 각 길이에 의해 표현 입체 벡터 (X, Y, 각도)로 표시된다 ).

분류

카테고리는 두 과정으로 나누어집니다. 첫째, 기능 분류의 목록을 작성, 알 수없는 특성이 일치 할 수있다. 3 차원 룩업 테이블의 거친 양자화로부터 추출 된 각각의 특징은 다음과 같은리스트는 비트 벡터와 일치 모두의 합과, 상기 높은 (즉, 가장 일치하는). 프로토 타입 기능 가능한 비트 벡터와 일치하는 각 문자는 알려지지 사이의 유사도를 비교함으로써 계산된다. 각각의 프로토 타입은 유리수의 곱을 AND (논리 곱의 합 식), 프로토 타입 정렬 피처 매칭을 산출 유사성으로 표현된다. 각각의 거리를 계산하는 과정이 기록 된 각각의 프로토 타입 증거 전반적인 유사성을 특징으로한다. 제일 전반적인 유사성, 특성 및 프로토 타입을 요약 한 것입니다. (완전히 짧고 긴 기능 다각형 사이의 통계적 거리. 전체 기능으로 간주하고 지역의 기능을 통합 할 수 있습니다 방법을 이해하지?)

언어 분석

다음과 같은 범주 최상의 결과, 가장 빈번한 단어 사전, 숫자, 대문자, 소문자를 선택, 단어 분류를 선택합니다. 각 클래스는 다른 상수를 곱하더라도 최종 결과는, 최소 거리 점수를 선택한다. 다른 문자 세분화 확률이 직접 이러한 문자를 비교하기 어려운 경우에도 다른 결과를 얻을 수 있습니다. 각 캐릭터 클래스는 첫 번째는 그것을 온 정규화 된 프로토 타입에서 제외되기 자신감이며, 두 숫자를 생성합니다. 문자의 윤곽의 길이가 항상 동일하기 때문에 두번째 거리의 문자 윤곽 정규화 프로토 타입의 길이를 곱한 속도이다. 기준선 / x 높이가 높은, 낮은 노이즈 및 간섭을 방지하기 위해, 가능한 정규화. 문자 구형 정규화 종횡비의 주요 이점은 생략하고 다른 폭 스트로크 폰트의 영향 수있다.

적응 분류

분류 모든 경우 정적 개요를 사용해야합니다, 그래서 문자, 능력이 떨어질 것 이외의 문자를 구별 할 수 있습니다. 따라서, 적응 분류기 훈련을 구별 더 많은 기능은 일반적으로 확인 된 분류의 정적 문자를 사용합니다. 크게 다른 적응 정적 분류 및 다른 정규화 방법을 사용하여 분류. 등방성 / x 높이 정규화 정적 분급 문자 위치와 중심 (제 모멘트)에 의해 정규화 된 상기 제 모멘트의 크기를 사용하여 기준선 적응성 분류기. 노이즈 방지의 더 나은 판정 소문자 정규화 기준 / x 높이가 규격화 모멘트 장점은 문자 및 종횡비 다른 스트로크 두께의 제거이다.

 

看完这篇概述,主要的启发还是倾斜检测的想法,利用连通域来分析拟合基线。分割部分的黏连分割和拼接没有详细的说明,也不是很理解具体是怎么实现的,大概是结合了识别置信度来选择最佳分割点,还有固定间隔和比例间隔的判断依据是什么。识别部分不理解文中说的多边形拟合特征在整体不匹配,在局部又十分匹配,根据二者结合判断识别结果。以及分类器的训练方式。

欢迎一起讨论。

转载请注明。

 

추천

출처www.cnblogs.com/linguinost/p/11591935.html