1 |
1
문서 이미지에서 하나 이상의 셀을 포함하는 표를 인식하는 장치에 있어서,상기 문서 이미지에서 표 영역 이미지를 인식하는 이미지 인식 모듈;상기 인식된 표 영역 이미지에서 라인 성분을 추출한 라인 이미지를 생성하고, 상기 표 영역 이미지에서 텍스트 성분을 추출한 텍스트 이미지를 생성하고, 그리고 상기 텍스트 이미지에 기초하여 텍스트 블록 이미지를 생성하는 전처리 모듈;상기 라인 이미지에 기초하여 라인 기반 셀 구조를 생성하고, 상기 텍스트 블록 이미지에 기초하여 텍스트 블록 기반 셀 구조를 생성하고, 그리고 상기 라인 기반 셀 구조와 상기 텍스트 블록 기반 셀 구조를 비교하여, 결과 셀 구조를 생성하는 셀 구조 분석 모듈; 및상기 라인 이미지, 상기 텍스트 이미지 및 상기 결과 셀 구조 중 적어도 하나에 기초하여 결과 표를 생성하는 결과 표 생성 모듈;을 포함하고,상기 셀 구조 분석 모듈은,상기 라인 이미지 상의 상기 라인 성분에 기초하여 헤더 영역-상기 헤더 영역은 상기 라인 성분으로 둘러싸인 영역 중 최상단 영역을 포함함-을 그룹화하고, 그리고 상기 헤더 영역에 텍스트 블록이 위치하는지 여부에 기초하여 상기 헤더 영역의 하부 영역을 분할하여 상기 라인 기반 셀 구조를 생성하는,문서 이미지에서 표를 인식하는 장치
|
2 |
2
제 1 항에 있어서,상기 텍스트 블록 이미지는,상기 텍스트 이미지 상의 상기 텍스트 성분이 사전 설정된 높이의 블록을 포함하는 텍스트 블록으로 일대일 대체되어 구성되는 이미지를 포함하는,문서 이미지에서 표를 인식하는 장치
|
3 |
3
제 1 항에 있어서,상기 텍스트 블록 이미지는,상기 텍스트 성분의 사전 설정된 수평 거리 이내에 인근 텍스트 성분이 위치하는 경우, 상기 인근 텍스트 성분을 포함하는 상기 텍스트 성분의 일부로 판단하여 상기 텍스트 블록 이미지에 포함하는,문서 이미지에서 표를 인식하는 장치
|
4 |
4
제 1 항에 있어서,상기 전처리 모듈은,상기 표 영역 이미지 상에서 수평 방향, 또는 수직 방향으로 밀집된 픽셀들을 상기 라인 성분으로 판단하는,문서 이미지에서 표를 인식하는 장치
|
5 |
5
제 1 항에 있어서,상기 전처리 모듈은,상기 라인 이미지와 상기 텍스트 이미지를 병합하여 검토 이미지를 생성하고, 상기 검토 이미지 상에서 상기 라인 성분과 상기 텍스트 성분이 동일한 픽셀에 위치하는 경우, 상기 라인 성분을 텍스트 성분의 일부로 판단하는 검토 서브-모듈;을 포함하는,문서 이미지에서 표를 인식하는 장치
|
6 |
6
제 1 항에 있어서,상기 셀 구조 분석 모듈은,상기 라인 이미지 상에서 상기 라인 성분이 존재하지 않는 경우, 상기 텍스트 블록 기반 셀 구조에 기초하여 상기 결과 셀 구조를 생성하는,문서 이미지에서 표를 인식하는 장치
|
7 |
7
제 1 항에 있어서,상기 셀 구조 분석 모듈은,상기 텍스트 블록 이미지 상에서 텍스트 블록에 포함되지 않는 수직, 또는 수평 방향으로 연속된 픽셀로 구성되는 라인을 기준으로 상기 텍스트 블록 기반 셀 구조를 생성하는,문서 이미지에서 표를 인식하는 장치
|
8 |
8
삭제
|
9 |
9
제 1 항에 있어서,상기 셀 구조 분석 모듈은,상기 하부 영역에 포함되는 분할된 수직 방향 셀 중 상기 텍스트 성분이 위치하는 셀의 비율이 사전설정된 비율 이하인 경우, 상기 수직 방향 셀을 각각 수평 방향 인접 셀과 병합하는 공백 셀 병합 서브-모듈;을 포함하는,문서 이미지에서 표를 인식하는 장치
|
10 |
10
제 1 항에 있어서,상기 셀 구조 분석 모듈은,상기 텍스트 블록 기반 셀 구조의 첫 행에서 타이틀 셀―상기 타이틀 셀은 첫 행에서 텍스트 블록이 위치하는 셀을 포함함―의 수평 방향 인접 셀이 상기 텍스트 블록을 포함하지 않는 경우, 상기 타이틀 셀 및 상기 수평 방향 인접 셀을 병합하는 타이틀 셀 병합 서브-모듈;을 포함하는,문서 이미지에서 표를 인식하는 장치
|
11 |
11
제 1 항에 있어서,상기 셀 구조 분석 모듈은,상기 텍스트 블록 기반 셀 구조가 포함하는 하나의 셀 너비, 또는 높이가 상기 텍스트 성분의 높이 중간값의 절반 이하인 경우, 상기 하나의 셀을 노이즈로 판단하여 인접 셀과 병합하는 노이즈 제거 서브-모듈;을 포함하는,문서 이미지에서 표를 인식하는 장치
|
12 |
12
제 1 항에 있어서,상기 셀 구조 분석 모듈은,상기 라인 기반 셀 구조가 포함하는 각각의 셀이 상기 텍스트 블록 기반 셀 구조가 포함하는 각각의 셀과 일대일 대응으로 일치하는 경우, 상기 표의 셀 구조를 폐쇄형 셀 구조로 판단하고, 상기 판단에 기초하여 상기 라인 기반 셀 구조에 기초하여 상기 결과 셀 구조를 생성하고, 그리고상기 결과 표 생성 모듈은,상기 결과 셀 구조에 상기 텍스트 이미지를 병합한 상기 결과 표를 생성하는,문서 이미지에서 표를 인식하는 장치
|
13 |
13
제 1 항에 있어서,상기 셀 구조 분석 모듈은,상기 라인 기반 셀 구조가 포함하는 각각의 셀이 상기 텍스트 블록 기반 셀 구조가 포함하는 각각의 셀과 일치하지 않는 경우, 상기 표의 셀 구조를 개방형 셀 구조로 판단하고, 상기 판단에 기초하여 상기 라인 기반 셀 구조 및 상기 텍스트 블록 기반 셀 구조에 기초하여 상기 결과 셀 구조를 생성하고, 그리고상기 결과 표 생성 모듈은,상기 결과 셀 구조에 상기 텍스트 이미지를 병합한 상기 결과 표를 생성하는,문서 이미지에서 표를 인식하는 장치
|
14 |
14
문서 이미지에서 표를 인식하는 장치가 하나 이상의 셀을 포함하는 상기 표를 인식하는 방법에 있어서,이미지 인식 모듈이 상기 문서 이미지에서 표 영역 이미지를 인식하는 단계;전처리 모듈이 상기 표 영역 이미지에 기초하여 라인 이미지, 텍스트 이미지 및 텍스트 블록 이미지를 생성하는 전처리 단계;셀 구조 분석 모듈이 상기 표 영역 이미지의 결과 셀 구조를 생성하는 단계; 및결과 표 생성 모듈이 상기 라인 이미지, 상기 텍스트 이미지 및 상기 결과 셀 구조 중 적어도 하나에 기초하여 결과 표를 생성하는 단계;를 포함하고, 상기 전처리 단계는, 상기 전처리 모듈이 상기 인식된 표 영역 이미지에서 라인 성분을 추출한 상기 라인 이미지 및 상기 표 영역 이미지에서 텍스트 성분을 추출한 상기 텍스트 이미지를 생성하는 단계; 및 상기 전처리 모듈이 상기 텍스트 이미지에 기초하여 상기 텍스트 블록 이미지를 생성하는 단계; 를 포함하고, 그리고 상기 결과 셀 구조를 생성하는 단계는, 상기 셀 구조 분석 모듈이 상기 라인 이미지에 기초하여 라인 기반 셀 구조 및 상기 텍스트 블록 이미지에 기초하여 텍스트 블록 기반 셀 구조를 생성하는 단계; 및 상기 셀 구조 분석 모듈이 상기 라인 기반 셀 구조와 상기 텍스트 블록 기반 셀 구조를 비교하여, 상기 결과 셀 구조를 생성하는 단계; 를 포함하고, 상기 셀 구조 분석 모듈이 상기 라인 이미지에 기초하여 라인 기반 셀 구조 및 상기 텍스트 블록 이미지에 기초하여 텍스트 블록 기반 셀 구조를 생성하는 단계는, 상기 셀 구조 분석 모듈이 상기 라인 이미지 상의 상기 라인 성분에 기초하여 헤더 영역-상기 헤더 영역은 상기 라인 성분으로 둘러싸인 영역 중 최상단 영역을 포함함-을 그룹화하고, 그리고 상기 헤더 영역에 텍스트 블록이 위치하는지 여부에 기초하여 상기 헤더 영역의 하부 영역을 분할하여 상기 라인 기반 셀 구조를 생성하는 단계를 포함하는,문서 이미지에서 표를 인식하는 방법
|