1 |
1
다양한 문서 형태의 입력 데이터로부터 데이터를 추출하기 위한 데이터 추출 장치로서,상기 입력 데이터의 문서 형태를 판단하는 문서 형태 판단부;상기 입력 데이터의 문서 형태를 기반으로 상기 입력 데이터로부터 데이터를 추출하는 추출 방식을 결정하는 데이터 추출방식 결정부; 및복수개의 추출 방식 중 상기 입력 데이터의 문서 형태를 기반으로 결정된 추출 방식에 따라 상기 입력 데이터로부터 데이터를 추출하는 데이터 추출부를 포함하고,상기 입력 데이터의 문서 형태가 미리 설정된 복수개의 문서 형태 중 사용자에 의한 데이터 입력이 필요한 문서 형태에 해당하는 경우, 상기 데이터 추출부는,템플릿 매칭을 사용하여 상기 입력 데이터 중 내용을 입력해야 할 입력창에 해당하는 제1 오브젝트를 검출하고;상기 템플릿 매칭을 사용하여 상기 입력 데이터 중 입력해야 할 버튼에 해당하는 제2 오브젝트를 검출하고;상기 제1 오브젝트의 위치를 기반으로 상기 입력창을 검출하여 상기 입력창에 미리 설정된 내용을 자동 입력하고; 그리고상기 제2 오브젝트의 위치를 기반으로 상기 버튼을 자동 입력하도록 구성되는, 데이터 추출 장치
|
2 |
2
제1항에 있어서,상기 문서 형태 판단부는,상기 입력 데이터를 상기 미리 설정된 복수개의 문서 형태 중 어느 하나의 문서 형태로 분류하도록 구성되고,상기 복수개의 문서 형태는,광학식 문자 판독(OCR; Optical Character Recognition) 엔진에 의해 텍스트 인식이 가능한 제1 문서 형태; 웹 페이지로부터 스크래핑에 의해 데이터 추출이 가능한 제2 문서 형태; 문서 출력만 가능한 제3 문서 형태; 및 사용자에 의한 데이터 입력이 필요한 제4 문서 형태를 포함하는, 데이터 추출 장치
|
3 |
3
제2항에 있어서,상기 데이터 추출방식 결정부는 미리 설정된 복수개의 추출 방식 중 상기 입력 데이터의 문서 형태에 대응되는 추출 방식을 결정하고,상기 복수개의 추출 방식은,상기 OCR 엔진에 의해 상기 입력 데이터로부터 데이터를 추출하는 제1 추출 방식; 상기 웹 페이지로부터 스크래핑에 의해 데이터를 추출하는 제2 추출 방식; 가상 프린터를 사용하여 인쇄 파일을 출력한 후 인쇄 파일에 대해 상기 OCR 엔진을 사용하여 데이터를 추출하는 제3 추출 방식; 및 상기 템플릿 매칭을 기반으로 사용자 입력 영역을 추출하고 기 정의된 패턴에 따라 사용자 입력 영역을 자동으로 입력하여 데이터를 추출하는 제4 추출 방식을 포함하는, 데이터 추출 장치
|
4 |
4
제3항에 있어서,상기 데이터 추출부는,상기 입력 데이터의 문서 형태가 상기 제1 문서 형태에 해당하는 경우, 상기 제1 추출 방식에 따라 상기 입력 데이터로부터 데이터를 추출하고;상기 입력 데이터의 문서 형태가 상기 제2 문서 형태에 해당하는 경우, 상기 제2 추출 방식에 따라 상기 입력 데이터로부터 데이터를 추출하고;상기 입력 데이터의 문서 형태가 상기 제3 문서 형태에 해당하는 경우, 상기 제3 추출 방식에 따라 상기 입력 데이터로부터 데이터를 추출하고; 그리고상기 입력 데이터의 문서 형태가 상기 제4 문서 형태에 해당하는 경우, 상기 제4 추출 방식에 따라 상기 입력 데이터로부터 데이터를 추출하도록 구성되는, 데이터 추출 장치
|
5 |
5
삭제
|
6 |
6
제1항 내지 제4항 중 어느 한 항에 있어서,상기 문서 형태 판단부는 상기 입력 데이터에 포함된 정보, 상기 입력 데이터의 확장자 정보, 상기 입력 데이터를 수집한 주소 정보 및 사용자에 의해 입력된 정보를 기반으로 상기 입력 데이터의 문서 형태를 판단하는, 데이터 추출 장치
|
7 |
7
다양한 문서 형태의 입력 데이터로부터 데이터를 추출하기 위한 데이터 추출 방법으로서,문서 형태 판단부에 의해, 상기 입력 데이터의 문서 형태를 판단하는 단계;데이터 추출방식 결정부에 의해, 상기 입력 데이터의 문서 형태를 기반으로 상기 입력 데이터로부터 데이터를 추출하는 추출 방식을 결정하는 단계; 및데이터 추출부에 의해, 복수개의 추출 방식 중 상기 입력 데이터의 문서 형태를 기반으로 결정된 추출 방식에 따라 상기 입력 데이터로부터 데이터를 추출하는 단계를 포함하고,상기 입력 데이터의 문서 형태가 미리 설정된 복수개의 문서 형태 중 사용자에 의한 데이터 입력이 필요한 문서 형태에 해당하는 경우, 상기 데이터를 추출하는 단계는,템플릿 매칭을 사용하여 상기 입력 데이터 중 내용을 입력해야 할 입력창에 해당하는 제1 오브젝트를 검출하는 단계;상기 템플릿 매칭을 사용하여 상기 입력 데이터 중 입력해야 할 버튼에 해당하는 제2 오브젝트를 검출하는 단계;상기 제1 오브젝트의 위치를 기반으로 상기 입력창을 검출하여 상기 입력창에 미리 설정된 내용을 자동 입력하는 단계; 및상기 제2 오브젝트의 위치를 기반으로 상기 버튼을 자동 입력하는 단계를 포함하는, 데이터 추출 방법
|
8 |
8
제7항에 있어서,상기 문서 형태를 판단하는 단계는,상기 입력 데이터를 상기 미리 설정된 복수개의 문서 형태 중 어느 하나의 문서 형태로 분류하는 단계를 포함하고,상기 복수개의 문서 형태는,광학식 문자 판독(OCR; Optical Character Recognition) 엔진에 의해 텍스트 인식이 가능한 제1 문서 형태; 웹 페이지로부터 스크래핑에 의해 데이터 추출이 가능한 제2 문서 형태; 문서 출력만 가능한 제3 문서 형태; 및 사용자에 의한 데이터 입력이 필요한 제4 문서 형태를 포함하는, 데이터 추출 방법
|
9 |
9
제8항에 있어서,상기 추출 방식을 결정하는 단계는, 미리 설정된 복수개의 추출 방식 중 상기 입력 데이터의 문서 형태에 대응되는 추출 방식을 결정하는 단계를 포함하고,상기 복수개의 추출 방식은,상기 OCR 엔진에 의해 상기 입력 데이터로부터 데이터를 추출하는 제1 추출 방식; 상기 웹 페이지로부터 스크래핑에 의해 데이터를 추출하는 제2 추출 방식; 가상 프린터를 사용하여 인쇄 파일을 출력한 후 인쇄 파일에 대해 상기 OCR 엔진을 사용하여 데이터를 추출하는 제3 추출 방식; 및 상기 템플릿 매칭을 기반으로 사용자 입력 영역을 추출하고 기 정의된 패턴에 따라 사용자 입력 영역을 자동으로 입력하여 데이터를 추출하는 제4 추출 방식을 포함하는, 데이터 추출 방법
|
10 |
10
제9항에 있어서,상기 데이터를 추출하는 단계는,상기 입력 데이터의 문서 형태가 상기 제1 문서 형태에 해당하는 경우, 상기 제1 추출 방식에 따라 상기 입력 데이터로부터 데이터를 추출하는 단계;상기 입력 데이터의 문서 형태가 상기 제2 문서 형태에 해당하는 경우, 상기 제2 추출 방식에 따라 상기 입력 데이터로부터 데이터를 추출하는 단계;상기 입력 데이터의 문서 형태가 상기 제3 문서 형태에 해당하는 경우, 상기 제3 추출 방식에 따라 상기 입력 데이터로부터 데이터를 추출하는 단계; 및상기 입력 데이터의 문서 형태가 상기 제4 문서 형태에 해당하는 경우, 상기 제4 추출 방식에 따라 상기 입력 데이터로부터 데이터를 추출하는 단계를 포함하는, 데이터 추출 방법
|
11 |
11
삭제
|
12 |
12
제7항에 있어서,상기 문서 형태를 판단하는 단계는, 상기 입력 데이터에 포함된 정보, 상기 입력 데이터의 확장자 정보, 상기 입력 데이터를 수집한 주소 정보 및 사용자에 의해 입력된 정보를 기반으로 상기 입력 데이터의 문서 형태를 판단하는, 데이터 추출 방법
|
13 |
13
제7항 내지 제10항, 제12항 중 어느 한 항의 데이터 추출 방법을 실행하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체
|