1 |
1
학습 문서를 이용하여 특정 속성을 갖는 특정 엔티티(entity)를 구조적으로 식별하기 위한 패턴 규칙을 생성하는 단계;
대상 문서를 복수 개의 블록들로 분할하는 단계;
구조적으로 유사한 블록들끼리 동일한 그룹에 속하도록 상기 분할된 복수 개의 블록들을 복수 개의 그룹들로 그룹핑하는 단계;
상기 복수 개의 그룹들 중에서 가장 많은 정보량을 갖는 의미 그룹을 식별하는 단계; 및
상기 생성된 패턴 규칙을 이용하여 상기 식별된 의미 그룹으로부터 상기 특정 엔티티와 관련된 정보를 하나 이상 추출하는 단계를
포함하는 블록 그룹핑을 이용한 정보 추출 방법
|
2 |
2
제 1 항에 있어서, 상기 패턴 규칙을 생성하는 단계는,
상기 학습 문서로부터 상기 특정 엔티티가 선택되는 단계;
상기 학습 문서에서 상기 특정 엔티티를 포함하는 블록을 식별하는 단계;
상기 식별된 블록에서 구조적 및 시각적으로 의미없는 태그와 속성들을 제거하고, 상기 태그 및 속성들이 제거된 상기 블록을 태그 시퀀스(Tag Sequence)로 인코딩하는 단계; 및
상기 인코딩된 태그 시퀀스를 이용하여 상기 패턴 규칙을 생성하는 단계를
포함하는 블록 그룹핑을 이용한 정보 추출 방법
|
3 |
3
제 2 항에 있어서, 상기 블록을 식별하는 단계는,
시각적 웹 문서 분할(VIPS: Vision-based Page Segmentation) 알고리즘을 이용하여 수행되는 것을 특징으로 하는 블록 그룹핑을 이용한 정보 추출 방법
|
4 |
4
제 1 항에 있어서, 상기 복수 개의 블록들로 분할하는 단계는,
시각적 웹 문서 분할(VIPS: Vision-based Page Segmentation) 알고리즘을 이용하여, 상기 대상 문서를 상기 복수 개의 블록들로 분할하는 것을 특징으로 하는 블록 그룹핑을 이용한 정보 추출 방법
|
5 |
5
제 1 항에 있어서, 상기 그룹핑하는 단계는,
토큰을 기반으로 하는 트리 편집 거리 알고리즘을 이용하여 수행되는 것을 특징으로 하는 블록 그룹핑을 이용한 정보 추출 방법
|
6 |
6
제 5 항에 있어서, 상기 의미 그룹을 식별하는 단계는,
텍스트 정보량 및 이미지 정보량 중 적어도 하나의 정보량을 고려하여 가장 많은 정보량을 갖는 의미 그룹을 식별하는 것을 특징으로 하는 블록 그룹핑을 이용한 정보 추출 방법
|
7 |
7
제 6 항에 있어서, 상기 텍스트 정보량은,
텍스트 토큰 개수에 의해 산출되고,
상기 이미지 정보량은, 이미지의 면적에 의해 산출되는 것을 특징으로 하는 블록 그룹핑을 이용한 정보 추출 방법
|
8 |
8
제 1 항에 있어서, 상기 정보를 추출하는 단계는,
상기 특정 엔티티와 동일한 속성을 갖는 정보를 추출하는 것을 특징으로 하는 블록 그룹핑을 이용한 정보 추출 방법
|
9 |
9
제 8 항에 있어서, 상기 정보를 추출하는 단계는,
상기 식별된 의미 그룹에 포함된 모든 블록들에서 구조적 및 시각적으로 의미없는 태그와 속성들을 제거하는 단계;
상기 태그 및 속성들이 제거된 상기 블록들을 태그 시퀀스(Tag Sequence)로 인코딩하는 단계; 및
상기 인코딩된 태그 시퀀스에 대해 상기 패턴 규칙을 적용하여 상기 특정 엔티티와 동일한 속성을 갖는 정보를 추출하는 단계를
포함하는 블록 그룹핑을 이용한 정보 추출 방법
|
10 |
10
제 1 항에 있어서, 상기 학습 문서 및 상기 대상 문서는,
웹(web) 문서인 것을 특징으로 하는 블록 그룹핑을 이용한 정보 추출 방법
|
11 |
11
제 1 항 내지 제 10 항의 어느 한 항의 방법을 컴퓨터로 실행시킬 수 있는 컴퓨터 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체
|
12 |
12
학습문서에서 특정 속성을 갖는 엔티티(entity)가 선택되는 단계;
시각적 웹 문서 분할(Vision-based Page Segmentation; 이하 "VIPS"라고 함) 알고리즘을 이용하여 상기 선택된 엔티티를 포함하는 블록을 추출하는 단계;
상기 추출된 블록에서 구조적 및 시각적으로 무의미한 태그와 속성들을 제거하고, 상기 태그 및 속성들이 제거된 상기 블록을 제1 태그 시퀀스(Tag Sequence)로 인코딩하는 단계;
상기 제1 태그 시퀀스를 이용하여 상기 선택된 엔티티를 구조적으로 식별하기 위한 패턴 규칙을 생성하는 단계;
VIPS를 이용하여 웹 문서를 복수 개의 블록들로 분할하는 단계;
토큰을 기반으로 하는 트리 편집 거리 알고리즘을 이용하여, 구조적으로 유사한 블록들끼리 동일한 그룹에 속하도록 상기 분할된 복수 개의 블록들을 복수 개의 그룹들로 그룹핑하는 단계;
텍스트 정보량과 이미지 정보량 중 적어도 하나를 고려하여, 상기 복수 개의 그룹들 중에서 가장 많은 정보량을 갖는 의미 그룹을 식별하는 단계;
상기 의미 그룹에 속한 블록들에서 구조적 및 시각적으로 의미없는 태그와 속성들을 제거하고, 상기 태그 및 속성들이 제거된 상기 블록들을 제2 태그 시퀀스로 인코딩하는 단계; 및
상기 제2 태그 시퀀스에 대해 상기 생성된 패턴 규칙을 적용하여 상기 선택된 엔티티와 동일한 속성을 갖는 적어도 하나의 정보를 추출하는 단계를
포함하는 블록 그룹핑을 이용한 정보 추출 방법
|
13 |
13
웹 문서와 특정 속성을 갖는 특정 엔티티가 선택되는 단계;
시각적 웹 문서 분할(Vision-based Page Segmentation) 알고리즘을 이용하여 상기 웹 문서를 복수 개의 블록들로 분할하는 단계;
토큰을 기반으로 하는 트리 편집 거리 알고리즘을 이용하여, 구조적으로 유사한 블록들끼리 동일한 그룹에 속하도록 상기 분할된 복수 개의 블록들을 복수 개의 그룹들로 그룹핑하는 단계;
텍스트 정보량과 이미지 정보량 중 적어도 하나를 고려하여, 상기 복수 개의 그룹들 중에서 가장 많은 정보량을 갖는 의미 그룹을 식별하는 단계; 및
미리 저장된 상기 특정 엔티티를 구조적으로 식별하기 위한 패턴 규칙을 이용하여, 상기 식별된 의미 그룹으로부터 상기 특정 엔티티와 동일한 속성을 갖는 적어도 하나의 정보를 추출하는 단계를
포함하는 블록 그룹핑을 이용한 정보 추출 방법
|
14 |
14
제 12 항 또는 제 13 항에 있어서,
상기 텍스트 정보량은, 텍스트 토큰 개수에 의해 산출되고,
상기 이미지 정보량은, 이미지의 면적에 의해 산출되는 것을 특징으로 하는 블록 그룹핑을 이용한 정보 추출 방법
|
15 |
15
학습 문서와 대상 문서를 입력받는 입력부;
상기 학습 문서를 이용하여 특정 속성을 갖는 특정 엔티티를 구조적으로 식별하기 위한 패턴 규칙을 생성하는 규칙 학습부;
상기 생성된 패턴 규칙을 저장하는 메모리; 및
상기 패턴 규칙을 이용하여 상기 대상 문서로부터 상기 특정 엔티티와 관련된 정보를 추출하는 정보 추출부를 포함하고,
상기 정보 추출부는,
상기 대상 문서를 복수 개의 블록들로 분할하는 블록 분할부;
구조적으로 유사한 블록들끼리 동일한 그룹에 속하도록 상기 분할된 복수 개의 블록들을 복수 개의 그룹들로 그룹핑하는 그룹핑부;
상기 복수 개의 그룹들 중 가장 많은 정보량을 갖는 의미 그룹을 식별하는 의미그룹 식별부; 및
상기 생성된 패턴 규칙을 이용하여 상기 식별된 의미 그룹으로부터 상기 특정 엔티티와 관련된 정보를 하나 이상 추출하는 규칙 적용부를
포함하는 블록 그룹핑을 이용한 정보 추출 장치
|
16 |
16
제 15 항에 있어서, 상기 규칙 학습부는,
상기 학습 문서로부터 상기 특정 엔티티를 선택하는 엔티티 선택부;
상기 학습 문서에서 상기 특정 엔티티를 포함하는 블록을 식별하는 블록 식별부; 및
상기 식별된 블록에서 구조적 및 시각적으로 의미없는 태그와 속성들을 제거하고, 상기 태그 및 속성들이 제거된 상기 블록을 태그 시퀀스로 인코딩하고, 상기 인코딩된 태그 시퀀스를 이용하여 상기 패턴 규칙을 생성하는 규칙 생성부를
포함하는 블록 그룹핑을 이용한 정보 추출 장치
|
17 |
17
제 16 항에 있어서, 상기 블록 식별부는,
시각적 웹 문서 분할(VIPS: Vision-based Page Segmentation) 알고리즘을 이용하여 상기 특정 엔티티를 포함하는 블록을 식별하는 것을 특징으로 하는 블록 그룹핑을 이용한 정보 추출 장치
|
18 |
18
제 15 항에 있어서, 상기 블록 분할부는,
시각적 웹 문서 분할(VIPS: Vision-based Page Segmentation) 알고리즘을 이용하여 상기 대상 문서를 상기 복수 개의 블록들로 분할하는 것을 특징으로 하는 블록 그룹핑을 이용한 정보 추출 장치
|
19 |
19
제 15 항에 있어서, 상기 그룹핑부는,
토큰을 기반으로 하는 트리 편집 거리 알고리즘을 이용하여 상기 분할된 복수 개의 블록들을 상기 복수 개의 그룹들로 그룹핑하는 것을 특징으로 하는 블록 그룹핑을 이용한 정보 추출 장치
|
20 |
20
제 19 항에 있어서, 상기 의미그룹 식별부는,
텍스트 정보량 및 이미지 정보량 중 적어도 하나의 정보량을 고려하여 가장 많은 정보량을 갖는 그룹을 상기 의미 그룹으로 식별하는 것을 특징으로 하는 블록 그룹핑을 이용한 정보 추출 장치
|
21 |
21
제 20 항에 있어서,
상기 텍스트 정보량은, 텍스트 토큰 개수에 의해 산출되고,
상기 이미지 정보량은, 이미지의 면적에 의해 산출되는 것을 특징으로 하는 블록 그룹핑을 이용한 정보 추출 장치
|
22 |
22
제 15 항에 있어서, 상기 규칙 적용부는,
상기 특정 엔티티와 동일한 속성을 갖는 정보를 추출하는 것을 특징으로 하는 블록 그룹핑을 이용한 정보 추출 장치
|
23 |
23
제 22 항에 있어서, 상기 규칙 적용부는,
상기 의미 그룹에 포함된 모든 블록들에서 구조적 및 시각적으로 의미없는 태그와 속성들을 제거하고, 상기 태그 및 속성들이 제거된 상기 블록들을 태그 시퀀스로(Tag Sequence)로 인코딩하고, 상기 인코딩된 태그 시퀀스에 대해 상기 패턴 규칙을 적용하여 상기 특정 엔티티와 동일한 속성을 갖는 정보를 추출하는 것을 특징으로 하는 블록 그룹핑을 이용한 정보 추출 장치
|
24 |
24
제 15 항에 있어서, 상기 학습 문서 및 상기 대상 문서는,
웹(web) 문서인 것을 특징으로 하는 블록 그룹핑을 이용한 정보 추출 장치
|
25 |
25
웹 문서와 특정 속성을 갖는 특정 엔티티를 입력받는 입력부;
상기 특정 엔티티를 구조적으로 식별하기 위한 패턴 규칙을 저장하는 메모리; 및
상기 패턴 규칙을 이용하여 상기 웹 문서로부터 상기 특정 엔티티와 관련된 정보를 추출하는 정보 추출부를 포함하고,
상기 정보 추출부는,
시각적 웹 문서 분할(VIPS: Vision-based Page Segmentation) 알고리즘을 이용하여 상기 웹 문서를 복수 개의 블록들로 분할하는 블록 분할부;
토큰을 기반으로 하는 트리 편집 거리 알고리즘을 이용하여, 구조적으로 유사한 블록들끼리 동일한 그룹에 속하도록 상기 분할된 복수 개의 블록들을 복수 개의 그룹들로 그룹핑하는 그룹핑부;
텍스트 정보량과 이미지 정보량 중 적어도 하나를 고려하여, 상기 복수 개의 그룹들 중 가장 많은 정보량을 갖는 의미 그룹을 식별하는 의미그룹 식별부; 및
상기 패턴 규칙을 이용하여 상기 식별된 의미 그룹으로부터 상기 특정 엔티티와 동일한 속성을 갖는 정보를 하나 이상 추출하는 규칙 적용부를
포함하는 블록 그룹핑을 이용한 정보 추출 장치
|
26 |
26
제 24 항에 있어서,
상기 텍스트 정보량은, 텍스트 토큰 개수에 의해 산출되고,
상기 이미지 정보량은, 이미지의 면적에 의해 산출되는 것을 특징으로 하는 블록 그룹핑을 이용한 정보 추출 장치
|