맞춤기술찾기

이전대상기술

블록 그룹핑을 이용한 정보 추출 장치 및 그 방법

  • 기술번호 : KST2014009911
  • 담당센터 : 인천기술혁신센터
  • 전화번호 : 032-420-3580
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 본 발명은 블록 그룹핑을 이용한 정보 추출 장치 및 그 방법에 관한 것이다. 본 발명은, 학습 문서를 이용하여 특정 속성을 갖는 특정 엔티티(entity)를 구조적으로 식별하기 위한 패턴 규칙을 생성하는 단계; 대상 문서를 복수 개의 블록들로 분할하는 단계; 구조적으로 유사한 블록들끼리 동일한 그룹에 속하도록 상기 분할된 복수 개의 블록들을 복수 개의 그룹들로 그룹핑하는 단계; 상기 복수 개의 그룹들 중에서 가장 많은 정보량을 갖는 의미 그룹을 식별하는 단계; 및 상기 생성된 패턴 규칙을 이용하여 상기 식별된 의미 그룹으로부터 상기 특정 엔티티와 관련된 정보를 하나 이상 추출하는 단계를 포함하는 블록 그룹핑을 이용한 정보 추출 방법과 이를 수행할 수 있는 블록 그룹핑을 이용한 정보 추출 장치를 제공한다. 웹 문서, 엔티티, 블록 그룹핑, 정보 추출
Int. CL G06F 16/00 (2019.01.01)
CPC G06F 17/30705(2013.01) G06F 17/30705(2013.01) G06F 17/30705(2013.01)
출원번호/일자 1020070119766 (2007.11.22)
출원인 한양대학교 산학협력단
등록번호/일자 10-0907709-0000 (2009.07.07)
공개번호/일자 10-2009-0053104 (2009.05.27) 문서열기
공고번호/일자 (20090714) 문서열기
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 소멸
심사진행상태 수리
심판사항
구분 신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2007.11.22)
심사청구항수 26

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 한양대학교 산학협력단 대한민국 서울특별시 성동구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 최중민 대한민국 경기 안산시 상록구
2 강진범 대한민국 부산 사하구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 현종철 대한민국 서울특별시 중구 다산로 **, *층 특허법인충현 (신당동, 두지빌딩)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
1 한양대학교 에리카산학협력단 경기도 안산시 상록구
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2007.11.22 수리 (Accepted) 1-1-2007-0841239-97
2 출원인정보변경(경정)신고서
Notification of change of applicant's information
2008.03.11 수리 (Accepted) 4-1-2008-5037763-28
3 선행기술조사의뢰서
Request for Prior Art Search
2008.09.08 수리 (Accepted) 9-1-9999-9999999-89
4 선행기술조사보고서
Report of Prior Art Search
2008.10.13 수리 (Accepted) 9-1-2008-0064931-03
5 의견제출통지서
Notification of reason for refusal
2009.01.29 발송처리완료 (Completion of Transmission) 9-5-2009-0040743-92
6 [거절이유 등 통지에 따른 의견]의견(답변, 소명)서
[Opinion according to the Notification of Reasons for Refusal] Written Opinion(Written Reply, Written Substantiation)
2009.03.16 수리 (Accepted) 1-1-2009-0157536-11
7 등록결정서
Decision to grant
2009.06.11 발송처리완료 (Completion of Transmission) 9-5-2009-0248385-61
8 출원인정보변경(경정)신고서
Notification of change of applicant's information
2014.06.05 수리 (Accepted) 4-1-2014-5068294-39
9 출원인정보변경(경정)신고서
Notification of change of applicant's information
2015.02.16 수리 (Accepted) 4-1-2015-5022074-70
10 출원인정보변경(경정)신고서
Notification of change of applicant's information
2019.08.05 수리 (Accepted) 4-1-2019-5155816-75
11 출원인정보변경(경정)신고서
Notification of change of applicant's information
2019.08.06 수리 (Accepted) 4-1-2019-5156285-09
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
학습 문서를 이용하여 특정 속성을 갖는 특정 엔티티(entity)를 구조적으로 식별하기 위한 패턴 규칙을 생성하는 단계; 대상 문서를 복수 개의 블록들로 분할하는 단계; 구조적으로 유사한 블록들끼리 동일한 그룹에 속하도록 상기 분할된 복수 개의 블록들을 복수 개의 그룹들로 그룹핑하는 단계; 상기 복수 개의 그룹들 중에서 가장 많은 정보량을 갖는 의미 그룹을 식별하는 단계; 및 상기 생성된 패턴 규칙을 이용하여 상기 식별된 의미 그룹으로부터 상기 특정 엔티티와 관련된 정보를 하나 이상 추출하는 단계를 포함하는 블록 그룹핑을 이용한 정보 추출 방법
2 2
제 1 항에 있어서, 상기 패턴 규칙을 생성하는 단계는, 상기 학습 문서로부터 상기 특정 엔티티가 선택되는 단계; 상기 학습 문서에서 상기 특정 엔티티를 포함하는 블록을 식별하는 단계; 상기 식별된 블록에서 구조적 및 시각적으로 의미없는 태그와 속성들을 제거하고, 상기 태그 및 속성들이 제거된 상기 블록을 태그 시퀀스(Tag Sequence)로 인코딩하는 단계; 및 상기 인코딩된 태그 시퀀스를 이용하여 상기 패턴 규칙을 생성하는 단계를 포함하는 블록 그룹핑을 이용한 정보 추출 방법
3 3
제 2 항에 있어서, 상기 블록을 식별하는 단계는, 시각적 웹 문서 분할(VIPS: Vision-based Page Segmentation) 알고리즘을 이용하여 수행되는 것을 특징으로 하는 블록 그룹핑을 이용한 정보 추출 방법
4 4
제 1 항에 있어서, 상기 복수 개의 블록들로 분할하는 단계는, 시각적 웹 문서 분할(VIPS: Vision-based Page Segmentation) 알고리즘을 이용하여, 상기 대상 문서를 상기 복수 개의 블록들로 분할하는 것을 특징으로 하는 블록 그룹핑을 이용한 정보 추출 방법
5 5
제 1 항에 있어서, 상기 그룹핑하는 단계는, 토큰을 기반으로 하는 트리 편집 거리 알고리즘을 이용하여 수행되는 것을 특징으로 하는 블록 그룹핑을 이용한 정보 추출 방법
6 6
제 5 항에 있어서, 상기 의미 그룹을 식별하는 단계는, 텍스트 정보량 및 이미지 정보량 중 적어도 하나의 정보량을 고려하여 가장 많은 정보량을 갖는 의미 그룹을 식별하는 것을 특징으로 하는 블록 그룹핑을 이용한 정보 추출 방법
7 7
제 6 항에 있어서, 상기 텍스트 정보량은, 텍스트 토큰 개수에 의해 산출되고, 상기 이미지 정보량은, 이미지의 면적에 의해 산출되는 것을 특징으로 하는 블록 그룹핑을 이용한 정보 추출 방법
8 8
제 1 항에 있어서, 상기 정보를 추출하는 단계는, 상기 특정 엔티티와 동일한 속성을 갖는 정보를 추출하는 것을 특징으로 하는 블록 그룹핑을 이용한 정보 추출 방법
9 9
제 8 항에 있어서, 상기 정보를 추출하는 단계는, 상기 식별된 의미 그룹에 포함된 모든 블록들에서 구조적 및 시각적으로 의미없는 태그와 속성들을 제거하는 단계; 상기 태그 및 속성들이 제거된 상기 블록들을 태그 시퀀스(Tag Sequence)로 인코딩하는 단계; 및 상기 인코딩된 태그 시퀀스에 대해 상기 패턴 규칙을 적용하여 상기 특정 엔티티와 동일한 속성을 갖는 정보를 추출하는 단계를 포함하는 블록 그룹핑을 이용한 정보 추출 방법
10 10
제 1 항에 있어서, 상기 학습 문서 및 상기 대상 문서는, 웹(web) 문서인 것을 특징으로 하는 블록 그룹핑을 이용한 정보 추출 방법
11 11
제 1 항 내지 제 10 항의 어느 한 항의 방법을 컴퓨터로 실행시킬 수 있는 컴퓨터 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체
12 12
학습문서에서 특정 속성을 갖는 엔티티(entity)가 선택되는 단계; 시각적 웹 문서 분할(Vision-based Page Segmentation; 이하 "VIPS"라고 함) 알고리즘을 이용하여 상기 선택된 엔티티를 포함하는 블록을 추출하는 단계; 상기 추출된 블록에서 구조적 및 시각적으로 무의미한 태그와 속성들을 제거하고, 상기 태그 및 속성들이 제거된 상기 블록을 제1 태그 시퀀스(Tag Sequence)로 인코딩하는 단계; 상기 제1 태그 시퀀스를 이용하여 상기 선택된 엔티티를 구조적으로 식별하기 위한 패턴 규칙을 생성하는 단계; VIPS를 이용하여 웹 문서를 복수 개의 블록들로 분할하는 단계; 토큰을 기반으로 하는 트리 편집 거리 알고리즘을 이용하여, 구조적으로 유사한 블록들끼리 동일한 그룹에 속하도록 상기 분할된 복수 개의 블록들을 복수 개의 그룹들로 그룹핑하는 단계; 텍스트 정보량과 이미지 정보량 중 적어도 하나를 고려하여, 상기 복수 개의 그룹들 중에서 가장 많은 정보량을 갖는 의미 그룹을 식별하는 단계; 상기 의미 그룹에 속한 블록들에서 구조적 및 시각적으로 의미없는 태그와 속성들을 제거하고, 상기 태그 및 속성들이 제거된 상기 블록들을 제2 태그 시퀀스로 인코딩하는 단계; 및 상기 제2 태그 시퀀스에 대해 상기 생성된 패턴 규칙을 적용하여 상기 선택된 엔티티와 동일한 속성을 갖는 적어도 하나의 정보를 추출하는 단계를 포함하는 블록 그룹핑을 이용한 정보 추출 방법
13 13
웹 문서와 특정 속성을 갖는 특정 엔티티가 선택되는 단계; 시각적 웹 문서 분할(Vision-based Page Segmentation) 알고리즘을 이용하여 상기 웹 문서를 복수 개의 블록들로 분할하는 단계; 토큰을 기반으로 하는 트리 편집 거리 알고리즘을 이용하여, 구조적으로 유사한 블록들끼리 동일한 그룹에 속하도록 상기 분할된 복수 개의 블록들을 복수 개의 그룹들로 그룹핑하는 단계; 텍스트 정보량과 이미지 정보량 중 적어도 하나를 고려하여, 상기 복수 개의 그룹들 중에서 가장 많은 정보량을 갖는 의미 그룹을 식별하는 단계; 및 미리 저장된 상기 특정 엔티티를 구조적으로 식별하기 위한 패턴 규칙을 이용하여, 상기 식별된 의미 그룹으로부터 상기 특정 엔티티와 동일한 속성을 갖는 적어도 하나의 정보를 추출하는 단계를 포함하는 블록 그룹핑을 이용한 정보 추출 방법
14 14
제 12 항 또는 제 13 항에 있어서, 상기 텍스트 정보량은, 텍스트 토큰 개수에 의해 산출되고, 상기 이미지 정보량은, 이미지의 면적에 의해 산출되는 것을 특징으로 하는 블록 그룹핑을 이용한 정보 추출 방법
15 15
학습 문서와 대상 문서를 입력받는 입력부; 상기 학습 문서를 이용하여 특정 속성을 갖는 특정 엔티티를 구조적으로 식별하기 위한 패턴 규칙을 생성하는 규칙 학습부; 상기 생성된 패턴 규칙을 저장하는 메모리; 및 상기 패턴 규칙을 이용하여 상기 대상 문서로부터 상기 특정 엔티티와 관련된 정보를 추출하는 정보 추출부를 포함하고, 상기 정보 추출부는, 상기 대상 문서를 복수 개의 블록들로 분할하는 블록 분할부; 구조적으로 유사한 블록들끼리 동일한 그룹에 속하도록 상기 분할된 복수 개의 블록들을 복수 개의 그룹들로 그룹핑하는 그룹핑부; 상기 복수 개의 그룹들 중 가장 많은 정보량을 갖는 의미 그룹을 식별하는 의미그룹 식별부; 및 상기 생성된 패턴 규칙을 이용하여 상기 식별된 의미 그룹으로부터 상기 특정 엔티티와 관련된 정보를 하나 이상 추출하는 규칙 적용부를 포함하는 블록 그룹핑을 이용한 정보 추출 장치
16 16
제 15 항에 있어서, 상기 규칙 학습부는, 상기 학습 문서로부터 상기 특정 엔티티를 선택하는 엔티티 선택부; 상기 학습 문서에서 상기 특정 엔티티를 포함하는 블록을 식별하는 블록 식별부; 및 상기 식별된 블록에서 구조적 및 시각적으로 의미없는 태그와 속성들을 제거하고, 상기 태그 및 속성들이 제거된 상기 블록을 태그 시퀀스로 인코딩하고, 상기 인코딩된 태그 시퀀스를 이용하여 상기 패턴 규칙을 생성하는 규칙 생성부를 포함하는 블록 그룹핑을 이용한 정보 추출 장치
17 17
제 16 항에 있어서, 상기 블록 식별부는, 시각적 웹 문서 분할(VIPS: Vision-based Page Segmentation) 알고리즘을 이용하여 상기 특정 엔티티를 포함하는 블록을 식별하는 것을 특징으로 하는 블록 그룹핑을 이용한 정보 추출 장치
18 18
제 15 항에 있어서, 상기 블록 분할부는, 시각적 웹 문서 분할(VIPS: Vision-based Page Segmentation) 알고리즘을 이용하여 상기 대상 문서를 상기 복수 개의 블록들로 분할하는 것을 특징으로 하는 블록 그룹핑을 이용한 정보 추출 장치
19 19
제 15 항에 있어서, 상기 그룹핑부는, 토큰을 기반으로 하는 트리 편집 거리 알고리즘을 이용하여 상기 분할된 복수 개의 블록들을 상기 복수 개의 그룹들로 그룹핑하는 것을 특징으로 하는 블록 그룹핑을 이용한 정보 추출 장치
20 20
제 19 항에 있어서, 상기 의미그룹 식별부는, 텍스트 정보량 및 이미지 정보량 중 적어도 하나의 정보량을 고려하여 가장 많은 정보량을 갖는 그룹을 상기 의미 그룹으로 식별하는 것을 특징으로 하는 블록 그룹핑을 이용한 정보 추출 장치
21 21
제 20 항에 있어서, 상기 텍스트 정보량은, 텍스트 토큰 개수에 의해 산출되고, 상기 이미지 정보량은, 이미지의 면적에 의해 산출되는 것을 특징으로 하는 블록 그룹핑을 이용한 정보 추출 장치
22 22
제 15 항에 있어서, 상기 규칙 적용부는, 상기 특정 엔티티와 동일한 속성을 갖는 정보를 추출하는 것을 특징으로 하는 블록 그룹핑을 이용한 정보 추출 장치
23 23
제 22 항에 있어서, 상기 규칙 적용부는, 상기 의미 그룹에 포함된 모든 블록들에서 구조적 및 시각적으로 의미없는 태그와 속성들을 제거하고, 상기 태그 및 속성들이 제거된 상기 블록들을 태그 시퀀스로(Tag Sequence)로 인코딩하고, 상기 인코딩된 태그 시퀀스에 대해 상기 패턴 규칙을 적용하여 상기 특정 엔티티와 동일한 속성을 갖는 정보를 추출하는 것을 특징으로 하는 블록 그룹핑을 이용한 정보 추출 장치
24 24
제 15 항에 있어서, 상기 학습 문서 및 상기 대상 문서는, 웹(web) 문서인 것을 특징으로 하는 블록 그룹핑을 이용한 정보 추출 장치
25 25
웹 문서와 특정 속성을 갖는 특정 엔티티를 입력받는 입력부; 상기 특정 엔티티를 구조적으로 식별하기 위한 패턴 규칙을 저장하는 메모리; 및 상기 패턴 규칙을 이용하여 상기 웹 문서로부터 상기 특정 엔티티와 관련된 정보를 추출하는 정보 추출부를 포함하고, 상기 정보 추출부는, 시각적 웹 문서 분할(VIPS: Vision-based Page Segmentation) 알고리즘을 이용하여 상기 웹 문서를 복수 개의 블록들로 분할하는 블록 분할부; 토큰을 기반으로 하는 트리 편집 거리 알고리즘을 이용하여, 구조적으로 유사한 블록들끼리 동일한 그룹에 속하도록 상기 분할된 복수 개의 블록들을 복수 개의 그룹들로 그룹핑하는 그룹핑부; 텍스트 정보량과 이미지 정보량 중 적어도 하나를 고려하여, 상기 복수 개의 그룹들 중 가장 많은 정보량을 갖는 의미 그룹을 식별하는 의미그룹 식별부; 및 상기 패턴 규칙을 이용하여 상기 식별된 의미 그룹으로부터 상기 특정 엔티티와 동일한 속성을 갖는 정보를 하나 이상 추출하는 규칙 적용부를 포함하는 블록 그룹핑을 이용한 정보 추출 장치
26 26
제 24 항에 있어서, 상기 텍스트 정보량은, 텍스트 토큰 개수에 의해 산출되고, 상기 이미지 정보량은, 이미지의 면적에 의해 산출되는 것을 특징으로 하는 블록 그룹핑을 이용한 정보 추출 장치
지정국 정보가 없습니다
패밀리정보가 없습니다
국가 R&D 정보가 없습니다.