맞춤기술찾기

이전대상기술

웹 문서 구조정보 추출 방법 및 시스템

  • 기술번호 : KST2015083592
  • 담당센터 : 대전기술혁신센터
  • 전화번호 : 042-610-2279
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 본 발명은 HTML(Hyper Text Mark-up Language) 웹 문서의 특징인 구조화된 문서로부터 정보를 추출하는 방법에 관한 것으로, 영역 적응성을 높이기 위한 구조정보 반자동 추출 기술에 관한 것이다. 본 발명은 사용자 간섭을 최소화하기 위해 기계학습을 기반으로 하고 있으며, 영역 내 사이트간의 적응성을 높이기 위해 학습모델을 영역과 사이트 별로 나누어 학습하는 2단계의 자질학습 방법을 포함한다. 본 발명에 의하면, 웹 사이트의 일부 소량의 데이터만 수작업으로 태깅(tagging)하여 학습하더라도 해당 웹 사이트의 속성들을 자동으로 대량 추출이 가능하며, 2단계의 학습모델을 사용함으로 인해, 한 사이트에서 학습한 정보를 같은 영역의 타 사이트에도 적용이 될 수 있기 때문에 사이트가 바뀔 때마다 매번 새로운 추출패턴 등의 리소스(resource)를 구축해야하는 부담을 덜어줌으로써 동 영역내 사이트 간의 적응성을 높이는 장점이 있다. 구조정보, 랩퍼(Wrapper), XHTML(eXtensible Hyper Text Mark-up Language), DOM(Document Object Model)
Int. CL G06F 17/21 (2006.01)
CPC G06F 17/2247(2013.01) G06F 17/2247(2013.01) G06F 17/2247(2013.01) G06F 17/2247(2013.01)
출원번호/일자 1020070128556 (2007.12.11)
출원인 한국전자통신연구원
등록번호/일자 10-0911620-0000 (2009.08.04)
공개번호/일자 10-2009-0061525 (2009.06.16) 문서열기
공고번호/일자 (20090812) 문서열기
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 등록
심사진행상태 수리
심판사항
구분 신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2007.12.11)
심사청구항수 7

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 한국전자통신연구원 대한민국 대전광역시 유성구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 왕지현 대한민국 대전 유성구
2 이창기 대한민국 대전 유성구
3 최미란 대한민국 대전 유성구
4 장명길 대한민국 대전 유성구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 장성구 대한민국 서울특별시 서초구 마방로 ** (양재동, 동원F&B빌딩)(제일특허법인(유))
2 김원준 대한민국 서울특별시 서초구 마방로 ** (양재동, 동원F&B빌딩)(제일특허법인(유))

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
1 주식회사 인포디어 서울특별시 서초구
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2007.12.11 수리 (Accepted) 1-1-2007-0891084-12
2 선행기술조사의뢰서
Request for Prior Art Search
2008.07.08 수리 (Accepted) 9-1-9999-9999999-89
3 선행기술조사보고서
Report of Prior Art Search
2008.08.12 수리 (Accepted) 9-1-2008-0052694-40
4 의견제출통지서
Notification of reason for refusal
2009.01.31 발송처리완료 (Completion of Transmission) 9-5-2009-0045790-99
5 [거절이유 등 통지에 따른 의견]의견(답변, 소명)서
[Opinion according to the Notification of Reasons for Refusal] Written Opinion(Written Reply, Written Substantiation)
2009.03.26 수리 (Accepted) 1-1-2009-0183567-70
6 [명세서등 보정]보정서
[Amendment to Description, etc.] Amendment
2009.03.26 보정승인간주 (Regarded as an acceptance of amendment) 1-1-2009-0183565-89
7 등록결정서
Decision to grant
2009.07.31 발송처리완료 (Completion of Transmission) 9-5-2009-0320480-79
8 출원인정보변경(경정)신고서
Notification of change of applicant's information
2009.08.04 수리 (Accepted) 4-1-2009-5150899-36
9 출원인정보변경(경정)신고서
Notification of change of applicant's information
2015.02.02 수리 (Accepted) 4-1-2015-0006137-44
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
추출대상 웹 사이트로부터 수집된 웹 문서에 대해 수작업으로 속성을 태깅한 문서를 기계학습 방식으로 학습하여 학습모델을 생성하는 속성학습 처리 장치와, 상기 속성학습 처리 장치에서 생성된 학습모델을 사용하여 상기 웹 사이트로부터 수집된 원시 웹 문서에서 속성을 추출하는 속성추출 처리 장치와, 상기 속성학습 처리 장치에서 생성된 학습모델 중 경계인식 학습모델을 데이터베이스화하여 상기 속성추출 처리 장치로 제공하는 경계인식 학습 모델 데이터베이스와, 상기 속성학습 처리 장치에서 생성된 학습모델 중 속성인식 학습모델을 데이터베이스화하여 상기 속성추출 처리 장치로 제공하는 속성인식 학습 모델 데이터베이스 를 포함하는 웹 문서 구조정보 추출 시스템
2 2
제 1 항에 있어서, 상기 속성학습 처리 장치는, HTML 웹 문서를 파싱하여 불필요한 부분을 제거하여 필터링을 수행하는 전 처리부와, 상기 전 처리부에서 필터링된 HTML 웹 문서를 웰-폼(well-formed) HTML로 변환하는 XHTML 변환부와, 상기 XHTML 변환부에서 변환된 XHTML을 DOM(Document Object Model) 트리로 변환하는 DOM 트리 생성부와, 상기 DOM 트리로부터 특징자질(Feature)들을 추출하여 추출하고자 하는 속성의 경계(Boundary)에 대한 경계자질을 추출하는 경계자질 추출부와, 상기 경계자질 추출부에서 추출된 경계자질들을 학습하여 경계인식 학습모델을 생성하는 경계 학습부와, 상기 경계 학습부를 통해 생성된 경계인식 학습모델의 경계의 시작부터 끝까지를 하나의 토큰으로 하여 각 토큰에 대한 속성의 종류를 판별하기 위해 DOM 트리로부터 특징자질들을 추출하는 속성자질 추출부와, 상기 각 토큰에 대한 속성을 학습하여 속성인식 학습모델을 생성하는 속성 학습부 를 포함하는 웹 문서 구조정보 추출 시스템
3 3
제 1 항에 있어서, 상기 속성추출 처리 장치는, HTML 웹 문서를 파싱하여 불필요한 부분을 제거하여 필터링을 수행하는 전 처리부와, 상기 전 처리부에서 필터링된 HTML 웹 문서를 웰-폼 HTML로 변환하는 XHTML 변환부와, 상기 XHTML 변환부에서 변환된 XHTML을 DOM 트리로 변환하는 DOM 트리 생성부와, 상기 DOM 트리로부터 특징자질들을 추출하여 추출하고자 하는 속성의 경계에 대한 경계자질을 추출하는 경계자질 추출부와, 상기 경계자질 추출부에서 추출된 경계자질들로부터 상기 경계인식 학습모델을 이용하여 경계를 인식하는 경계 인식부와, 상기 경계 인식부에서 인식된 경계의 시작부터 끝까지를 하나의 토큰으로 하여 각 토큰에 대한 속성의 종류를 판별하기 위해 DOM 트리로부터 특징자질들을 추출하는 속성자질 추출부와, 상기 경계 인식부로부터 인식된 각 토큰들에 대해 상기 속성인식 학습모델을 이용하여 후보속성을 인식하는 속성 인식부와, 상기 속성 인식부에서 인식되는 후보속성들 중에서 최대 확률을 갖는 속성을 최종 속성으로 결정하는 속성 태깅부 를 포함하는 웹 문서 구조정보 추출 시스템
4 4
HTML 웹 문서로부터 구조정보를 추출하는 방법으로서, (a) 상기 HTML 웹 문서를 파싱하여 불필요한 부분을 제거하여 필터링을 수행하는 과정과, (b) 상기 필터링된 HTML 웹 문서를 XHTML 문서로 변환하는 과정과, (c) 상기 변환된 XHTML 문서로부터 DOM 트리를 생성하는 과정과, (d) 상기 생성된 DOM 트리로부터 속성경계를 인식하기 위해 속성 경계자질을 추출하는 과정과, (e) 상기 추출된 속성 경계자질을 이용하여 기계학습을 수행하는 과정과, (f) 상기 생성된 DOM 트리로부터 속성의 종류를 인식하기 위해 속성 인식자질을 추출하는 과정과, (g) 상기 추출된 속성 인식자질을 이용하여 기계학습을 수행하는 과정과, (h) 상기 추출된 속성 경계자질을 이용하여 속성의 경계를 기계학습에 의해 추정하여 속성의 경계를 인식하는 과정과, (i) 상기 추출된 속성 인식자질을 이용하여 속성의 종류를 기계학습에 의해 추정하여 속성을 인식하는 과정과, (j) 상기 인식된 후보속성들 중 최대 확률을 갖는 속성을 최종 속성으로 결정하는 과정 을 포함하는 웹 문서 구조정보 추출 방법
5 5
제 4 항에 있어서, 상기 (e) 과정 및 (h) 과정 수행에 대해, 사이트 의존적인 정보인 속성의 경계정보를 웹 사이트 별로 학습하는 것을 특징으로 하는 웹 문서 구조정보 추출 방법
6 6
제 4 항에 있어서, 상기 (g) 과정 및 (i) 과정 수행에 대해, 사이트 독립적인 정보인 속성 종류의 판별을 위해 웹 사이트가 아닌 영역별로 학습하는 것을 특징으로 하는 웹 문서 구조정보 추출 방법
7 7
제 4 항에 있어서, 상기 (h) 과정 수행에 의해, 테이블의 한 셀 내에서 적어도 두 개 이상의 속성의 추출이 가능한 것을 특징으로 하는 웹 문서 구조정보 추출 방법
지정국 정보가 없습니다
패밀리정보가 없습니다
국가 R&D 정보가 없습니다.