기술이전플랫폼 Tech-Bridge-이전대상기술

맞춤기술찾기

홈으로 가기

맞춤기술찾기

이전대상기술

프린트하기

이전대상기술

웹 문서 구조정보 추출 방법 및 시스템

기술번호 : KST2015083592
담당센터 : 대전기술혁신센터
전화번호 : 042-610-2279

상담신청 PDF 받기

상세정보
공개전문
공고전문
등록사항
통합행정정보
기술정보
과제정보
관련기술
심판사항

서지정보
인명정보
행정처리
청구항
지정국
패밀리정보
국가R&D 연구정보

이전 슬라이드 보기 다음 슬라이드 보기

요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약	본 발명은 HTML(Hyper Text Mark-up Language) 웹 문서의 특징인 구조화된 문서로부터 정보를 추출하는 방법에 관한 것으로, 영역 적응성을 높이기 위한 구조정보 반자동 추출 기술에 관한 것이다. 본 발명은 사용자 간섭을 최소화하기 위해 기계학습을 기반으로 하고 있으며, 영역 내 사이트간의 적응성을 높이기 위해 학습모델을 영역과 사이트 별로 나누어 학습하는 2단계의 자질학습 방법을 포함한다. 본 발명에 의하면, 웹 사이트의 일부 소량의 데이터만 수작업으로 태깅(tagging)하여 학습하더라도 해당 웹 사이트의 속성들을 자동으로 대량 추출이 가능하며, 2단계의 학습모델을 사용함으로 인해, 한 사이트에서 학습한 정보를 같은 영역의 타 사이트에도 적용이 될 수 있기 때문에 사이트가 바뀔 때마다 매번 새로운 추출패턴 등의 리소스(resource)를 구축해야하는 부담을 덜어줌으로써 동 영역내 사이트 간의 적응성을 높이는 장점이 있다. 구조정보, 랩퍼(Wrapper), XHTML(eXtensible Hyper Text Mark-up Language), DOM(Document Object Model)
Int. CL	G06F 17/21 (2006.01)
CPC	G06F 17/2247(2013.01) G06F 17/2247(2013.01) G06F 17/2247(2013.01) G06F 17/2247(2013.01)
출원번호/일자	1020070128556 (2007.12.11)
출원인	한국전자통신연구원
등록번호/일자	10-0911620-0000 (2009.08.04)
공개번호/일자	10-2009-0061525 (2009.06.16) 문서열기
공고번호/일자	(20090812) 문서열기
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태	등록
심사진행상태	수리
심판사항
구분	신규
원출원번호/일자
관련 출원번호
심사청구여부/일자	Y (2007.12.11)
심사청구항수	7

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호	이름	국적	주소
1	한국전자통신연구원	대한민국	대전광역시 유성구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호	이름	국적	주소
1	왕지현	대한민국	대전 유성구
2	이창기	대한민국	대전 유성구
3	최미란	대한민국	대전 유성구
4	장명길	대한민국	대전 유성구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호	이름	국적	주소
1	장성구	대한민국	서울특별시 서초구 마방로 ** (양재동, 동원F&B빌딩)(제일특허법인(유))
2	김원준	대한민국	서울특별시 서초구 마방로 ** (양재동, 동원F&B빌딩)(제일특허법인(유))

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호	이름	국적	주소
1	주식회사 인포디어		서울특별시 서초구

번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호	서류명	접수/발송일자	처리상태	접수/발송번호
1	[특허출원]특허출원서 [Patent Application] Patent Application	2007.12.11	수리 (Accepted)	1-1-2007-0891084-12
2	선행기술조사의뢰서 Request for Prior Art Search	2008.07.08	수리 (Accepted)	9-1-9999-9999999-89
3	선행기술조사보고서 Report of Prior Art Search	2008.08.12	수리 (Accepted)	9-1-2008-0052694-40
4	의견제출통지서 Notification of reason for refusal	2009.01.31	발송처리완료 (Completion of Transmission)	9-5-2009-0045790-99
5	[거절이유 등 통지에 따른 의견]의견(답변, 소명)서 [Opinion according to the Notification of Reasons for Refusal] Written Opinion(Written Reply, Written Substantiation)	2009.03.26	수리 (Accepted)	1-1-2009-0183567-70
6	[명세서등 보정]보정서 [Amendment to Description, etc.] Amendment	2009.03.26	보정승인간주 (Regarded as an acceptance of amendment)	1-1-2009-0183565-89
7	등록결정서 Decision to grant	2009.07.31	발송처리완료 (Completion of Transmission)	9-5-2009-0320480-79
8	출원인정보변경(경정)신고서 Notification of change of applicant's information	2009.08.04	수리 (Accepted)	4-1-2009-5150899-36
9	출원인정보변경(경정)신고서 Notification of change of applicant's information	2015.02.02	수리 (Accepted)	4-1-2015-0006137-44

번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호	청구항
1	1 추출대상 웹 사이트로부터 수집된 웹 문서에 대해 수작업으로 속성을 태깅한 문서를 기계학습 방식으로 학습하여 학습모델을 생성하는 속성학습 처리 장치와, 상기 속성학습 처리 장치에서 생성된 학습모델을 사용하여 상기 웹 사이트로부터 수집된 원시 웹 문서에서 속성을 추출하는 속성추출 처리 장치와, 상기 속성학습 처리 장치에서 생성된 학습모델 중 경계인식 학습모델을 데이터베이스화하여 상기 속성추출 처리 장치로 제공하는 경계인식 학습 모델 데이터베이스와, 상기 속성학습 처리 장치에서 생성된 학습모델 중 속성인식 학습모델을 데이터베이스화하여 상기 속성추출 처리 장치로 제공하는 속성인식 학습 모델 데이터베이스 를 포함하는 웹 문서 구조정보 추출 시스템
2	2 제 1 항에 있어서, 상기 속성학습 처리 장치는, HTML 웹 문서를 파싱하여 불필요한 부분을 제거하여 필터링을 수행하는 전 처리부와, 상기 전 처리부에서 필터링된 HTML 웹 문서를 웰-폼(well-formed) HTML로 변환하는 XHTML 변환부와, 상기 XHTML 변환부에서 변환된 XHTML을 DOM(Document Object Model) 트리로 변환하는 DOM 트리 생성부와, 상기 DOM 트리로부터 특징자질(Feature)들을 추출하여 추출하고자 하는 속성의 경계(Boundary)에 대한 경계자질을 추출하는 경계자질 추출부와, 상기 경계자질 추출부에서 추출된 경계자질들을 학습하여 경계인식 학습모델을 생성하는 경계 학습부와, 상기 경계 학습부를 통해 생성된 경계인식 학습모델의 경계의 시작부터 끝까지를 하나의 토큰으로 하여 각 토큰에 대한 속성의 종류를 판별하기 위해 DOM 트리로부터 특징자질들을 추출하는 속성자질 추출부와, 상기 각 토큰에 대한 속성을 학습하여 속성인식 학습모델을 생성하는 속성 학습부 를 포함하는 웹 문서 구조정보 추출 시스템
3	3 제 1 항에 있어서, 상기 속성추출 처리 장치는, HTML 웹 문서를 파싱하여 불필요한 부분을 제거하여 필터링을 수행하는 전 처리부와, 상기 전 처리부에서 필터링된 HTML 웹 문서를 웰-폼 HTML로 변환하는 XHTML 변환부와, 상기 XHTML 변환부에서 변환된 XHTML을 DOM 트리로 변환하는 DOM 트리 생성부와, 상기 DOM 트리로부터 특징자질들을 추출하여 추출하고자 하는 속성의 경계에 대한 경계자질을 추출하는 경계자질 추출부와, 상기 경계자질 추출부에서 추출된 경계자질들로부터 상기 경계인식 학습모델을 이용하여 경계를 인식하는 경계 인식부와, 상기 경계 인식부에서 인식된 경계의 시작부터 끝까지를 하나의 토큰으로 하여 각 토큰에 대한 속성의 종류를 판별하기 위해 DOM 트리로부터 특징자질들을 추출하는 속성자질 추출부와, 상기 경계 인식부로부터 인식된 각 토큰들에 대해 상기 속성인식 학습모델을 이용하여 후보속성을 인식하는 속성 인식부와, 상기 속성 인식부에서 인식되는 후보속성들 중에서 최대 확률을 갖는 속성을 최종 속성으로 결정하는 속성 태깅부 를 포함하는 웹 문서 구조정보 추출 시스템
4	4 HTML 웹 문서로부터 구조정보를 추출하는 방법으로서, (a) 상기 HTML 웹 문서를 파싱하여 불필요한 부분을 제거하여 필터링을 수행하는 과정과, (b) 상기 필터링된 HTML 웹 문서를 XHTML 문서로 변환하는 과정과, (c) 상기 변환된 XHTML 문서로부터 DOM 트리를 생성하는 과정과, (d) 상기 생성된 DOM 트리로부터 속성경계를 인식하기 위해 속성 경계자질을 추출하는 과정과, (e) 상기 추출된 속성 경계자질을 이용하여 기계학습을 수행하는 과정과, (f) 상기 생성된 DOM 트리로부터 속성의 종류를 인식하기 위해 속성 인식자질을 추출하는 과정과, (g) 상기 추출된 속성 인식자질을 이용하여 기계학습을 수행하는 과정과, (h) 상기 추출된 속성 경계자질을 이용하여 속성의 경계를 기계학습에 의해 추정하여 속성의 경계를 인식하는 과정과, (i) 상기 추출된 속성 인식자질을 이용하여 속성의 종류를 기계학습에 의해 추정하여 속성을 인식하는 과정과, (j) 상기 인식된 후보속성들 중 최대 확률을 갖는 속성을 최종 속성으로 결정하는 과정 을 포함하는 웹 문서 구조정보 추출 방법
5	5 제 4 항에 있어서, 상기 (e) 과정 및 (h) 과정 수행에 대해, 사이트 의존적인 정보인 속성의 경계정보를 웹 사이트 별로 학습하는 것을 특징으로 하는 웹 문서 구조정보 추출 방법
6	6 제 4 항에 있어서, 상기 (g) 과정 및 (i) 과정 수행에 대해, 사이트 독립적인 정보인 속성 종류의 판별을 위해 웹 사이트가 아닌 영역별로 학습하는 것을 특징으로 하는 웹 문서 구조정보 추출 방법
7	7 제 4 항에 있어서, 상기 (h) 과정 수행에 의해, 테이블의 한 셀 내에서 적어도 두 개 이상의 속성의 추출이 가능한 것을 특징으로 하는 웹 문서 구조정보 추출 방법

본 등록정보는 참고용으로 법적증빙자료로 사용할 수 없습니다.
데이터 이관에 따른 소요기간(1일)으로 인하여 등록원부와 일부 차이가 발생할 수 있으며, 일부 정보(부기, 상세 주소 등)를 제공하지 않고 있습니다.
법적증빙자료로 활용하시거나 더 자세한 정보를 보시려면 등록원부를 발급받아 사용하시기 바랍니다.

이전대상기술 뷰 페이지 등록사항 > 특허 등록번호 표입니다.
특허 등록번호	10-0911620-0000

권리란

표시번호, 사항의 정보를 제공하는 이전대상기술 뷰 페이지 등록사항 > 권리란 표입니다.
표시번호	사항
1	출원 연월일 : 20071211 출원 번호 : 1020070128556 공고 연월일 : 20090812 공고 번호 : 특허결정(심결)연월일 : 20090731 청구범위의 항수 : 2 유별 : G06F 17/21 발명의 명칭 : 웹 문서 구조정보 추출 방법 및 시스템 존속기간(예정)만료일 :

특허권자란

순위번호, 사항의 정보를 제공하는 이전대상기술 뷰 페이지 등록사항 > 특허권자란 표입니다.
순위번호	사항
1	(권리자) 한국전자통신연구원 대전광역시 유성구...
2	(의무자) 한국전자통신연구원 대전광역시 유성구...
2	(권리자) 주식회사 인포디어 서울특별시 서초구...

등록료란

순위번호, 사항의 정보를 제공하는 이전대상기술 뷰 페이지 등록사항 > 등록료란 표입니다.
제 1 - 3 년분	금 액	159,000 원	2009년 08월 05일	납입
제 4 년분	금 액	291,000 원	2012년 12월 14일	납입
제 5 년분	금 액	194,000 원	2013년 08월 05일	납입
제 6 년분	금 액	135,800 원	2014년 08월 04일	납입
제 7 년분	금 액	438,600 원	2016년 02월 11일	납입
제 8 년분	금 액	246,400 원	2017년 05월 02일	납입
제 9 년분	금 액	123,200 원	2017년 08월 04일	납입
제 10 년분	금 액	175,000 원	2018년 08월 03일	납입
제 11 년분	금 액	206,500 원	2020년 02월 03일	납입
제 12 년분	금 액	175,000 원	2020년 08월 04일	납입

본 '원본보기 서비스'는 참고용이므로, 일부 오류 및 누락이 발생할 수 있습니다.
정확한 서류를 확인하시려면 해당 웹사이트에서 조회하시기 바랍니다. (특허로 바로가기: http://www.patent.go.kr)
해당 서비스는 점검으로 인해 매주 일요일 00:00 ~ 02:00까지 이용이 중단됩니다.

번호, 서류명, 접수/발송일자, 처리상태, 접수/발송번호의 정보를 제공하는 이전대상기술 뷰 페이지 통합행정정보 > 등록료란 표입니다.
번호	서류명	접수/발송일자	처리상태	접수/발송번호
1	[특허출원]특허출원서	2007.12.11	수리 (Accepted)	1-1-2007-0891084-12
2	선행기술조사의뢰서	2008.07.08	수리 (Accepted)	9-1-9999-9999999-89
3	선행기술조사보고서	2008.08.12	수리 (Accepted)	9-1-2008-0052694-40
4	의견제출통지서	2009.01.31	발송처리완료 (Completion of Transmission)	9-5-2009-0045790-99
5	[거절이유 등 통지에 따른 의견]의견(답변, 소명)서	2009.03.26	수리 (Accepted)	1-1-2009-0183567-70
6	[명세서등 보정]보정서	2009.03.26	보정승인간주 (Regarded as an acceptance of amendment)	1-1-2009-0183565-89
7	등록결정서	2009.07.31	발송처리완료 (Completion of Transmission)	9-5-2009-0320480-79
8	출원인정보변경(경정)신고서	2009.08.04	수리 (Accepted)	4-1-2009-5150899-36
9	출원인정보변경(경정)신고서	2015.02.02	수리 (Accepted)	4-1-2015-0006137-44

중요키워드

이전대상기술 뷰 페이지 관련기술 표
[KST2014045090][한국전자통신연구원]	디바이스 액세스 서비스 방법, 이를 위한 클라이언트 단말 및 서버	새창보기
[KST2015089452][한국전자통신연구원]	전자문서 처리 장치 및 방법	새창보기
[KST2015077242][한국전자통신연구원]	월드 와이드 웹과 문서 병합 기능을 이용한 문서 이용 방법	새창보기
[KST2015084239][한국전자통신연구원]	로더블 디바이스 컴포넌트 구동 방법 및 장치	새창보기
[KST2016010952][한국전자통신연구원]	지식 평가 장치, 방법 및 시스템(Apparatus, Method and System for Evaluation of Knowledge)	새창보기
[KST2015096693][한국전자통신연구원]	확장성 생성 언어 변경 처리 시스템 및 그 방법	새창보기
[KST2015081078][한국전자통신연구원]	패스트 인포셋을 이용한 이진 엑스엠엘 저장 방법 및 복원방법	새창보기
[KST2015080637][한국전자통신연구원]	자연어를 온톨로지 기반 지식으로 변환하는 방법 및 장치	새창보기
[KST2015079498][한국전자통신연구원]	보이스엑스엠엘 문서를 엑스에이치티엠엘플러스보이스문서로 변환하기 위한 방법 및 이를 이용한 멀티모달서비스 시스템	새창보기
[KST2015081125][한국전자통신연구원]	학습 데이터 구축 장치 및 방법	새창보기
[KST2015087898][한국전자통신연구원]	파일 생성 및 소비 방법 및 그 장치	새창보기
[KST2015087751][한국전자통신연구원]	병렬 말뭉치 추출 시스템 및 방법	새창보기
[KST2015096941][한국전자통신연구원]	기지국 시스템, ＸＭＬＤＴＤ 구조의 ＤＣＤ 파일이저장된 기록매체 및 ＤＣＤ 파일의 파싱방법	새창보기
[KST2015091086][한국전자통신연구원]	스마트 디바이스의 포렌식 문서 필터 장치 및 방법	새창보기
[KST2015077673][한국전자통신연구원]	언어별 웹 화면 제공 방법	새창보기
[KST2014036016][한국전자통신연구원]	한국어 어휘 사전 DB	새창보기
[KST2015090570][한국전자통신연구원]	ＸＭＬ 문서 저작 방법 및 이를 수행하는 장치	새창보기
[KST2015074961][한국전자통신연구원]	부가 보드를 이용한 통합형 일련 번호 생성 장치및그방법	새창보기
[KST2015091054][한국전자통신연구원]	텍스트 기반 감성 분석 결과를 제공하기 위한 장치, 시스템 및 그 방법	새창보기
[KST2015093740][한국전자통신연구원]	전자문서 기반 지식 구축 방법 및 장치	새창보기
[KST2015076932][한국전자통신연구원]	한국어개념분류체계구축방법과,수정방법및구축장치	새창보기
[KST2015075288][한국전자통신연구원]	오엠티 기법을 이용한 설계 정보 편집 방법	새창보기
[KST2015086272][한국전자통신연구원]	중간 언어를 이용한 병렬 코퍼스 구축 방법	새창보기
[KST2015076594][한국전자통신연구원]	에스.지.엠.엘.과 디.에스.에스.에스.엘.을 기반으로하는 복합문서 브라우저	새창보기
[KST2015079685][한국전자통신연구원]	ＸＭＬ 파서 생성기 및 방법	새창보기
[KST2015075289][한국전자통신연구원]	한국어 대화체 문장의 의미파싱과 생성을 위한의미틀을이용한의미추출장치및방법	새창보기
[KST2015077527][한국전자통신연구원]	문서 공동 편집 장치 및 그 방법	새창보기
[KST2015083833][한국전자통신연구원]	통합 ＸＱｕｅｒｙ 질의 처리 방법	새창보기
[KST2015079425][한국전자통신연구원]	지유아이 환경을 기반으로 하는 실시간 기사 수집 시스템및 온라인 언어 모델 구축 서비스 방법	새창보기
[KST2015085677][한국전자통신연구원]	약어사전 구축 시스템 및 이를 이용한 약어사전 구축 방법	새창보기

의뢰할 수요기술을 선택합니다

담당자명, 주소, 이메일, 연락처, 내용, 파일선택의 정보를 제공하는 도입희망기술 뷰 페이지 의뢰하기 입력표입니다.
담당자명		활동구분※필수입력항목
이메일		연락처	- -
내용
파일선택	파일선택

기술이전 상담신청 드립니다.
기업명
신청자 성명		직책
연락처	- -
이메일	@
상담희망전담센터	※ 사업장(본점) 소재지가 속한 지역의 기술혁신센터를 지정해주세요.