맞춤기술찾기

이전대상기술

부분 매칭을 이용한 웹 페이지의 데이터 추출 방법 및 그 기록매체

  • 기술번호 : KST2014026274
  • 담당센터 :
  • 전화번호 :
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 본 발명은 부분 매칭을 이용한 웹 페이지의 데이터 추출 방법 및 그 기록매체에 관한 것으로, 웹 페이지의 HTML 트리에서 루트로부터 추출 데이터까지의 경로가 절대 경로에 대하여 부분매치(match)되는 다수의 선형 부분매치 질의(Linear Partial Match Query)를 산출하는 제 1 산출단계와; 상기 산출된 각 선형 부분매치 질의에 대하여 해당 매치의 정렬된 원소가 다른 매치의 정렬된 원소보다 크거나 같은 최소 매치를 산출하는 제 2 산출단계와; 상기 최소 매치를 갖는 다수의 선형 부분매치 질의 중에서 해당 최소 매치의 정렬된 원소가 다른 최소 매치의 정렬된 원소보다 크거나 같은 부분매치 질의를 견고한 선형 부분매치 질의로 판단하는 판단 단계와; 상기 판단 결과에 따른 선형 부분매치 질의에 의해 해당 웹 페이지의 데이터를 추출하는 추출 단계;를 포함하는 것을 특징으로 한다. 상기와 같은 구성에 의해 본 발명은 자바 패키지 또는 jar파일 형태로 제공되어 언어에 관계없이 웹의 변화에도 견고하게 데이터를 추출할 수 있는 효과가 있다. 부분 매칭, 선형, 가지형, 매쉬업, 데이터추출
Int. CL G06F 17/40 (2006.01) G06F 17/00 (2006.01) G06F 17/30 (2006.01)
CPC G06F 17/30926(2013.01) G06F 17/30926(2013.01) G06F 17/30926(2013.01)
출원번호/일자 1020090023750 (2009.03.20)
출원인 경북대학교 산학협력단
등록번호/일자 10-1045481-0000 (2011.06.23)
공개번호/일자 10-2010-0104982 (2010.09.29) 문서열기
공고번호/일자 (20110630) 문서열기
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 등록
심사진행상태 수리
심판사항 심판사항
구분 신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2009.03.20)
심사청구항수 11

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 경북대학교 산학협력단 대한민국 대구광역시 북구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 한욱신 대한민국 대구광역시 달서구
2 양진옥 대한민국 대전광역시 유성구
3 박세영 대한민국 대구광역시 북구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 특허법인리온 대한민국 서울특별시 서초구 사평대로 ***, *층(반포동)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
1 기술자숲 주식회사 경상남도 창원시 마산회원구
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2009.03.20 수리 (Accepted) 1-1-2009-0168242-40
2 [출원서등 보정]보정서
[Amendment to Patent Application, etc.] Amendment
2009.03.26 수리 (Accepted) 1-1-2009-0181679-38
3 [출원서등 보정]보정서
[Amendment to Patent Application, etc.] Amendment
2009.09.10 수리 (Accepted) 1-1-2009-0558616-15
4 [대리인선임]대리인(대표자)에 관한 신고서
[Appointment of Agent] Report on Agent (Representative)
2009.11.05 수리 (Accepted) 1-1-2009-0680209-19
5 선행기술조사의뢰서
Request for Prior Art Search
2010.03.04 수리 (Accepted) 9-1-9999-9999999-89
6 [출원서등 보정]보정서
[Amendment to Patent Application, etc.] Amendment
2010.04.12 수리 (Accepted) 1-1-2010-0231078-39
7 선행기술조사보고서
Report of Prior Art Search
2010.04.13 수리 (Accepted) 9-1-2010-0020815-43
8 의견제출통지서
Notification of reason for refusal
2010.12.28 발송처리완료 (Completion of Transmission) 9-5-2010-0598739-19
9 거절결정서
Decision to Refuse a Patent
2011.03.21 발송처리완료 (Completion of Transmission) 9-5-2011-0155080-41
10 명세서 등 보정서(심사전치)
Amendment to Description, etc(Reexamination)
2011.04.20 보정승인 (Acceptance of amendment) 7-1-2011-0015192-55
11 등록결정서
Decision to grant
2011.05.31 발송처리완료 (Completion of Transmission) 9-5-2011-0293919-45
12 출원인정보변경(경정)신고서
Notification of change of applicant's information
2018.03.26 수리 (Accepted) 4-1-2018-5051994-32
13 출원인정보변경(경정)신고서
Notification of change of applicant's information
2020.06.23 수리 (Accepted) 4-1-2020-5136893-04
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
웹 페이지의 HTML 트리에서 루트로부터 추출 데이터까지의 경로가 절대 경로에 대하여 부분매치(match)되는 다수의 선형 부분매치 질의(Linear Partial Match Query)를 산출하는 제 1 산출단계와; 상기 산출된 각 선형 부분매치 질의에 대하여 해당 매치의 정렬된 원소가 다른 매치의 정렬된 원소보다 크거나 같은 최소 매치를 산출하는 제 2 산출단계와; 상기 최소 매치를 갖는 다수의 선형 부분매치 질의 중에서, 어느 하나의 선형 부분매치 질의의 최소 매치의 정렬된 원소가, 다른 선형 부분매치 질의의 최소 매치의 정렬된 원소보다 크거나 같은 경우, 해당 부분매치 질의를 견고한 선형 부분매치 질의로 판단하는 판단 단계와; 상기 판단 결과에 따른 선형 부분매치 질의에 의해 해당 웹 페이지의 데이터를 추출하는 추출 단계;를 포함하는 부분 매칭을 이용한 웹 페이지의 데이터 추출 방법
2 2
제 1 항에 있어서, 상기 루트로부터 추출 데이터까지의 경로는 하기의 식으로 정의된 선형 경로 질의이고, 여기서, l1은 트리의 루트, li는 경로의 i번째 노드의 인덱스(i=1,2…n), oj는(j=1,2…n) lj-1와 lj의 부모-자식 관계를 나타내는 '/' 및 조상-자손 관계를 나타내는 '//'중 하나로 표현되는 것을 특징으로 하는 부분 매칭을 이용한 웹 페이지의 데이터 추출 방법
3 3
제 2 항에 있어서, 상기 제 1 산출 단계에서, 상기 부분매치되는 다수의 선형 부분매치 질의 Q(//l'1//l'2/…//l'm)는 상기 절대 경로 P(/l1/l2/…/ln(m003c#n))에 대하여 l'i=lt(i)를 만족하고 여기서 t(i)는 정렬된 m개의 튜플인 것을 특징으로 하는 부분 매칭을 이용한 웹 페이지의 데이터 추출 방법
4 4
제 2 항에 있어서, 상기 제 2 산출 단계는 상기 각 선형 부분매치 질의 Q(//l'1//l'2/…//l'm)에 대한 최소 매치 M(i1,i2,…,im)는 모든 다른 매치에 대하여 M'와 M ≥L M'를 만족하고, 여기서, M ≥L M'는 모든 i에 대하여 M[i] ≥ M'[i] 인 것을 특징으로 하는 부분 매칭을 이용한 웹 페이지의 데이터 추출 방법
5 5
제 2 항에 있어서, 상기 판단 단계는 상기 어느 하나의 선형 부분매치 질의 Q1(//l'1//l'2/…//l'n)의 최소 매치 M1(i1,i2,…,in)가 상기 다른 선형 부분매치 질의 Q2(//l''1//l''2/…//l''m)의 최소 매치 M2(j1,j2,…,jm)에 대하여 ik ≥ jk를 만족하면 Q1을 견고한 선형 부분매치 질의로 판단하며, 여기서 k는 1≤k≤n 인 것을 특징으로 하는 부분 매칭을 이용한 웹 페이지의 데이터 추출 방법
6 6
웹 페이지의 HTML 트리에서 루트로부터 추출 데이터까지의 경로와 조건 데이터까지의 경로가 절대 경로에 대하여 부분매치되는 다수의 가지형 부분매치 질의(Twig Partial Match Query)를 산출하는 제 1 산출 단계와; 상기 산출된 각 가지형 부분매치 질의에 대하여 해당 매치의 정렬된 원소가 다른 매치의 정렬된 원소보다 크거나 같은 최소 매치를 산출하는 제 2 산출단계와; 상기 최소 매치를 갖는 다수의 가지형 부분매치 질의 중에서, 어느 하나의 가지형 부분매치 질의의 최소 매치의 정렬된 원소가, 다른 가지형 부분매치 질의 최소 매치의 정렬된 원소보다 크거나 같은 경우, 해당 부분매치 질의를 견고한 가지형 부분매치 질의로 판단하는 판단 단계와; 상기 판단 결과에 따른 가지형 부분매치 질의에 의해 해당 웹 페이지의 데이터를 추출하는 추출 단계;를 포함하는 부분 매칭을 이용한 웹 페이지의 데이터 추출 방법
7 7
제 6 항에 있어서, 상기 추출 데이터의 선형 경로 질의가 만족해야 하는 조건 데이터에 대한 술어(predicate)가 부가된 가지형 경로 질의는 하기의 식으로 표현하고, 여기서, l1은 트리의 루트, li는 경로의 i번째 노드의 인덱스(i=1,2…n), oj는(j=1,2…n) lj-1와 lj의 부모-자식 관계를 나타내는 '/' 및 조상-자손 관계를 나타내는 '//'중 하나로 표현되고, pi는 i번째 노드의 자식 노드 또는 자손 노드가 만족하는 술어, ?는 노드의 술어가 0개 또는 1개임을 의미하는 것을 특징으로 하는 부분 매칭을 이용한 웹 페이지의 데이터 추출 방법
8 8
제 7 항에 있어서, 상기 제 1 산출 단계에서, 상기 부분매치되는 다수의 가지형 부분매치 질의 Q(//l'1p'1?//l'2p'2?/…//l'np'n?)는 상기 절대 경로 P(/l1/l2/…/ln(m003c#n))에 대하여 l'i=lt(i)를 만족하고 여기서 t(i)는 정렬된 m개의 튜플인 것을 특징으로 하는 부분 매칭을 이용한 웹 페이지의 데이터 추출 방법
9 9
제 7 항에 있어서, 상기 제 2 산출 단계는 상기 각 가지형 부분매치 질의 Q(//l'1p'1?//l'2p'2?/…//l'np'n?)에 대한 최소 매치 M(i1,i2,…,im)는 모든 다른 매치에 대하여 M'와 M ≥L M'를 만족하고, 여기서, M ≥L M'는 모든 i에 대하여 M[i] ≥ M'[i]인 것을 특징으로 하는 부분 매칭을 이용한 웹 페이지의 데이터 추출 방법
10 10
제 7 항에 있어서, 상기 판단 단계는 상기 어느 하나의 가지형 부분매치 질의 Q1(//l'1p'1?//l'2p'2?/…//l'np'n?)의 최소 매치 M1(i1,i2,…,in)가 상기 다른 가지형 부분매치 질의 Q2(//l'1p'1?//l'2p'2?/…//l'mp'm?)의 최소 매치 M2(j1,j2,…,jm)에 대하여 ik ≥ jk를 만족하고, Q1의 술어의 최소 매치 PM1(k1,k2,…ka)가 Q2의 술어의 최소 매치 PM2(g1,g2,…gb)에 대하여 kf ≥ gf를 만족하면 Q1을 견고한 가지형 부분매치 질의로 판단하며, 여기서 k는 1≤k≤n, f는 1≤f≤a인 것을 특징으로 하는 부분 매칭을 이용한 웹 페이지의 데이터 추출 방법
11 11
제 1 항 내지 제 10 항중 어느 한 항의 부분 매칭을 이용한 웹 페이지의 데이터 추출 방법을 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체
지정국 정보가 없습니다
패밀리정보가 없습니다
순번, 연구부처, 주관기관, 연구사업, 연구과제의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 국가R&D 연구정보 정보 표입니다.
순번 연구부처 주관기관 연구사업 연구과제
1 정보통신부 경북대학교 정보통신선도기반기술개발사업 온톨로지 검증 및 온톨로지 기반 인스턴스 생성