1 |
1
웹 페이지의 HTML 트리에서 루트로부터 추출 데이터까지의 경로가 절대 경로에 대하여 부분매치(match)되는 다수의 선형 부분매치 질의(Linear Partial Match Query)를 산출하는 제 1 산출단계와;
상기 산출된 각 선형 부분매치 질의에 대하여 해당 매치의 정렬된 원소가 다른 매치의 정렬된 원소보다 크거나 같은 최소 매치를 산출하는 제 2 산출단계와;
상기 최소 매치를 갖는 다수의 선형 부분매치 질의 중에서, 어느 하나의 선형 부분매치 질의의 최소 매치의 정렬된 원소가, 다른 선형 부분매치 질의의 최소 매치의 정렬된 원소보다 크거나 같은 경우, 해당 부분매치 질의를 견고한 선형 부분매치 질의로 판단하는 판단 단계와;
상기 판단 결과에 따른 선형 부분매치 질의에 의해 해당 웹 페이지의 데이터를 추출하는 추출 단계;를 포함하는 부분 매칭을 이용한 웹 페이지의 데이터 추출 방법
|
2 |
2
제 1 항에 있어서,
상기 루트로부터 추출 데이터까지의 경로는 하기의 식으로 정의된 선형 경로 질의이고,
여기서, l1은 트리의 루트, li는 경로의 i번째 노드의 인덱스(i=1,2…n), oj는(j=1,2…n) lj-1와 lj의 부모-자식 관계를 나타내는 '/' 및 조상-자손 관계를 나타내는 '//'중 하나로 표현되는 것을 특징으로 하는 부분 매칭을 이용한 웹 페이지의 데이터 추출 방법
|
3 |
3
제 2 항에 있어서,
상기 제 1 산출 단계에서, 상기 부분매치되는 다수의 선형 부분매치 질의 Q(//l'1//l'2/…//l'm)는 상기 절대 경로 P(/l1/l2/…/ln(m003c#n))에 대하여 l'i=lt(i)를 만족하고 여기서 t(i)는 정렬된 m개의 튜플인 것을 특징으로 하는 부분 매칭을 이용한 웹 페이지의 데이터 추출 방법
|
4 |
4
제 2 항에 있어서,
상기 제 2 산출 단계는 상기 각 선형 부분매치 질의 Q(//l'1//l'2/…//l'm)에 대한 최소 매치 M(i1,i2,…,im)는 모든 다른 매치에 대하여 M'와 M ≥L M'를 만족하고, 여기서, M ≥L M'는 모든 i에 대하여 M[i] ≥ M'[i] 인 것을 특징으로 하는 부분 매칭을 이용한 웹 페이지의 데이터 추출 방법
|
5 |
5
제 2 항에 있어서,
상기 판단 단계는 상기 어느 하나의 선형 부분매치 질의 Q1(//l'1//l'2/…//l'n)의 최소 매치 M1(i1,i2,…,in)가 상기 다른 선형 부분매치 질의 Q2(//l''1//l''2/…//l''m)의 최소 매치 M2(j1,j2,…,jm)에 대하여 ik ≥ jk를 만족하면 Q1을 견고한 선형 부분매치 질의로 판단하며, 여기서 k는 1≤k≤n 인 것을 특징으로 하는 부분 매칭을 이용한 웹 페이지의 데이터 추출 방법
|
6 |
6
웹 페이지의 HTML 트리에서 루트로부터 추출 데이터까지의 경로와 조건 데이터까지의 경로가 절대 경로에 대하여 부분매치되는 다수의 가지형 부분매치 질의(Twig Partial Match Query)를 산출하는 제 1 산출 단계와;
상기 산출된 각 가지형 부분매치 질의에 대하여 해당 매치의 정렬된 원소가 다른 매치의 정렬된 원소보다 크거나 같은 최소 매치를 산출하는 제 2 산출단계와;
상기 최소 매치를 갖는 다수의 가지형 부분매치 질의 중에서, 어느 하나의 가지형 부분매치 질의의 최소 매치의 정렬된 원소가, 다른 가지형 부분매치 질의 최소 매치의 정렬된 원소보다 크거나 같은 경우, 해당 부분매치 질의를 견고한 가지형 부분매치 질의로 판단하는 판단 단계와;
상기 판단 결과에 따른 가지형 부분매치 질의에 의해 해당 웹 페이지의 데이터를 추출하는 추출 단계;를 포함하는 부분 매칭을 이용한 웹 페이지의 데이터 추출 방법
|
7 |
7
제 6 항에 있어서,
상기 추출 데이터의 선형 경로 질의가 만족해야 하는 조건 데이터에 대한 술어(predicate)가 부가된 가지형 경로 질의는 하기의 식으로 표현하고,
여기서, l1은 트리의 루트, li는 경로의 i번째 노드의 인덱스(i=1,2…n), oj는(j=1,2…n) lj-1와 lj의 부모-자식 관계를 나타내는 '/' 및 조상-자손 관계를 나타내는 '//'중 하나로 표현되고, pi는 i번째 노드의 자식 노드 또는 자손 노드가 만족하는 술어, ?는 노드의 술어가 0개 또는 1개임을 의미하는 것을 특징으로 하는 부분 매칭을 이용한 웹 페이지의 데이터 추출 방법
|
8 |
8
제 7 항에 있어서,
상기 제 1 산출 단계에서, 상기 부분매치되는 다수의 가지형 부분매치 질의 Q(//l'1p'1?//l'2p'2?/…//l'np'n?)는 상기 절대 경로 P(/l1/l2/…/ln(m003c#n))에 대하여 l'i=lt(i)를 만족하고 여기서 t(i)는 정렬된 m개의 튜플인 것을 특징으로 하는 부분 매칭을 이용한 웹 페이지의 데이터 추출 방법
|
9 |
9
제 7 항에 있어서,
상기 제 2 산출 단계는 상기 각 가지형 부분매치 질의 Q(//l'1p'1?//l'2p'2?/…//l'np'n?)에 대한 최소 매치 M(i1,i2,…,im)는 모든 다른 매치에 대하여 M'와 M ≥L M'를 만족하고, 여기서, M ≥L M'는 모든 i에 대하여 M[i] ≥ M'[i]인 것을 특징으로 하는 부분 매칭을 이용한 웹 페이지의 데이터 추출 방법
|
10 |
10
제 7 항에 있어서,
상기 판단 단계는 상기 어느 하나의 가지형 부분매치 질의 Q1(//l'1p'1?//l'2p'2?/…//l'np'n?)의 최소 매치 M1(i1,i2,…,in)가 상기 다른 가지형 부분매치 질의 Q2(//l'1p'1?//l'2p'2?/…//l'mp'm?)의 최소 매치 M2(j1,j2,…,jm)에 대하여 ik ≥ jk를 만족하고, Q1의 술어의 최소 매치 PM1(k1,k2,…ka)가 Q2의 술어의 최소 매치 PM2(g1,g2,…gb)에 대하여 kf ≥ gf를 만족하면 Q1을 견고한 가지형 부분매치 질의로 판단하며, 여기서 k는 1≤k≤n, f는 1≤f≤a인 것을 특징으로 하는 부분 매칭을 이용한 웹 페이지의 데이터 추출 방법
|
11 |
11
제 1 항 내지 제 10 항중 어느 한 항의 부분 매칭을 이용한 웹 페이지의 데이터 추출 방법을 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체
|