1 |
1
특허의 서지사항과 인용정보가 포함된 문서데이터를 이용하여 기술발전도를 생성하는 시스템에 있어서, (a) 시스템은 서지정보와 요약, 청구항 및 인용정보가 포함된 다수의 분석대상 문서의 문서데이터를 수집하는 단계;(b) 상기 각 문서데이터의 인용정보를 이용하여 문서간 인용 여부에 대한 인용 매트릭스를 생성하는 단계; (c) 상기 각 문서데이터로부터 단어를 추출하고, 상기 단어가 해당 문서에서 출현되는 출현빈도와 전체 문서에서의 출현 통계를 이용하여 단어별 가중치를 도출하는 단계;(d) 상기 각 문서의 단어별 가중치에 대해 잠재적 디리클레 할당(LDA; Latent Dirichlet Allocation)을 적용하여 각각의 문서가 각 주제에 속할 확률분포를 산출하는 단계; (e) 상기 각 주제에 속할 확률분포를 이용하여 문서간 유사도 분석을 실행하되, 설정된 헬링거 디스턴스 알고리즘에 의해 문서간 유사도를 산출하는 단계; 및(f) 상기 문서간 유사도와 상기 문서간 인용 매트릭스의 해당 요소를 각각 연산하여 가중(weighted) 인용 매트릭스를 생성하고, 이를 기반으로 문서의 실질적 내용에 기초한 주제별 가시적 인용 네트워크를 생성하는 단계;를 포함하며,상기 헬링거 디스턴스(Hellinger distance; H(P,Q))는 하기 수식으로 정의되는, 기술발전도 생성 방법
|
2 |
2
삭제
|
3 |
3
삭제
|
4 |
4
청구항 1에 있어서, 상기 단어별 가중치는, 상기 추출한 단어의 해당 문서 내에서의 출현 빈도수를 산출하는 단계; 전체 문서수에서 상기 단어가 포함된 문서수를 나눈 역문서 빈도수(Inverse Document Frequency)를 산출하는 단계; 및상기 단어의 출현 빈도수와 역문서 빈도수를 승산하여 단어별 가중치를 획득하는 단계;를 포함하는, 기술발전도 생성 방법
|
5 |
5
청구항 1에 있어서, 상기 단어별 가중치는 하기 수식의 단어빈도-역문서빈도(tf-idf; Term Frequency-Inverse Document Frequency)에 의해 산출되는, 기술발전도 생성 방법
|
6 |
6
삭제
|
7 |
7
청구항 1에 있어서,상기 헬링거 디스턴스(H(P,Q))는 문서간의 확률분포가 동일할 경우 '0'이므로, 최종 유사도(S(P,Q))는 편의상 하기 수식에 의해 결정되는, 기술발전도 생성 방법
|
8 |
8
청구항 1에 있어서,상기 가시적 인용 네트워크는 문서의 인용횟수 또는 유사도 정도에 따라 가공되어 표현되는, 기술발전도 생성 방법
|
9 |
9
삭제
|
10 |
10
수집된 특허 문서데이터들의 인용정보를 이용하여 문서간 인용 관계를 분석한 후 문서간 인용 매트릭스를 생성하는 인용관계분석부;상기 수집된 문서데이터로부터 추출된 단어가 해당 문서에서 출현되는 출현빈도와 전체 문서에서의 출현 통계를 이용하여 단어별 가중치를 도출하는 가중치도출부;상기 각 문서의 단어별 가중치에 대해 잠재적 디리클레 할당(LDA; Latent Dirichlet Allocation)을 적용하여 각각의 문서가 각 주제에 속할 확률분포를 산출하는 주제확률분포산출부; 상기 각 주제에 속할 확률분포를 이용하여 문서간 유사도 분석을 실행하되, 헬링거 디스턴스 알고리즘에 의해 문서간 유사도를 산출하는 유사도산출부;상기 문서간 유사도와 상기 문서간 인용 매트릭스의 해당 요소를 각각 연산하여 가중(weighted) 인용 매트릭스를 생성하는 인용정보생성부; 및상기 생성된 가중 인용 매트릭스를 기반으로 문서의 실질적 내용에 기초한 주제별 가시적 인용 네트워크를 생성하는 기술발전도생성부;를 포함하며,상기 헬링거 디스턴스(Hellinger distance; H(P,Q))는 하기 수식으로 정의되는, 기술발전도 생성 시스템
|
11 |
11
삭제
|
12 |
12
삭제
|
13 |
13
청구항 10에 있어서, 상기 가중치도출부는, 상기 추출한 단어의 해당 문서 내에서의 출현 빈도수를 산출하고, 전체 문서수에서 상기 단어가 포함된 문서수를 나눈 역문서 빈도수(Inverse Document Frequency)를 산출하되, 상기 단어의 출현 빈도수와 역문서 빈도수를 승산하여 단어별 가중치를 획득하는 것을 특징으로 하는, 기술발전도 생성 시스템
|
14 |
14
청구항 10에 있어서, 상기 단어별 가중치는 하기 수식의 단어빈도-역문서빈도(tf-idf; Term Frequency-Inverse Document Frequency)에 의해 산출되는, 기술발전도 생성 시스템
|
15 |
15
청구항 10에 있어서, 상기 헬링거 디스턴스(H(P,Q))는 문서간의 확률분포가 동일할 경우 '0'이므로, 최종 유사도(S(P,Q))는 편의상 하기 수식에 의해 결정되는, 기술발전도 생성 시스템
|
16 |
16
청구항 10에 있어서, 상기 기술발전도생성부는 문서간의 인용횟수 또는 유사도에 따라 가시적 인용 네트워크를 가공하여 생성하는, 기술발전도 생성 시스템
|