1 |
1
분석 대상으로서 입력된 특허 문서로부터 추출된 텍스트를 형태소 분석하여 단어를 추출하는 문서 전처리부;하이퍼링크를 가지는 웹 문서에 상대적 중요도에 따라 가중치를 부여하는 방법인 페이지랭크(PageRank) 알고리즘을 이용하여 상기 단어 중에서 중요 키워드를 선별하고, 학습용 분류 데이터를 기반으로 구축된 다중 레이블 분류 모델을 이용하여 상기 분석 대상의 IPC(International Patent Classification)를 분류하는 문서 분석부;상기 중요 키워드 및 상기 IPC의 분류 결과에 기초하여 특허 정보 검색 사이트로부터 비교 대상의 특허 문서를 검색하는 특허 검색부; 및LDA(Latent Dirichlet Allocation) 알고리즘을 이용하여 상기 분석 대상 및 상기 비교 대상의 토픽(Topic)을 분석하고, 상기 분석의 결과에 따라 상기 분석 대상과 상기 비교 대상의 유사도를 측정하는 특허 토픽 분석부를 포함하고,상기 문서 분석부는상기 페이지랭크 알고리즘을 이용하여, 상기 텍스트에서 동시 출현 빈도(PMI) 값이 미리 설정된 기준치보다 높은 어절을 상기 중요 키워드로서 선별하고,상기 특허 토픽 분석부는하기 수학식을 이용하여, 깁스 샘플링(Gibbs Sampling) 과정을 통해 p(z,Φ,θ|w)를 최대로 만드는 z(해당 주제에 대한 단어의 확률), Φ(단어들에 대한 디리슈레 분포; 단어들이 어떤 패턴인지를 나타냄), θ(문서 레벨의 변수; 문서 하나에 대한 주제어 분포를 나타냄)를 추정함으로써 상기 유사도를 측정하여 토픽 유사도 결과값을 도출하되, 상기 토픽 유사도 결과값에 대하여 Chart
|
2 |
2
제1항에 있어서,상기 문서 전처리부는상기 분석 대상의 특허 문서를 입력받아 텍스트를 추출하고, 상기 텍스트의 언어를 확인하고 영어로 번역하며, 형태소 분석을 통해 상기 영어로 번역된 텍스트로부터 단어를 추출하는 것을 특징으로 하는 유사 특허 검색 서비스 시스템
|
3 |
3
제2항에 있어서,상기 문서 전처리부는스톱 워드(Stop Word) 필터를 이용하여 상기 영어로 번역된 텍스트로부터 불필요한 단어를 제외하고 의미 있는 단어만을 추출하는 것을 특징으로 하는 유사 특허 검색 서비스 시스템
|
4 |
4
삭제
|
5 |
5
제1항에 있어서,상기 문서 분석부는상기 다중 레이블 분류 모델에 네이브 베이지안(Naive Bayesian) 알고리즘을 적용하여 상기 분석 대상의 IPC를 분류하는 것을 특징으로 하는 유사 특허 검색 서비스 시스템
|
6 |
6
제1항에 있어서,상기 다중 레이블 분류 모델은상기 특허 정보 검색 사이트로부터 수집된 특허 문서 집합의 제목, 요약, 기술분야 및 배경기술을 포함하는 초록 필드를 데이터 소스로 하는 학습용 분류 데이터를 기반으로 구축되는 것을 특징으로 하는 유사 특허 검색 서비스 시스템
|
7 |
7
제1항에 있어서,상기 특허 검색부는상기 특허 정보 검색 사이트에서 제공하는 오픈 API(Application Programming Interface)를 이용해서 상기 비교 대상의 특허 문서를 검색하는 것을 특징으로 하는 유사 특허 검색 서비스 시스템
|
8 |
8
삭제
|
9 |
9
제1항에 있어서,상기 특허 토픽 분석부는상기 토픽 유사도 결과값이 미리 설정된 임계값을 초과하는 비교 대상의 특허 문서를, 상기 분석 대상의 특허 문서와 유사한 특허 검색 결과로서 제공하는 것을 특징으로 하는 유사 특허 검색 서비스 시스템
|
10 |
10
유사 특허 검색 서비스 시스템의 문서 전처리부가 분석 대상으로서 입력된 특허 문서로부터 추출된 텍스트를 형태소 분석하여 단어를 추출하는 단계;상기 유사 특허 검색 서비스 시스템의 문서 분석부가 하이퍼링크를 가지는 웹 문서에 상대적 중요도에 따라 가중치를 부여하는 방법인 페이지랭크(PageRank) 알고리즘을 이용하여 상기 단어 중에서 중요 키워드를 선별하는 단계;상기 유사 특허 검색 서비스 시스템의 문서 분석부가 학습용 분류 데이터를 기반으로 구축된 다중 레이블 분류 모델을 이용하여 상기 분석 대상의 IPC를 분류하는 단계;상기 유사 특허 검색 서비스 시스템의 특허 검색부가 상기 중요 키워드 및 상기 IPC의 분류 결과에 기초하여 특허 정보 검색 사이트로부터 비교 대상의 특허 문서를 검색하는 단계; 및상기 유사 특허 검색 서비스 시스템의 특허 토픽 분석부가 LDA 알고리즘을 이용하여 상기 분석 대상 및 상기 비교 대상의 토픽을 분석하고, 상기 분석의 결과에 따라 상기 분석 대상과 상기 비교 대상의 유사도를 측정하는 단계를 포함하고,상기 중요 키워드를 선별하는 단계는상기 페이지랭크 알고리즘을 이용하여, 상기 텍스트에서 동시 출현 빈도(PMI) 값이 미리 설정된 기준치보다 높은 어절을 상기 중요 키워드로서 선별하는 단계를 포함하고,상기 분석 대상과 상기 비교 대상의 유사도를 측정하는 단계는하기 수학식을 이용하여, 깁스 샘플링(Gibbs Sampling) 과정을 통해 p(z,Φ,θ|w)를 최대로 만드는 z(해당 주제에 대한 단어의 확률), Φ(단어들에 대한 디리슈레 분포; 단어들이 어떤 패턴인지를 나타냄), θ(문서 레벨의 변수; 문서 하나에 대한 주제어 분포를 나타냄)를 추정함으로써 상기 유사도를 측정하여 토픽 유사도 결과값을 도출하되, 상기 토픽 유사도 결과값에 대하여 Chart
|
11 |
11
삭제
|
12 |
12
제10항에 있어서,상기 분석 대상의 IPC를 분류하는 단계는상기 다중 레이블 분류 모델에 네이브 베이지안 알고리즘을 적용하여 상기 분석 대상의 IPC를 분류하는 단계를 포함하는 것을 특징으로 하는 유사 특허 검색 서비스 방법
|
13 |
13
제10항에 있어서,상기 다중 레이블 분류 모델은상기 특허 정보 검색 사이트로부터 수집된 특허 문서 집합의 제목, 요약, 기술분야 및 배경기술을 포함하는 초록 필드를 데이터 소스로 하는 학습용 분류 데이터를 기반으로 구축되는 것을 특징으로 하는 유사 특허 검색 서비스 방법
|
14 |
14
삭제
|