1 |
1
정형화된 데이터를 자원 서술 체계 형태의 정형데이터로 변환하고, 이를 분석하여 상기 자원 서술 체계 형태의 정형 데이터로부터 키워드를 추출하는 정형 데이터 키워드 추출부와, 상기 정형 데이터 키워드 추출부에 의해 추출된 키워드를 기반으로 상기 자원 서술 체계 형태의 정형 데이터와 연관성이 있는 비정형 텍스트 데이터 집합을 수집하는 비정형 텍스트 데이터 수집부와, 상기 수집된 비정형 텍스트 데이터 집합에서 주제어 용어집을 기반으로 비정형 텍스트 데이터의 문맥을 추출하고, 추출된 문맥을 기반으로 역인덱스를 생성하고, 상기 자원 서술 체계 형태의 정형 데이터와 비정형 데이터를 의미적으로 연결하는 비정형 텍스트 데이터 의미 연결부를 포함함을 특징으로 하는 정형화된 데이터에 연관된 비정형 데이터 연결 장치
|
2 |
2
제 1항에 있어서, 상기 정형 데이터 키워드 추출부는 상기 자원 서술 체계 형태의 정형 데이터에 포함된 문장의 끝을 표시하는 구두점을 뺀 나머지 구두점들을 제거하는 텍스트 전처리부와, 상기 텍스트 전처리부를 통하여 출력된 텍스트 데이터 형태의 정형 데이터를 형태소 단위로 분석한 후, 각 형태소의 품사와 함께 출력하는 형태소 분석부와, 상기 형태소 분석된 데이터 문서 안에서 두 개 이상의 형태소를 붙여 하나의 키워드로 추출하는 키워드 추출부를 포함함을 특징으로 하는 비정형 데이터 연결 장치
|
3 |
3
제 2항에 있어서, 상기 텍스트 전처리부는 상기 자원 서술 체계 형태의 정형 데이터에서 이모티콘과 같은 특수 문자를 제거하고, 의미적 연결을 수행하는 언어 외의 외국어는 제거함을 특징으로 하는 비정형 데이터 연결 장치
|
4 |
4
제 1항에 있어서, 상기 정형 데이터 키워드 추출부는일반명사나 고유명사에서 문서의 도메인과 관계없는 불용어 리스트를 참고하여, 패턴에 의해 추출된 키워드 리스트에서 불용어를 제거하는 불용어 제거부를 더 포함함을 특징으로 하는 비정형 데이터 연결 장치
|
5 |
5
제 1항에 있어서, 상기 비정형 텍스트 데이터 의미 연결부는상기 비정형 데이터에 포함된 문장의 끝을 표시하는 구두점을 뺀 나머지 구두점들을 제거하는 텍스트 전처리부와, 상기 텍스트 전처리부를 통하여 출력된 텍스트 데이터 형태의 비정형 데이터를 형태소 단위로 분석한 후, 각 형태소의 품사와 함께 출력하는 형태소 분석부와, 일반명사나 고유명사에서 문서의 도메인과 관계없는 불용어 리스트를 참고하여, 패턴에 의해 추출된 키워드 리스트에서 불용어를 제거하는 불용어 제거부와, 수집된 비정형 텍스트 데이터 집합을 주제어 용어집(Corpus)을 기초로 각 비정형 텍스트 문서의 문맥을 추출할 때, 상기 비정형 텍스트 문서에서 주제어가 출현된 빈도수, 상기 비정형 텍스트 문서의 길이, 주제어가 출현한 비정형 텍스트 문서의 수 및 상기 비정형 텍스트 문서가 포함한 주제어의 수에 따라 가중치를 차별화하여 계산하는 주제어 빈도 가중치 계산부와, 상기 주제어 빈도 가중치 계산부의 연산 결과에 따라 수집된 비정형 텍스트 데이터의 문맥을 추출하는 비정형 텍스트 데이터 문맥 추출부와, 상기 자원 서술 체계 형태의 정형 데이터와 비정형 텍스트 데이터를 상기 자원 서술 체계 형태의 정형 데이터의 키워드를 중심으로 비정형 텍스트 데이터 문맥 역인덱스를 생성하고 저장하는 역인덱스 생성부와, 자원 서술 체계로 저장된 정형 데이터를 문맥이 추출된 비정형 텍스트와 주제어로 연결하는 문맥 기반 의미 연결 생성부와, 주제어를 중심으로 역인덱스 파일이 생성된 비정형 텍스트 데이터를 응용 서비스 목적에 따라 랭킹을 계산하는 응용 서비스 제공 랭킹 게산부를 포함함을 특징으로 하는 비정형 데이터 연결 장치
|
6 |
6
제 5항에 있어서, 상기 형태소 분석부는각 형태소의 품사와 함께 출력하는 비정형 텍스트 데이터의 처리함에 있어, 웹 데이터에서 빈번하게 나타나는 신조어, 통신 용어를 포함하는 사용자 사전을 추가하여 형태소를 분석함을 특징으로 하는 비정형 데이터 연결 장치
|
7 |
7
정형화된 데이터를 자원 서술 체계 형태의 정형데이터로 변환하고, 이를 분석하여 상기 자원 서술 체계 형태의 정형 데이터로부터 키워드를 추출하는 단계와, 상기 자원 서술 체계 형태의 정형 데이터로부터 키워드를 추출하는 단계에서 추출된 키워드를 기반으로 상기 자원 서술 체계 형태의 정형 데이터와 연관성이 있는 비정형 텍스트 데이터 집합을 수집하는 단계와, 상기 수집된 비정형 텍스트 데이터 집합에서 주제어 용어집을 기반으로 비정형 텍스트 데이터의 문맥을 추출하고, 추출된 문맥을 기반으로 역인덱스를 생성하고, 상기 자원 서술 체계 형태의 정형 데이터와 비정형 데이터를 의미적으로 연결하는 단계를 포함함을 특징으로 하는 정형화된 데이터에 연관된 비정형 데이터 연결 방법
|
8 |
8
제 7항에 있어서, 상기 자원 서술 체계 형태의 정형 데이터로부터 키워드를 추출하는 단계는상기 자원 서술 체계 형태의 정형 데이터에 포함된 문장의 끝을 표시하는 구두점을 뺀 나머지 구두점들을 제거하는 단계와, 상기 제거하는 단계를 통하여 출력되는 텍스트 데이터 형태의 정형 데이터를 형태소 단위로 분석한 후, 각 형태소의 품사와 함께 출력하는 단계와, 상기 형태소 분석된 데이터 문서 안에서 두 개 이상의 형태소를 붙여 하나의 키워드로 추출하는 단계 포함함을 특징으로 하는 비정형 데이터 연결 방법
|
9 |
9
제 8항에 있어서, 상기 자원 서술 체계 형태의 정형 데이터로부터 키워드를 추출하는 단계는일반명사나 고유명사에서 문서의 도메인과 관계없는 불용어 리스트를 참고하여, 패턴에 의해 추출된 키워드 리스트에서 불용어를 제거하는 단계를 더 포함함을 특징으로 하는 비정형 데이터 연결 방법
|
10 |
10
제 7항에 있어서, 상기 연결하는 단계는상기 비정형 데이터에 포함된 문장의 끝을 표시하는 구두점을 뺀 나머지 구두점들을 제거하는 단계와, 상기 제거하는 단계를 통해 출력되는 텍스트 데이터 형태의 비정형 데이터를 형태소 단위로 분석한 후, 각 형태소의 품사와 함께 출력하는 단계와, 일반명사나 고유명사에서 문서의 도메인과 관계없는 불용어 리스트를 참고하여, 패턴에 의해 추출된 키워드 리스트에서 불용어를 제거하는 단계와, 수집된 비정형 텍스트 데이터 집합을 주제어 용어집(Corpus)을 기초로 각 비정형 텍스트 문서의 문맥을 추출할 때, 상기 비정형 텍스트 문서에서 주제어가 출현된 빈도수, 상기 비정형 텍스트 문서의 길이, 주제어가 출현한 비정형 텍스트 문서의 수 및 상기 비정형 텍스트 문서가 포함한 주제어의 수에 따라 가중치를 차별화하여 계산하는 단계와, 상기 가중치 계산 결과에 따라 수집된 비정형 텍스트 데이터의 문맥을 추출하는 단계와, 상기 자원 서술 체계 형태의 정형 데이터와 비정형 텍스트 데이터를 상기 자원 서술 체계 형태의 정형 데이터의 키워드를 중심으로 비정형 텍스트 데이터 문맥 역인덱스를 생성하고 저장하는 단계와, 자원 서술 체계로 저장된 정형 데이터를 문맥이 추출된 비정형 텍스트와 주제어로 연결하는 단계와, 주제어를 중심으로 역인덱스 파일이 생성된 비정형 텍스트 데이터를 응용 서비스 목적에 따라 랭킹을 계산하는 단계를 포함함을 특징으로 하는 비정형 데이터 연결 방법
|