1 |
1
컴퓨팅 디바이스에 의한 데이터 수집 방법에 있어서,데이터베이스에서 키워드로 검색하여 문헌 자료를 추출하는 단계;상기 추출한 문헌 자료를 파싱하는 단계;상기 문헌 자료 내에 포함된 용어의 중요도를 기준으로 상기 용어를 벡터로 표현하여 전처리하는 단계;상기 전처리한 용어들을 바운더리 파라미터를 기반으로 학습하며, 비 라벨링 데이터 영역으로부터 라벨링 데이터 영역을 분리하는 경계를 검출하는 단일 클래스 분류 모델을 생성하는 단계; 및상기 단일 클래스 분류 모델을 이용하여, 상기 문헌 자료 중에서 상기 키워드와 관련된 유효 데이터를 추출하는 단계를 포함하는 데이터 수집 방법
|
2 |
2
제1항에 있어서,상기 문헌 자료를 파싱하는 단계는 상기 문헌 자료를 식별자, 문헌 종류, 제목, 및 요약으로 구분하는 것을 특징으로 하는 데이터 수집 방법
|
3 |
3
제1항에 있어서,상기 단일 클래스 분류 모델은 분류하기 위하여 오답 집합에 속하는 네거티브 데이터를 학습하지 않고, 정답 집합에 속하는 포지티브 데이터를 학습하며, 상기 포지티브 데이터는 (i) 상기 키워드의 의미를 내포하는 색인어를 갖는 문헌, (ii) 상기 키워드의 의미를 내포하는 색인어를 갖지 않는 문헌, (ii) 상기 색인어를 갖지 않는 문헌 중 적어도 하나를 대상으로 하며,상기 키워드는 상기 문헌 자료의 텍스트 내용에 포함된 적어도 하나의 용어이고, 상기 색인어는 문서 검색을 목적으로 상기 문헌 자료와 미리 매칭된 별도의 통제어로서, 상기 키워드와 상기 색인어는 상기 데이터베이스에서 상기 문헌 자료를 추출하기 위해 각각 사용될 수 있는 것을 특징으로 하는 데이터 수집 방법
|
4 |
4
제3항에 있어서,상기 색인어는 상기 용어들의 계층 관계를 트리 구조로 형성하고, 연관어는 상기 색인어로 채택되지 않은 축약어, 단복수형, 유사어, 또는 동의어에 해당하고, 상기 연관어 및 상기 색인어 간에 상호 참조되며, 상기 연관어에 대응하는 상기 색인어로 대체되어 검색되는 것을 특징으로 하는 데이터 수집 방법
|
5 |
5
제1항에 있어서,상기 바운더리 파라미터는 상기 단일 클래스 분류 모델의 경계의 상한을 조절하며, 상기 바운더리 파라미터는 제1 바운더리 파라미터 또는 제2 바운더리 파라미터로 설정되며, 상기 제1 바운더리 파라미터는 상기 제2 바운더리 파라미터보다 큰 값으로 설정되는 것을 특징으로 하는 데이터 수집 방법
|
6 |
6
제5항에 있어서,상기 문헌 자료의 제목에 상기 키워드가 포함되면 상기 바운더리 파라미터는 상기 제1 바운더리 파라미터로 설정되고, 상기 문헌 자료의 제목에 키워드가 포함되지 않으면 상기 바운더리 파라미터는 상기 제2 바운더리 파라미터로 설정되는 것을 특징으로 하는 데이터 수집 방법
|
7 |
7
제1항에 있어서,상기 키워드 및 상기 문헌 자료 간의 관련도를 평가하는 단계를 추가로 포함하며, 정답 집합에 속하는 포지티브 데이터 및 오답 집합에 속하는 네거티브 데이터에 기반하여 정밀도를 산출하여 상기 관련도를 평가하는 것을 특징으로 하는 데이터 수집 방법
|
8 |
8
데이터베이스에서 키워드로 검색하여 문헌 자료를 추출하는 문헌 추출부;상기 추출한 문헌 자료를 파싱하는 문헌 파싱부;상기 문헌 자료 내에 포함된 용어의 중요도를 기준으로 상기 용어를 벡터로 표현하여 전처리하는 용어 전처리부;상기 전처리한 용어들을 바운더리 파라미터를 기반으로 학습하며, 비 라벨링 데이터 영역으로부터 라벨링 데이터 영역을 분리하는 경계를 검출하는 단일 클래스 분류 모델을 생성하는 분류 모델 생성부; 및상기 단일 클래스 분류 모델을 이용하여, 상기 문헌 자료 중에서 상기 키워드와 관련된 유효 데이터를 추출하는 유효 데이터 추출부를 포함하는 데이터 수집 장치
|
9 |
9
제8항에 있어서,상기 문헌 파싱부는, 상기 문헌 자료를 식별자, 문헌 종류, 제목, 및 요약으로 구분하는 것을 특징으로 하는 데이터 수집 장치
|
10 |
10
제8항에 있어서,상기 단일 클래스 분류 모델은 분류하기 위하여 오답 집합에 속하는 네거티브 데이터를 학습하지 않고, 정답 집합에 속하는 포지티브 데이터를 학습하며, 상기 포지티브 데이터는 (i) 상기 키워드의 의미를 내포하는 색인어를 갖는 문헌, (ii) 상기 키워드의 의미를 내포하는 색인어를 갖지 않는 문헌, (ii) 상기 색인어를 갖지 않는 문헌 중 적어도 하나를 대상으로 하며,상기 키워드는 상기 문헌 자료의 텍스트 내용에 포함된 적어도 하나의 용어이고, 상기 색인어는 문서 검색을 목적으로 상기 문헌 자료와 미리 매칭된 별도의 통제어로서, 상기 키워드와 상기 색인어는 상기 데이터베이스에서 상기 문헌 자료를 추출하기 위해 각각 사용될 수 있는 것을 특징으로 하는 데이터 수집 장치
|
11 |
11
제10항에 있어서,상기 색인어는 상기 용어들의 계층 관계를 트리 구조로 형성하고, 연관어는 상기 색인어로 채택되지 않은 축약어, 단복수형, 유사어, 또는 동의어에 해당하고, 상기 연관어 및 상기 색인어 간에 상호 참조되며, 상기 연관어에 대응하는 상기 색인어로 대체되어 검색되는 것을 특징으로 하는 데이터 수집 장치
|
12 |
12
제8항에 있어서,상기 바운더리 파라미터는 상기 단일 클래스 분류 모델의 경계의 상한을 조절하며, 상기 바운더리 파라미터는 제1 바운더리 파라미터 또는 제2 바운더리 파라미터로 설정되며, 상기 제1 바운더리 파라미터는 상기 제2 바운더리 파라미터보다 큰 값으로 설정되는 것을 특징으로 하는 데이터 수집 장치
|
13 |
13
제12항에 있어서,상기 문헌 자료의 제목에 상기 키워드가 포함되면 상기 바운더리 파라미터는 상기 제1 바운더리 파라미터로 설정되고, 상기 문헌 자료의 제목에 키워드가 포함되지 않으면 상기 바운더리 파라미터는 상기 제2 바운더리 파라미터로 설정되는 것을 특징으로 하는 데이터 수집 장치
|
14 |
14
제8항에 있어서,상기 키워드 및 상기 문헌 자료 간의 관련도를 평가하는 관련도 평가부를 추가로 포함하며, 상기 관련도 평가부는 정답 집합에 속하는 포지티브 데이터 및 오답 집합에 속하는 네거티브 데이터에 기반하여 정밀도를 산출하여 상기 관련도를 평가하는 것을 특징으로 하는 데이터 수집 장치
|
15 |
15
프로세서에 의해 실행 가능한 컴퓨터 프로그램 명령어들을 포함하는 비일시적(Non-Transitory) 컴퓨터 판독 가능한 매체에 기록되어 데이터 수집을 위한 컴퓨터 프로그램으로서, 상기 컴퓨터 프로그램 명령어들이 컴퓨팅 디바이스의 프로세서에 의해 실행되는 경우에,데이터베이스에서 키워드로 검색하여 문헌 자료를 추출하는 단계;상기 추출한 문헌 자료를 파싱하는 단계;상기 문헌 자료 내에 포함된 용어의 중요도를 기준으로 상기 용어를 벡터로 표현하여 전처리하는 단계;상기 전처리한 용어들을 바운더리 파라미터를 기반으로 학습하며, 비 라벨링 데이터 영역으로부터 라벨링 데이터 영역을 분리하는 경계를 검출하는 단일 클래스 분류 모델을 생성하는 단계; 및상기 단일 클래스 분류 모델을 이용하여, 상기 문헌 자료 중에서 상기 키워드와 관련된 유효 데이터를 추출하는 단계를 포함한 동작들을 수행하는 컴퓨터 프로그램
|