1 |
1
유엠엘에스(UMLS : United Medical Language System)에서 메타시소러스를 제공받아 개체명 인식에 사용될 언어자원인 개념어, 단일어 및 범주키텀 데이터베이스를 각각 구축하는 자원 구축부; 상기 개념어 데이터베이스에 저장된 각 개념어를 입력받아 상기 단일어 및 범주키텀 데이터베이스에 저장된 자료를 이용하여 각 개념어에 대한 자질을 추출하고, 상기 추출된 결과를 이용하여 개체명을 인식하기 위한 규칙 생성 및 규칙 필터링 과정을 거쳐 규칙 데이터베이스를 구축하는 규칙 수집부; 및 생물학 문서를 입력받아 개체명 후보가 되는 명사 및 명사구를 추출하여 상기 규칙 데이터베이스에 저장된 규칙을 상기 명사 및 명사구에 적용하여 개체명 인식을 수행하는 개체명 인식부를 포함하는 것을 특징으로 하는 유엠엘에스를 기반으로 생물학 문헌으로부터 생물학적 개체명을 인식하는 장치
|
2 |
2
제1항에 있어서, 상기 자원 구축부는 상기 유엠엘에스의 메타시소러스를 의미범주 별로 분할한 결과로부터 개념어를 추출하여 개념어 데이터베이스를 구성하고, 상기 개념어 데이터베이스에 저장되어 있는 개념어를 처리하여 단일어와 범주키텀을 추출하며, 상기 추출된 단일어와 범주키텀을 이용하여 단일어 데이터베이스와 범주키텀 데이터베이스를 각각 구축하는 것을 특징으로 하는 유엠엘에스를 기반으로 생물학 문헌으로부터 생물학적 개체명을 인식하는 장치
|
3 |
3
제1항에 있어서, 상기 규칙 수집부는 상기 개념어 데이터베이스에 저장되어 있는 각 개념어를 구성하는 토큰의 자질을 추출하고, 그 결과를 결합하여 규칙을 생성하며, 상기 규칙에 가중치를 부여하여 임계치로 필터링하여 얻어진 결과를 상기 규칙 데이터베이스에 저장하는 것을 특징으로 하는 유엠엘에스를 기반으로 생물학 문헌으로부터 생물학적 개체명을 인식하는 장치
|
4 |
4
제1항에 있어서, 상기 개체명 인식부는 상기 문서 입력부를 통해 제공되는 문서를 대상으로 개체명 후보를 추출하고, 개체명 후보를 구성하는 각 토큰의 자질을 추출한 결과를 결합하여 개체명 후보를 결정하기 위한 규칙을 생성하고, 상기 생성된 규칙을 규칙 데이터베이스에 저장되어 있는 규칙들과 매치하여 개체명 후보에 적합한 기존 규칙들을 추출하며, 추출된 각 규칙들의 가중치와 개체명 범주 결정을 위한 휴리스틱을 적용하여 개체명 후보에 대한 최종적인 의미범주를 결정하여 개체명을 인식하는 것을 특징으로 하는 유엠엘에스를 기반으로 생물학 문헌으로부터 생물학적 개체명을 인식하는 장치
|
5 |
5
유엠엘에스로부터 메타시소러스를 입력받아 개체명 인식을 위한 언어자원인 개념어, 단일어 및 범주키텀을 추출하여 각각에 대한 데이터베이스를 구축하는 자원 구축 단계; 상기 각 데이터베이스에 저장된 언어자원들을 이용하여 개념어의 자질을 추출하고 이에 대한 규칙을 구성하여 규칙 데이터베이스에 저장하는 규칙 수집 단계; 및, 문서를 입력받아 개체명 후보에 대한 자질을 추출하고, 상기 추출된 자질을 결합하여 개체명 후보를 결정하기 위한 규칙을 생성하며, 상기 규칙 데이터베이스에 저장되어 있는 규칙들과 상기 생성된 규칙을 매치하여 그 결과를 이용하여 최종 의미범주를 결정하는 개체명 인식 단계를 포함하는 것을 특징으로 하는 유엠엘에스를 기반으로 생물학 문헌으로부터 생물학적 개체명을 인식하는 방법
|
6 |
6
제5항에 있어서, 상기 자원 구축 단계는 상기 메타시소러스에 포함된 테이블 중에서 개념어를 나타내는 각 문자열의 의미를 기술하기 위한 MRCON 테이블과 각 개념어에 할당된 의미범주를 기술하기 위한 MRSTY 테이블에 있는 정보를 매핑 조건을 이용하여 매핑함으로써 상기 MRCON 테이블에 저장되어 있는 데이터를 각 의미범주 별로 분할하는 제1단계; 개념집합 분할의 결과로부터 MRCON 테이블의 STR 필드에 있는 값들을 추출해 개념어 데이터베이스에 저장하는 제2단계; 개념어 데이터베이스로부터 단일어를 추출하여 단일어 데이터베이스에 저장하는 제3단계; 및 개념어 데이터베이스로부터 범주키텀을 추출하여 범주키텀 데이터베이스에 저장하는 제4단계를 포함하는 것을 특징으로 하는 유엠엘에스를 기반으로 생물학 문헌으로부터 생물학적 개체명을 인식하는 방법
|
7 |
7
제6항에 있어서, 상기 MRCON 및 MRSTY 테이블에 있는 정보를 매핑하는 조건은 MRCON 테이블의 CUI와 MRSTY 테이블의 CUI가 일치하는 경우 MRCON 테이블에 있는 데이터들 중 LAT 필드의 값이 "ENG"인 데이터들만을 MRSTY 테이블의 TUI에 해당하는 값에 따라 서로 다른 집합으로 분할하는 것을 특징으로 하는 유엠엘에스를 기반으로 생물학 문헌으로부터 생물학적 개체명을 인식하는 방법
|
8 |
8
제6항에 있어서, 상기 제4단계는 개념어 데이터베이스에 저장되어 있는 개념어들을 이용하여 개체명을 구성하는 각 단어가 가장 많이 출현한 의미범주에서의 분포를 계산하여 임계치로 필터링 하는 것을 특징으로 하는 유엠엘에스를 기반으로 생물학 문헌으로부터 생물학적 개체명을 인식하는 방법
|
9 |
9
제5항에 있어서, 상기 규칙 수집 단계는 개념어 데이터베이스에 저장되어 있는 각 개념어에 대해 토큰 별로 자질을 추출하는 제1단계; 및, 자질이 추출된 토큰들을 결합해 규칙을 구성하고 이에 대해 가중치를 계산하여 필터링한 결과를 규칙 데이터베이스에 저장하는 제2단계를 포함하는 것을 특징으로 하는 유엠엘에스를 기반으로 생물학 문헌으로부터 생물학적 개체명을 인식하는 방법
|
10 |
10
제9항에 있어서, 상기 제1단계는 생물학적 개체명의 특징을 반영하기 위해 정의된 자질들인 대문자 표현, 영숫자, 특수문자, 전치사 또는 접속사, 단일어 및 범주키텀 자질과 각 자질의 서브타입을 이용하여 개념어 데이터베이스에 저장되어 있는 각 개념어의 토큰들에 대한 자질을 추출하는 것을 특징으로 하는 유엠엘에스를 기반으로 생물학 문헌으로부터 생물학적 개체명을 인식하는 방법
|
11 |
11
제9항에 있어서, 상기 제2단계는 상기 제1단계에서 개념어를 토큰화하여 자질을 추출한 결과를 입력받아 토큰이 갖는 자질들의 서브타입에 따라 서브타입의 조합을 모두 고려한 개수만큼의 규칙들을 생성하는 단계; 및 상기 생성된 모든 규칙을 대상으로 각 범주에서 규칙의 출현 분포를 계산하고 임계치로 필터링하여 규칙 데이터베이스를 구성하는 규칙 필터링 단계를 포함하는 것을 특징으로 하는 유엠엘에스를 기반으로 생물학 문헌으로부터 생물학적 개체명을 인식하는 방법
|
12 |
12
제5항에 있어서, 상기 개체명 인식 단계는 입력 문서를 대상으로 개체명 후보가 되는 명사 및 명사구를 추출하는 개체명 후보 추출 단계; 개체명 후보의 각 토큰에 대해 자질을 추출하는 자질 추출 단계; 개체명 후보의 각 토큰에 대해 자질을 추출한 결과들을 결합하여 개체명 후보 결정을 위한 규칙을 생성하는 규칙 생성 단계; 생성된 규칙을 규칙 데이터베이스에 저장되어 있는 규칙들과 매치하는 규칙 매치 단계; 및, 개체명 후보들의 최종적인 의미범주를 결정하는 개체명 범주 결정 단계를 포함하는 것을 특징으로 하는 유엠엘에스를 기반으로 생물학 문헌으로부터 생물학적 개체명을 인식하는 방법
|
13 |
13
제12항에 있어서, 상기 규칙 매치 단계는 개체명 후보를 결정하기 위한 규칙과 상기 규칙 데이터베이스에 저장되어 있는 규칙들을 완전 매치, 부분 매치 또는 내포 매치의 방식으로 매치하여 개체명 후보를 결정하기에 적합한 기존 규칙들을 추출하는 것을 특징으로 하는 유엠엘에스를 기반으로 하는 생물학 문헌으로부터 생물학적 개체명을 인식하는 방법
|
14 |
14
제12항에 있어서, 상기 개체명 범주 결정 단계는 규칙 매치 단계에서 추출된 기존 규칙들의 가중치와 개체명 범주 결정을 위한 휴리스틱을 이용하여 개체명 후보들의 최종적인 의미범주를 결정하여 개체명 인식 결과로서 출력하는 것을 특징으로 하는 유엠엘에스를 기반으로 하는 생물학 문헌으로부터 생물학적 개체명을 인식하는 방법
|
15 |
14
제12항에 있어서, 상기 개체명 범주 결정 단계는 규칙 매치 단계에서 추출된 기존 규칙들의 가중치와 개체명 범주 결정을 위한 휴리스틱을 이용하여 개체명 후보들의 최종적인 의미범주를 결정하여 개체명 인식 결과로서 출력하는 것을 특징으로 하는 유엠엘에스를 기반으로 하는 생물학 문헌으로부터 생물학적 개체명을 인식하는 방법
|