맞춤기술찾기

이전대상기술

유엠엘에스를 기반으로 생물학 문헌으로부터 생물학적개체명을 인식하는 장치 및 그 방법

  • 기술번호 : KST2015079312
  • 담당센터 : 대전기술혁신센터
  • 전화번호 : 042-610-2279
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 본 발명은 유엠엘에스(UMLS : United Medical Language System)를 기반으로 생물학 문헌으로부터 생물학적 개체명을 인식하는 장치 및 그 방법에 관한 것이다. 본 발명의 장치 및 방법은 유엠엘에스에서 메타시소러스를 제공받아 개체명 인식에 사용될 언어자원인 개념어, 단일어 및 범주키텀 데이터베이스를 각각 구축하고, 상기 개념어 데이터베이스에 저장된 각 개념어를 입력받아 상기 단일어 및 범주키텀 데이터베이스에 저장된 자료를 이용하여 각 개념어에 대한 자질을 추출하며, 상기 추출된 결과를 이용하여 개체명을 인식하기 위한 규칙 생성 및 규칙 필터링 과정을 거쳐 규칙 데이터베이스를 구축하며, 생물학 문서를 입력받아 개체명 후보가 되는 명사 및 명사구를 추출하여 상기 규칙 데이터베이스에 저장된 규칙을 상기 명사 및 명사구에 적용하여 개체명 인식을 수행한다. 이렇게 함으로써, 입력문서에서 중요 정보 개체로 활용될 수 있는 생물학적 개체명들을 효과적으로 추출할 수 있다. 생물학적 개체명, UMLS Metathesaurus, 자원 구축, 규칙 수집, 개체명 인식
Int. CL G06F 17/20 (2011.01) G06F 19/28 (2011.01)
CPC
출원번호/일자 1020030074429 (2003.10.23)
출원인 한국전자통신연구원
등록번호/일자 10-0501413-0000 (2005.07.06)
공개번호/일자 10-2005-0039067 (2005.04.29) 문서열기
공고번호/일자 (20050718) 문서열기
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 소멸
심사진행상태 수리
심판사항
구분
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2003.10.23)
심사청구항수 14

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 한국전자통신연구원 대한민국 대전광역시 유성구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 박수준 대한민국 서울특별시강남구
2 김태현 대한민국 대전광역시대덕구
3 이현숙 대한민국 대전광역시유성구
4 장현철 대한민국 대전광역시서구
5 박선희 대한민국 대전광역시서구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 권태복 대한민국 서울시 강남구 테헤란로*길 **, *층 (역삼동, 청원빌딩)(아리특허법률사무소)
2 이화익 대한민국 서울시 강남구 테헤란로*길** (역삼동,청원빌딩) *층,***,***호(영인국제특허법률사무소)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
1 한국전자통신연구원 대한민국 대전광역시 유성구
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 특허출원서
Patent Application
2003.10.23 수리 (Accepted) 1-1-2003-0396726-55
2 선행기술조사의뢰서
Request for Prior Art Search
2005.04.15 수리 (Accepted) 9-1-9999-9999999-89
3 선행기술조사보고서
Report of Prior Art Search
2005.05.18 수리 (Accepted) 9-1-2005-0028471-54
4 등록결정서
Decision to grant
2005.06.29 발송처리완료 (Completion of Transmission) 9-5-2005-0263546-74
5 출원인정보변경(경정)신고서
Notification of change of applicant's information
2009.08.04 수리 (Accepted) 4-1-2009-5150899-36
6 출원인정보변경(경정)신고서
Notification of change of applicant's information
2015.02.02 수리 (Accepted) 4-1-2015-0006137-44
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
유엠엘에스(UMLS : United Medical Language System)에서 메타시소러스를 제공받아 개체명 인식에 사용될 언어자원인 개념어, 단일어 및 범주키텀 데이터베이스를 각각 구축하는 자원 구축부; 상기 개념어 데이터베이스에 저장된 각 개념어를 입력받아 상기 단일어 및 범주키텀 데이터베이스에 저장된 자료를 이용하여 각 개념어에 대한 자질을 추출하고, 상기 추출된 결과를 이용하여 개체명을 인식하기 위한 규칙 생성 및 규칙 필터링 과정을 거쳐 규칙 데이터베이스를 구축하는 규칙 수집부; 및 생물학 문서를 입력받아 개체명 후보가 되는 명사 및 명사구를 추출하여 상기 규칙 데이터베이스에 저장된 규칙을 상기 명사 및 명사구에 적용하여 개체명 인식을 수행하는 개체명 인식부를 포함하는 것을 특징으로 하는 유엠엘에스를 기반으로 생물학 문헌으로부터 생물학적 개체명을 인식하는 장치
2 2
제1항에 있어서, 상기 자원 구축부는 상기 유엠엘에스의 메타시소러스를 의미범주 별로 분할한 결과로부터 개념어를 추출하여 개념어 데이터베이스를 구성하고, 상기 개념어 데이터베이스에 저장되어 있는 개념어를 처리하여 단일어와 범주키텀을 추출하며, 상기 추출된 단일어와 범주키텀을 이용하여 단일어 데이터베이스와 범주키텀 데이터베이스를 각각 구축하는 것을 특징으로 하는 유엠엘에스를 기반으로 생물학 문헌으로부터 생물학적 개체명을 인식하는 장치
3 3
제1항에 있어서, 상기 규칙 수집부는 상기 개념어 데이터베이스에 저장되어 있는 각 개념어를 구성하는 토큰의 자질을 추출하고, 그 결과를 결합하여 규칙을 생성하며, 상기 규칙에 가중치를 부여하여 임계치로 필터링하여 얻어진 결과를 상기 규칙 데이터베이스에 저장하는 것을 특징으로 하는 유엠엘에스를 기반으로 생물학 문헌으로부터 생물학적 개체명을 인식하는 장치
4 4
제1항에 있어서, 상기 개체명 인식부는 상기 문서 입력부를 통해 제공되는 문서를 대상으로 개체명 후보를 추출하고, 개체명 후보를 구성하는 각 토큰의 자질을 추출한 결과를 결합하여 개체명 후보를 결정하기 위한 규칙을 생성하고, 상기 생성된 규칙을 규칙 데이터베이스에 저장되어 있는 규칙들과 매치하여 개체명 후보에 적합한 기존 규칙들을 추출하며, 추출된 각 규칙들의 가중치와 개체명 범주 결정을 위한 휴리스틱을 적용하여 개체명 후보에 대한 최종적인 의미범주를 결정하여 개체명을 인식하는 것을 특징으로 하는 유엠엘에스를 기반으로 생물학 문헌으로부터 생물학적 개체명을 인식하는 장치
5 5
유엠엘에스로부터 메타시소러스를 입력받아 개체명 인식을 위한 언어자원인 개념어, 단일어 및 범주키텀을 추출하여 각각에 대한 데이터베이스를 구축하는 자원 구축 단계; 상기 각 데이터베이스에 저장된 언어자원들을 이용하여 개념어의 자질을 추출하고 이에 대한 규칙을 구성하여 규칙 데이터베이스에 저장하는 규칙 수집 단계; 및, 문서를 입력받아 개체명 후보에 대한 자질을 추출하고, 상기 추출된 자질을 결합하여 개체명 후보를 결정하기 위한 규칙을 생성하며, 상기 규칙 데이터베이스에 저장되어 있는 규칙들과 상기 생성된 규칙을 매치하여 그 결과를 이용하여 최종 의미범주를 결정하는 개체명 인식 단계를 포함하는 것을 특징으로 하는 유엠엘에스를 기반으로 생물학 문헌으로부터 생물학적 개체명을 인식하는 방법
6 6
제5항에 있어서, 상기 자원 구축 단계는 상기 메타시소러스에 포함된 테이블 중에서 개념어를 나타내는 각 문자열의 의미를 기술하기 위한 MRCON 테이블과 각 개념어에 할당된 의미범주를 기술하기 위한 MRSTY 테이블에 있는 정보를 매핑 조건을 이용하여 매핑함으로써 상기 MRCON 테이블에 저장되어 있는 데이터를 각 의미범주 별로 분할하는 제1단계; 개념집합 분할의 결과로부터 MRCON 테이블의 STR 필드에 있는 값들을 추출해 개념어 데이터베이스에 저장하는 제2단계; 개념어 데이터베이스로부터 단일어를 추출하여 단일어 데이터베이스에 저장하는 제3단계; 및 개념어 데이터베이스로부터 범주키텀을 추출하여 범주키텀 데이터베이스에 저장하는 제4단계를 포함하는 것을 특징으로 하는 유엠엘에스를 기반으로 생물학 문헌으로부터 생물학적 개체명을 인식하는 방법
7 7
제6항에 있어서, 상기 MRCON 및 MRSTY 테이블에 있는 정보를 매핑하는 조건은 MRCON 테이블의 CUI와 MRSTY 테이블의 CUI가 일치하는 경우 MRCON 테이블에 있는 데이터들 중 LAT 필드의 값이 "ENG"인 데이터들만을 MRSTY 테이블의 TUI에 해당하는 값에 따라 서로 다른 집합으로 분할하는 것을 특징으로 하는 유엠엘에스를 기반으로 생물학 문헌으로부터 생물학적 개체명을 인식하는 방법
8 8
제6항에 있어서, 상기 제4단계는 개념어 데이터베이스에 저장되어 있는 개념어들을 이용하여 개체명을 구성하는 각 단어가 가장 많이 출현한 의미범주에서의 분포를 계산하여 임계치로 필터링 하는 것을 특징으로 하는 유엠엘에스를 기반으로 생물학 문헌으로부터 생물학적 개체명을 인식하는 방법
9 9
제5항에 있어서, 상기 규칙 수집 단계는 개념어 데이터베이스에 저장되어 있는 각 개념어에 대해 토큰 별로 자질을 추출하는 제1단계; 및, 자질이 추출된 토큰들을 결합해 규칙을 구성하고 이에 대해 가중치를 계산하여 필터링한 결과를 규칙 데이터베이스에 저장하는 제2단계를 포함하는 것을 특징으로 하는 유엠엘에스를 기반으로 생물학 문헌으로부터 생물학적 개체명을 인식하는 방법
10 10
제9항에 있어서, 상기 제1단계는 생물학적 개체명의 특징을 반영하기 위해 정의된 자질들인 대문자 표현, 영숫자, 특수문자, 전치사 또는 접속사, 단일어 및 범주키텀 자질과 각 자질의 서브타입을 이용하여 개념어 데이터베이스에 저장되어 있는 각 개념어의 토큰들에 대한 자질을 추출하는 것을 특징으로 하는 유엠엘에스를 기반으로 생물학 문헌으로부터 생물학적 개체명을 인식하는 방법
11 11
제9항에 있어서, 상기 제2단계는 상기 제1단계에서 개념어를 토큰화하여 자질을 추출한 결과를 입력받아 토큰이 갖는 자질들의 서브타입에 따라 서브타입의 조합을 모두 고려한 개수만큼의 규칙들을 생성하는 단계; 및 상기 생성된 모든 규칙을 대상으로 각 범주에서 규칙의 출현 분포를 계산하고 임계치로 필터링하여 규칙 데이터베이스를 구성하는 규칙 필터링 단계를 포함하는 것을 특징으로 하는 유엠엘에스를 기반으로 생물학 문헌으로부터 생물학적 개체명을 인식하는 방법
12 12
제5항에 있어서, 상기 개체명 인식 단계는 입력 문서를 대상으로 개체명 후보가 되는 명사 및 명사구를 추출하는 개체명 후보 추출 단계; 개체명 후보의 각 토큰에 대해 자질을 추출하는 자질 추출 단계; 개체명 후보의 각 토큰에 대해 자질을 추출한 결과들을 결합하여 개체명 후보 결정을 위한 규칙을 생성하는 규칙 생성 단계; 생성된 규칙을 규칙 데이터베이스에 저장되어 있는 규칙들과 매치하는 규칙 매치 단계; 및, 개체명 후보들의 최종적인 의미범주를 결정하는 개체명 범주 결정 단계를 포함하는 것을 특징으로 하는 유엠엘에스를 기반으로 생물학 문헌으로부터 생물학적 개체명을 인식하는 방법
13 13
제12항에 있어서, 상기 규칙 매치 단계는 개체명 후보를 결정하기 위한 규칙과 상기 규칙 데이터베이스에 저장되어 있는 규칙들을 완전 매치, 부분 매치 또는 내포 매치의 방식으로 매치하여 개체명 후보를 결정하기에 적합한 기존 규칙들을 추출하는 것을 특징으로 하는 유엠엘에스를 기반으로 하는 생물학 문헌으로부터 생물학적 개체명을 인식하는 방법
14 14
제12항에 있어서, 상기 개체명 범주 결정 단계는 규칙 매치 단계에서 추출된 기존 규칙들의 가중치와 개체명 범주 결정을 위한 휴리스틱을 이용하여 개체명 후보들의 최종적인 의미범주를 결정하여 개체명 인식 결과로서 출력하는 것을 특징으로 하는 유엠엘에스를 기반으로 하는 생물학 문헌으로부터 생물학적 개체명을 인식하는 방법
15 14
제12항에 있어서, 상기 개체명 범주 결정 단계는 규칙 매치 단계에서 추출된 기존 규칙들의 가중치와 개체명 범주 결정을 위한 휴리스틱을 이용하여 개체명 후보들의 최종적인 의미범주를 결정하여 개체명 인식 결과로서 출력하는 것을 특징으로 하는 유엠엘에스를 기반으로 하는 생물학 문헌으로부터 생물학적 개체명을 인식하는 방법
지정국 정보가 없습니다
순번, 패밀리번호, 국가코드, 국가명, 종류의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 패밀리정보 - 패밀리정보 표입니다.
순번 패밀리번호 국가코드 국가명 종류
1 US07403891 US 미국 FAMILY
2 US20050091081 US 미국 FAMILY

DOCDB 패밀리 정보

순번, 패밀리번호, 국가코드, 국가명, 종류의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 패밀리정보 - DOCDB 패밀리 정보 표입니다.
순번 패밀리번호 국가코드 국가명 종류
1 US2005091081 US 미국 DOCDBFAMILY
2 US7403891 US 미국 DOCDBFAMILY
국가 R&D 정보가 없습니다.