맞춤기술찾기

이전대상기술

한국어 텍스트 상의 개체명 인식 방법

  • 기술번호 : KST2015078956
  • 담당센터 : 대전기술혁신센터
  • 전화번호 : 042-610-2279
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 본 발명은 한국어 텍스트 상의 개체명 인식 장치 및 방법에 관한 것으로서, 형태소 분석기가 입력 텍스트의 형태소를 분석하여 각각의 형태소에 대한 개체명 상태정보들의 리스트로 된 HMM 자료 구조를 생성하면, 개체명 인식기가 각각의 형태소들에 대한 문자형 자질, 개체명 자질, 결합명사/접사 자질, 인접명사 자질을 인식한 후, 코트레이닝 학습을 진행하여 추출한 HMM 개체명 통계정보를 이용하여 입력 텍스트의 형태소에 대하여 전이확률과 어휘확률을 각각 할당하고, 각각의 형태소 어휘에 대한 해당 개체명 상태정보들에 대하여 좌우 문맥을 고려한 포워드/백워드 확률을 다시 계산하여 반영한 다음, 비터비 알고리즘을 통해 형태소 리스트로 구성된 입력 텍스트의 문장들을 구성하는 형태소들의 최적 HMM 개체명 상태정보 경로를 결정하여 개체명을 인식하도록 되어 있으며, 이에 따라서, 수작업으로 구축된 학습 데이터를 통한 통계 정보 구축에 더하여 일반 텍스트를 이용한 통계 정보 구축을 확장하여 한국어에 적절한 성능의 개체명 인식 결과를 얻을 수 있는 장점이 있다. 개체명, HMM, CoTraining, 텍스트 마이닝, 자연어, 정보 추출, 정보 검색
Int. CL G06F 17/27 (2006.01)
CPC G06F 17/278(2013.01) G06F 17/278(2013.01)
출원번호/일자 1020020078305 (2002.12.10)
출원인 한국전자통신연구원
등록번호/일자 10-0484943-0000 (2005.04.14)
공개번호/일자 10-2004-0050461 (2004.06.16) 문서열기
공고번호/일자 (20050425) 문서열기
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 소멸
심사진행상태 수리
심판사항
구분
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2002.12.10)
심사청구항수 3

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 한국전자통신연구원 대한민국 대전광역시 유성구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 정의석 대한민국 대전광역시유성구
2 왕지현 대한민국 충청북도청주시흥덕구
3 윤보현 대한민국 대전광역시유성구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 권태복 대한민국 서울시 강남구 테헤란로*길 **, *층 (역삼동, 청원빌딩)(아리특허법률사무소)
2 이화익 대한민국 서울시 강남구 테헤란로*길** (역삼동,청원빌딩) *층,***,***호(영인국제특허법률사무소)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
1 한국전자통신연구원 대한민국 대전광역시 유성구
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 특허출원서
Patent Application
2002.12.10 수리 (Accepted) 1-1-2002-0409845-40
2 선행기술조사의뢰서
Request for Prior Art Search
2004.06.09 수리 (Accepted) 9-1-9999-9999999-89
3 선행기술조사보고서
Report of Prior Art Search
2004.07.14 수리 (Accepted) 9-1-2004-0043607-39
4 의견제출통지서
Notification of reason for refusal
2004.10.01 발송처리완료 (Completion of Transmission) 9-5-2004-0414989-49
5 지정기간연장신청서
Request for Extension of Designated Period
2004.11.12 수리 (Accepted) 1-1-2004-0525739-76
6 지정기간연장신청서
Request for Extension of Designated Period
2005.01.03 수리 (Accepted) 1-1-2005-0001207-98
7 의견서
Written Opinion
2005.02.01 수리 (Accepted) 1-1-2005-0060716-32
8 명세서 등 보정서
Amendment to Description, etc.
2005.02.01 보정승인간주 (Regarded as an acceptance of amendment) 1-1-2005-0060717-88
9 등록결정서
Decision to grant
2005.04.04 발송처리완료 (Completion of Transmission) 9-5-2005-0155488-68
10 출원인정보변경(경정)신고서
Notification of change of applicant's information
2009.08.04 수리 (Accepted) 4-1-2009-5150899-36
11 출원인정보변경(경정)신고서
Notification of change of applicant's information
2015.02.02 수리 (Accepted) 4-1-2015-0006137-44
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
삭제
2 2
삭제
3 3
삭제
4 4
삭제
5 5
삭제
6 6
삭제
7 7
형태소 분석기가 입력 텍스트의 형태소를 분석하여 형태소 리스트를 구성하는 단계와; 형태소 분석기가 분석된 각각의 형태소에 대한 개체명 상태정보들의 리스트로 된 HMM 자료 구조를 생성하는 단계; 개체명 인식기가 개체명 사전 DB와 결합명사/접사사전 DB, 인접명사 사전 DB를 이용하여 상기 형태소 분석기에 의해 분석된 각각의 형태소들에 대한 문자형 자질, 개체명 자질, 결합명사/접사 자질, 인접명사 자질을 인식하는 단계; 개체명 인식기가 코트레이닝 학습기에 의해 추출된 HMM 개체명 통계정보를 이용하여 입력 텍스트의 형태소에 대하여 전이확률과 어휘확률을 각각 할당하는 단계; 개체명 인식기가 전이확률과 어휘확률이 할당된 각각의 형태소 어휘에 대한 해당 개체명 상태정보들에 대하여 좌우 문맥을 고려한 포워드/백워드 확률을 다시 계산하여 반영하는 단계; 및 개체명 인식기가 비터비 알고리즘을 통해 형태소 리스트로 구성된 입력 텍스트의 문장들을 구성하는 형태소들의 최적 HMM 개체명 상태정보 경로를 결정하여 개체명을 인식하는 단계 로 이루어지는 것을 특징으로 하는 한국어 텍스트 상의 개체명 인식 방법
8 8
제 7 항에 있어서, 상기 개체명 인식기가 입력 텍스트의 형태소에 대하여 전이확률과 어휘확률을 각각 할당하는 단계에서는 코트레이닝 학습기가 통계정보 추출기에 의해 개체명 태깅 텍스트 집합으로부터 추출된 HMM 개체명 통계정보를 기반으로 코트레이닝 학습을 진행하여 일반 학습 텍스트 집합으로부터 추출한 HMM 개체명 통계정보를 이용하여 입력 텍스트의 형태소에 대하여 전이확률과 어휘확률을 각각 할당하는 것을 특징으로 하는 한국어 텍스트 상의 개체명 인식 방법
9 9
제 8 항에 있어서, 상기 코트레이닝 학습기가 코트레이닝 학습을 진행하여 일반 학습 텍스트 집합으로부터 HMM 개체명 통계정보를 추출하는 방법은 현재의 학습 뷰와 학습 횟수를 결정하고 일반 학습 텍스트 집합으로부터 일정량의 텍스트 집합을 랜덤 샘플링하는 단계와; 랜덤 샘플링된 텍스트 집합에 대하여 코트레이닝 학습 진행 방향을 결정하기 위하여 현재 지정된 학습 뷰가 포워드 모델인지, 백워드 모델인지 판별하는 단계; 현재의 학습 뷰가 포워드 모델로 판별되면 상기 통계정보 추출기가 개체명 태깅 텍스트 집합으로부터 추출한 HMM 통계정보를 기반으로 포워드 모델에 대한 HMM 기반 개체명 태깅 작업을 진행하여 개체명 태깅 결과로부터 최상위 확률값을 갖는 n개의 개체명 태깅 결과를 추출하여 새로운 HMM 통계 학습 데이터로 추가하는 단계; 현재의 학습 뷰가 백워드 모델로 판별되면 상기 통계정보 추출기가 개체명 태깅 텍스트 집합으로부터 추출한 HMM 통계정보를 기반으로 백워드 모델에 대한 HMM 기반 개체명 태깅 작업을 진행하여 개체명 태깅 결과로부터 최상위 확률값을 갖는 n개의 개체명 태깅 결과를 추출하여 새로운 HMM 통계 학습 데이터로 추가하는 단계; 상기 최상위 확률값을 갖는 n개의 개체명 태깅 결과를 추출하여 새로운 HMM 통계학습 데이터로 추가한 후 현재의 학습 뷰가 포워드 모델인지, 백워드 모델인지를 다시 판별하는 단계; 현재의 학습 뷰가 포워드 모델로 판별되면 개체명 태깅 결과로부터 백워드 모델에 대한 HMM 통계정보를 추출하여 통계정보DB에 저장한 다음 백워드 모델 학습 데이터 갱신 작업을 진행하고 현재 학습 뷰를 백워드 모델로 변경하는 단계; 현재의 학습 뷰가 백워드 모델로 판별되면 개체명 태깅 결과로부터 포워드 모델에 대한 HMM 통계정보를 추출하여 통계정보DB에 저장한 다음 포워드 모델 학습 데이터 갱신 작업을 진행하고 현재 학습 뷰를 포워드 모델로 변경하는 단계; 및 현재의 학습 뷰를 백워드 모델이나 포워드 모델로 변경한 후 현재 진행된 학습 횟수가 기 결정된 학습 횟수가 될 때까지 상기 일반 학습 텍스트 집합에 대한 랜덤 샘플링 작업 단계와 현재의 학습 뷰를 백워드 모델이나 포워드 모델로 변경하는 단계까지의 과정을 반복 진행하는 단계 로 이루어지는 것을 특징으로 하는 한국어 텍스트 상의 개체명 인식 방법
10 9
제 8 항에 있어서, 상기 코트레이닝 학습기가 코트레이닝 학습을 진행하여 일반 학습 텍스트 집합으로부터 HMM 개체명 통계정보를 추출하는 방법은 현재의 학습 뷰와 학습 횟수를 결정하고 일반 학습 텍스트 집합으로부터 일정량의 텍스트 집합을 랜덤 샘플링하는 단계와; 랜덤 샘플링된 텍스트 집합에 대하여 코트레이닝 학습 진행 방향을 결정하기 위하여 현재 지정된 학습 뷰가 포워드 모델인지, 백워드 모델인지 판별하는 단계; 현재의 학습 뷰가 포워드 모델로 판별되면 상기 통계정보 추출기가 개체명 태깅 텍스트 집합으로부터 추출한 HMM 통계정보를 기반으로 포워드 모델에 대한 HMM 기반 개체명 태깅 작업을 진행하여 개체명 태깅 결과로부터 최상위 확률값을 갖는 n개의 개체명 태깅 결과를 추출하여 새로운 HMM 통계 학습 데이터로 추가하는 단계; 현재의 학습 뷰가 백워드 모델로 판별되면 상기 통계정보 추출기가 개체명 태깅 텍스트 집합으로부터 추출한 HMM 통계정보를 기반으로 백워드 모델에 대한 HMM 기반 개체명 태깅 작업을 진행하여 개체명 태깅 결과로부터 최상위 확률값을 갖는 n개의 개체명 태깅 결과를 추출하여 새로운 HMM 통계 학습 데이터로 추가하는 단계; 상기 최상위 확률값을 갖는 n개의 개체명 태깅 결과를 추출하여 새로운 HMM 통계학습 데이터로 추가한 후 현재의 학습 뷰가 포워드 모델인지, 백워드 모델인지를 다시 판별하는 단계; 현재의 학습 뷰가 포워드 모델로 판별되면 개체명 태깅 결과로부터 백워드 모델에 대한 HMM 통계정보를 추출하여 통계정보DB에 저장한 다음 백워드 모델 학습 데이터 갱신 작업을 진행하고 현재 학습 뷰를 백워드 모델로 변경하는 단계; 현재의 학습 뷰가 백워드 모델로 판별되면 개체명 태깅 결과로부터 포워드 모델에 대한 HMM 통계정보를 추출하여 통계정보DB에 저장한 다음 포워드 모델 학습 데이터 갱신 작업을 진행하고 현재 학습 뷰를 포워드 모델로 변경하는 단계; 및 현재의 학습 뷰를 백워드 모델이나 포워드 모델로 변경한 후 현재 진행된 학습 횟수가 기 결정된 학습 횟수가 될 때까지 상기 일반 학습 텍스트 집합에 대한 랜덤 샘플링 작업 단계와 현재의 학습 뷰를 백워드 모델이나 포워드 모델로 변경하는 단계까지의 과정을 반복 진행하는 단계 로 이루어지는 것을 특징으로 하는 한국어 텍스트 상의 개체명 인식 방법
지정국 정보가 없습니다
패밀리정보가 없습니다
국가 R&D 정보가 없습니다.