맞춤기술찾기

이전대상기술

태깅된 도메인 코퍼스 없이 새로운 도메인에 적용 가능한통계적 HMM 품사 태깅 장치 및 방법

  • 기술번호 : KST2015081749
  • 담당센터 : 대전기술혁신센터
  • 전화번호 : 042-610-2279
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 본 발명은 통계적 HMM(Hidden Markov Model) 품사 태깅 장치 및 방법에 관한 것으로, 적용 도메인에 따라 어휘확률이 달라지는 어휘를 선출하여 그 어휘의 어휘확률을 적용 도메인에 맞추어 갱신함으로써, 많은 비용과 시간이 드는 적용 도메인의 태깅된 코퍼스 없이, 다양한 도메인에서 높은 성능으로 적용할 수 있는 것을 특징으로 한다. 본 발명에 따르면, 새로운 특정 도메인에서 정확도가 떨어지는 기존의 통계적 품사 태깅 방법에 비하여, 품사 태깅의 정확성을 크게 향상시킬 수 있으며, 손쉽게 획득할 수 있는 다양한 도메인의 원시 코퍼스(raw corpus)들을 기반으로 각 도메인 의존 어휘확률만을 새로이 재학습하여 갱신함으로써, 태깅된 도메인 코퍼스 없이 특정 도메인에서의 태깅 정확성을 높일 뿐만 아니라 다양한 도메인에서 높은 정확도의 통계적 품사 태깅을 수행할 수 있는 효과가 있다.품사태깅, 확률, HMM, 도메인, 코퍼스
Int. CL G10L 15/197 (2013.01) G10L 15/06 (2006.01) G10L 15/08 (2006.01) G10L 15/14 (2006.01)
CPC G06F 17/2755(2013.01) G06F 17/2755(2013.01) G06F 17/2755(2013.01)
출원번호/일자 1020060056201 (2006.06.22)
출원인 한국전자통신연구원
등록번호/일자 10-0784730-0000 (2007.12.05)
공개번호/일자 10-2007-0061182 (2007.06.13) 문서열기
공고번호/일자 (20071212) 문서열기
국제출원번호/일자
국제공개번호/일자
우선권정보 대한민국  |   1020050119939   |   2005.12.08
법적상태 등록
심사진행상태 수리
심판사항
구분 신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2006.06.22)
심사청구항수 9

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 한국전자통신연구원 대한민국 대전광역시 유성구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 권오욱 대한민국 대전 서구
2 김영길 대한민국 대전 중구
3 김창현 대한민국 대전 유성구
4 최승권 대한민국 대전 유성구
5 이기영 대한민국 대전 서구
6 노윤형 대한민국 대전 유성구
7 류철 대한민국 대전 서구
8 서영애 대한민국 대전 유성구
9 양성일 대한민국 대전 유성구
10 홍문표 대한민국 대전 유성구
11 박상규 대한민국 대전 유성구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 신영무 대한민국 서울특별시 강남구 영동대로 ***(대치동) KT&G타워 *층(에스앤엘파트너스)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
1 대한민국(산업통상자원부장관) 세종특별자치시 한누리대
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 특허출원서
Patent Application
2006.06.22 수리 (Accepted) 1-1-2006-0440282-66
2 선행기술조사의뢰서
Request for Prior Art Search
2007.04.11 수리 (Accepted) 9-1-9999-9999999-89
3 선행기술조사보고서
Report of Prior Art Search
2007.05.10 수리 (Accepted) 9-1-2007-0025922-09
4 의견제출통지서
Notification of reason for refusal
2007.07.30 발송처리완료 (Completion of Transmission) 9-5-2007-0412735-27
5 [거절이유 등 통지에 따른 의견]의견(답변, 소명)서
[Opinion according to the Notification of Reasons for Refusal] Written Opinion(Written Reply, Written Substantiation)
2007.09.21 수리 (Accepted) 1-1-2007-0685745-62
6 [명세서등 보정]보정서
[Amendment to Description, etc.] Amendment
2007.09.21 보정승인간주 (Regarded as an acceptance of amendment) 1-1-2007-0686073-67
7 등록결정서
Decision to grant
2007.11.30 발송처리완료 (Completion of Transmission) 9-5-2007-0649576-55
8 출원인정보변경(경정)신고서
Notification of change of applicant's information
2009.08.04 수리 (Accepted) 4-1-2009-5150899-36
9 출원인정보변경(경정)신고서
Notification of change of applicant's information
2015.02.02 수리 (Accepted) 4-1-2015-0006137-44
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
(a) 기존 태깅된 코퍼스로부터 태깅 확률 정보를 학습하여 어휘 품사 문맥확률 정보 DB 및 어휘확률 정보 DB를 구축하는 단계;(b) 적용 도메인의 원시 코퍼스(raw corpus)를 기반으로 상기 어휘확률 정보 DB를 도메인 의존적으로 학습하여 갱신하는 단계;(c) 형태소 분석 사전 DB를 기반으로 입력 문장에 대한 형태소 분석을 수행하는 단계;(d) 상기 어휘 품사 문맥확률 정보 DB와 상기 갱신된 어휘확률 정보 DB를 기반으로 상기 형태소 분석 결과에 대하여 통계적 품사 태깅을 수행하는 단계; 및(e) 상기 통계적 품사 태깅 단계를 통해 태깅된 결과에서 태깅 오류 수정 규칙 DB에 따라 오류를 수정하여 출력하는 단계를 포함하며,상기 (b) 단계는,상기 적용 도메인 원시 코퍼스에 대하여 통계적 품사 태깅을 수행하여 자동 태깅된 코퍼스를 구축하고, 상기 자동 태깅된 코퍼스를 기반으로 적용 도메인의 어휘확률 통계치를 추출하는 제 1 단계와,상기 어휘확률 정보 DB의 정보와 상기 제 1 단계에서 추출된 도메인 의존적 어휘확률 통계치 정보를 기반으로 도메인 의존적 어휘를 추출하는 제 2 단계와,상기 제 2 단계에서 추출된 도메인 의존적 어휘의 어휘확률을 조정하여 상기 조정된 도메인 의존적 어휘확률을 기반으로 상기 어휘확률 정보 DB를 갱신하는 제 3 단계를 더 포함하는 것을 특징으로 하는 태깅된 도메인 코퍼스 없이 새로운 도메인에 적용 가능한 통계적 HMM 품사 태깅 방법
2 2
제 1항에 있어서, 상기 (b) 단계에서,상기 제 2 단계에서 추출된 도메인 의존적 어휘의 개수가 소정의 종료 검사수 미만일 경우 상기 제 3 단계의 어휘확률 조정 및 그에 따른 어휘확률 정보 DB 갱신 단계를 종료하는 제 4 단계를 더 포함하는 것을 특징으로 하는 태깅된 도메인 코퍼스 없이 새로운 도메인에 적용 가능한 통계적 HMM 품사 태깅 방법
3 3
제 1 항에 있어서, 상기 제 2 단계에서,상기 도메인 의존적 어휘는,여기에서, f(wi) : 태깅된 코퍼스에 나타나는 단어 wi 의 개수f(wi, tj) : 단어 wi 가 품사 tj 를 가지는 경우 태깅된 코퍼스에서 단어 wi 가 품사 tj로 나타나는 개수f'(wi) : 자동 태깅된 코퍼스에 나타나는 단어 wi 의 개수f'(wi, tj) : 단어 wi 가 품사 tj 를 가지는 경우 자동 태깅된 코퍼스(104)에서 단어 wi 가 품사 tj로 나타나는 개수에 의해 추출되는 것을 특징으로 하는 태깅된 도메인 코퍼스 없이 새로운 도메인에 적용 가능한 통계적 HMM 품사 태깅 방법
4 4
제 1 항에 있어서, 상기 제 3 단계에서,상기 도메인 의존적 어휘확률은, 여기에서, f(wi, tj) : 단어 wi 가 품사 tj 를 가지는 경우 태깅된 코퍼스에서 단어 wi 가 품사 tj로 나타나는 개수f'(wi) : 자동 태깅된 코퍼스에 나타나는 단어 wi 의 개수f'(wi, tj) : 단어 wi 가 품사 tj 를 가지는 경우 자동 태깅된 코퍼스에서 단어 wi 가 품사 tj로 나타나는 개수f(tj) : 품사 tj가 태깅된 코퍼스에서 나타나는 개수N : 태깅된 코퍼스에서의 모든 단어의 출현 빈도 합N’: 자동 태깅된 코퍼스에서의 모든 단어의 출현 빈도 합에 의해 조정되는 것을 특징으로 하는 태깅된 도메인 코퍼스 없이 새로운 도메인에 적용 가능한 통계적 HMM 품사 태깅 방법
5 5
제 2 항에 있어서, 상기 제 4 단계에서,상기 제 2 단계에서 추출된 도메인 의존적 어휘의 개수가 소정의 종료 검사수 이상인 경우 상기 제 3 단계의 어휘확률 조정 및 그에 따른 어휘확률 정보 DB 갱신 단계를 반복하는 단계를 더 포함하는 것을 특징으로 하는 태깅된 도메인 코퍼스 없이 새로운 도메인에 적용 가능한 통계적 HMM 품사 태깅 방법
6 6
형태소 분석 사전 DB를 기반으로 입력 문장을 형태소 분석하는 형태소 분석부;기존 태깅된 코퍼스로부터 태깅 확률 정보를 학습하여 어휘 품사 문맥확률 정보 DB 및 어휘확률 정보 DB를 구축하는 태깅 확률 정보 학습부;적용 도메인의 원시 코퍼스를 기반으로 상기 어휘확률 정보 DB를 도메인 의존적으로 학습하여 갱신하는 도메인 의존 확률 정보 학습부;상기 어휘 품사 문맥확률 정보 DB 및 상기 갱신된 어휘확률 정보 DB를 기반으로 상기 형태소 분석부를 통해 형태소 분석된 결과에 대하여 통계적 품사 태깅을 수행하는 통계적 품사 태깅부; 및상기 통계적 품사 태깅부를 통해 태깅된 결과에서 태깅 오류 수정 규칙 DB에 따라 오류를 수정하여 출력하는 태깅 오류 정정부를 포함하는 것을 특징으로 하는 태깅된 도메인 코퍼스 없이 새로운 도메인에 적용 가능한 통계적 HMM 품사 태깅 장치
7 7
제 6항에 있어서, 상기 도메인 의존 확률 정보 학습부는,상기 적용 도메인 원시 코퍼스를 기반으로 자동 태깅된 코퍼스를 구축하고,상기 자동 태깅된 코퍼스를 기반으로 현재 도메인의 어휘확률 통계치를 추출하여, 상기 어휘확률 정보 DB 및 상기 추출된 도메인 의존적 어휘확률 통계치 정보를 기반으로 도메인 의존적 어휘를 추출하며,상기 추출된 도메인 의존적 어휘의 어휘확률을 조정하여 상기 조정된 도메인 의존적 어휘확률을 기반으로 상기 어휘확률 정보 DB를 갱신하는 것을 특징으로 하는 태깅된 도메인 코퍼스 없이 새로운 도메인에 적용 가능한 통계적 HMM 품사 태깅 장치
8 8
제 7항에 있어서, 상기 도메인 의존 확률 정보 학습부는,상기 추출된 도메인 의존적 어휘의 개수가 소정의 종료 검사수 미만일 경우 도메인 의존 어휘확률 학습을 종료하며, 상기 추출된 도메인 의존적 어휘의 개수가 소정의 종료 검사수 이상인 경우 도메인 의존 어휘확률 학습을 반복하는 것을 특징으로 하는 태깅된 도메인 코퍼스 없이 새로운 도메인에 적용 가능한 통계적 HMM 품사 태깅 장치
9 9
제 6항에 있어서, 상기 갱신된 어휘확률 정보 DB에는, 적용 도메인 의존 어휘확률 정보가 저장된 것을 특징으로 하는 태깅된 도메인 코퍼스 없이 새로운 도메인에 적용 가능한 통계적 HMM 품사 태깅 장치
지정국 정보가 없습니다
패밀리정보가 없습니다
국가 R&D 정보가 없습니다.