맞춤기술찾기

이전대상기술

문서정보 학습기반 통계적 HMM 품사 태깅 장치 및 그 방법

  • 기술번호 : KST2015085350
  • 담당센터 : 대전기술혁신센터
  • 전화번호 : 042-610-2279
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 본 발명은 문서정보 학습기반 통계적 HMM 품사 태깅 장치 및 그 방법에 관한 것으로, 입력되는 문서에 따라 달라지는 문맥 확률, 어휘 확률과 태깅 오류 수정 규칙을 실시간으로 추출하여 품사 태깅하고자 하는 입력 문서의 장르와 도메인에 의존적인 확률 정보와 수정 규칙 등을 추출할 수 있다. 또한, 본 발명은 기학습된 코퍼스에서 나타나지 않는 다양한 장르나 도메인의 문서에 대해서도 실시간으로 입력 문서에서 학습된 정보를 사용함으로써, 다양한 장르나 도메인의 문서에 대한 태깅 정확성을 높일 수 있으며, 문서에 대한 언어적 분석을 필요로 하는 자동번역 및 정보검색 등의 시스템에서 언어분석 정확도를 향상시켜 전체 번역 성능 및 정확성을 향상시킬 수 있다. 형태소, 품사 태깅, HMM, 학습 기반
Int. CL G06F 17/27 (2006.01) G06F 17/00 (2006.01) G06F 17/30 (2006.01)
CPC G06F 17/2705(2013.01) G06F 17/2705(2013.01) G06F 17/2705(2013.01) G06F 17/2705(2013.01)
출원번호/일자 1020090075778 (2009.08.17)
출원인 한국전자통신연구원
등록번호/일자 10-1250900-0000 (2013.03.29)
공개번호/일자 10-2011-0018140 (2011.02.23) 문서열기
공고번호/일자 (20130404) 문서열기
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 등록
심사진행상태 수리
심판사항
구분 신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2009.08.17)
심사청구항수 12

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 한국전자통신연구원 대한민국 대전광역시 유성구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 권오욱 대한민국 대전광역시 서구
2 최승권 대한민국 대전광역시 유성구
3 이기영 대한민국 대전광역시 서구
4 노윤형 대한민국 대전광역시 유성구
5 김창현 대한민국 대전광역시 유성구
6 서영애 대한민국 대전광역시 유성구
7 양성일 대한민국 대전광역시 유성구
8 김운 중국 대전광역시 유성구
9 황금하 중국 대전광역시 유성구
10 오영순 중국 대전광역시 유성구
11 윤창호 중국 대전광역시 유성구
12 박은진 대한민국 대전광역시 유성구
13 김영길 대한민국 대전광역시 중구
14 박상규 대한민국 대전광역시 유성구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 제일특허법인(유) 대한민국 서울특별시 서초구 마방로 ** (양재동, 동원F&B빌딩)
2 김원준 대한민국 서울특별시 서초구 마방로 ** (양재동, 동원F&B빌딩)(제일특허법인(유))

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
1 한국전자통신연구원 대전광역시 유성구
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2009.08.17 수리 (Accepted) 1-1-2009-0500867-65
2 의견제출통지서
Notification of reason for refusal
2012.08.29 발송처리완료 (Completion of Transmission) 9-5-2012-0507057-47
3 [명세서등 보정]보정서
[Amendment to Description, etc.] Amendment
2012.10.29 보정승인간주 (Regarded as an acceptance of amendment) 1-1-2012-0882323-92
4 [거절이유 등 통지에 따른 의견]의견(답변, 소명)서
[Opinion according to the Notification of Reasons for Refusal] Written Opinion(Written Reply, Written Substantiation)
2012.10.29 수리 (Accepted) 1-1-2012-0882321-01
5 등록결정서
Decision to grant
2013.03.26 발송처리완료 (Completion of Transmission) 9-5-2013-0203078-99
6 출원인정보변경(경정)신고서
Notification of change of applicant's information
2015.02.02 수리 (Accepted) 4-1-2015-0006137-44
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
입력 문서를 형태소 분석한 문장에 대하여 기학습된 문맥 확률 정보 DB 및 어휘 확률 정보 DB와 상기 입력 문서에서 학습되어 실시간 문맥 확률 정보 DB 및 실시간 어휘 확률 정보 DB에 저장된 문맥 확률 및 어휘 확률을 활용하여 실시간 통계적 품사 태깅을 수행한 태깅 결과를 제공하는 실시간 학습기반 통계적 품사 태깅부와,상기 태깅 결과에 대하여 기구축된 태깅 오류 수정 규칙 DB를 통해 오류를 제1정정하고, 실시간 태깅 오류 수정 규칙 DB에 저장된 실시간 태깅 오류 수정 규칙으로 활용하여 제2정정하는 실시간 학습기반 태깅 오류 정정부상기 문맥 확률 정보 DB와 상기 어휘 확률 정보 DB를 이용하여 상기 입력 문서를 품사 태깅한 후 상기 입력 문서에서 출현하는 문맥 확률 정보와 어휘 확률 정보를 추출하여 추출된 정보에 따라 상기 실시간 문맥 확률 정보 DB와 상기 실시간 어휘 확률 정보 DB를 구축하고, 상기 입력 문서의 태깅된 결과에서 어휘 및 품사 패턴을 분석하여 상기 실시간 태깅 오류 수정 규칙 DB를 구축하는 실시간 문서정보 학습부를 포함하고,상기 실시간 학습기반 태깅 오류 정정부는, 상기 태깅 결과에 대하여 상기 태깅 오류 수정 규칙 DB를 통해 오류를 정정하고, 상기 정정이 안된 부분이 상기 실시간 태깅 오류 수정 규칙 DB의 규칙과 일치할 경우 상기 실시간 태깅 오류 수정 규칙 DB에 저장된 어휘 나열에서 긍정적인 확률(긍정적인 빈도수 / (긍정적인 빈도수 + 부정적인 확률))이 0
2 2
제 1 항에 있어서, 상기 실시간 문서정보 학습부는, 상기 입력 문서에 대하여 문장의 단위로 분리하는 문장 분리부와, 상기 문장에 대하여 형태소 분석 사전 데이터베이스(DB)를 통해 형태소 분석하는 형태소 분석부와,형태소 분석한 상기 문장에 대하여 상기 문맥 확률 정보 DB 및 상기 어휘 확률 정보 DB에 저장된 문맥 확률 및 어휘 확률의 통계 정보를 활용시켜 통계적 품사 태깅을 수행한 품사 태깅 결과를 제공하는 통계적 품사 태깅부와,상기 품사 태깅 결과에 대하여 상기 태깅 오류 수정 규칙 DB에 저장된 태깅 오류 수정 규칙들을 통해 오류를 정정하여 생성시킨 문장 단위의 최종 태깅 결과를 제공하는 태깅 오류 정정부와,상기 최종 태깅 결과에 대하여 실시간 확률 정보로 학습시켜 생성시킨 어휘 확률을 구하기 위한 단어, 빈도수, 문맥 확률을 구하기 위한 n-gram 정보를 상기 실시간 문맥 확률 정보 DB와 상기 실시간 어휘 확률 정보 DB 각각에 저장하는 실시간 확률 정보 학습부와,상기 최종 태깅 결과에 대하여 태깅 오류 수정 규칙들을 통해 추출시킨 반복 사용되는 어휘 구문과 상기 어휘 구문이 태깅된 품사 나열을 상기 실시간 태깅 오류 수정 규칙 DB에 저장하는 태깅 오류 수정 규칙 추출부를 포함하는 문서정보 학습기반 통계적 HMM 품사 태깅 장치
3 3
제 2 항에 있어서, 상기 실시간 확률 정보 학습부는,상기 실시간 문맥 확률 정보 DB와 상기 실시간 어휘 확률 정보 DB에 저장된 상기 어휘 확률을 구하기 위한 단어와 상기 빈도수와 상기 문맥 확률을 구하기 위한 상기 n-gram 정보를 상기 품사 태깅을 수행한 후에 삭제하는 문서정보 학습기반 통계적 HMM 품사 태깅 장치
4 4
제 2 항에 있어서, 상기 태깅 오류 수정 규칙 추출부는, 상기 실시간 태깅 오류 수정 규칙 DB에 저장된 상기 반복 사용되는 어휘 구문과 상기 어휘 구문이 태깅된 품사 나열을 상기 품사 태깅을 수행한 후에 삭제하는 문서정보 학습기반 통계적 HMM 품사 태깅 장치
5 5
제 2 항에 있어서, 상기 형태소 분석부에 의해 형태소 분석한 상기 문장에 대하여 003c#수학식003e#(여기서, 상기 P(ti|ti-1,ti-2,ti-3)는 문맥 확률이고, 상기 P(wi|ti)는 어휘 확률이며, 상기 문맥 확률과 상기 어휘 확률은 상기 입력 문서에서도 얻은 정보임)에 적용하여 상기 입력 문장의 단어들에 대한 품사 나열(t1, t2,
6 6
제 5 항에 있어서, 상기 문맥 확률(P(ti|ti-1,ti-2,ti-3))은,003c#수학식003e#(여기서, 상기 P''(ti|ti-1,ti-2,ti-3)는 문맥 확률이고, 상기 P'의 확률값은 상기 문맥 확률 정보 DB 및 상기 어휘 확률 정보 DB에 저장된 품사 태깅된 코퍼스로부터 기학습된 정보를 통해 얻고, 상기 P''의 확률값은 상기 실시간 문맥 확률 정보 DB 및 상기 실시간 어휘 확률 정보 DB에 저장된 확률 정보를 이용하여 얻으며, 상기 λ1 + λ2 + λ3 + λ4 = 1인 상기 λ1, λ2, λ3, λ4는 문서 단위로 품사 태깅된 학습코퍼스를 통하여 선형보간법에 의해 얻음)를 통해 얻는 문서정보 학습기반 통계적 HMM 품사 태깅 장치
7 7
제 6 항에 있어서, 상기 어휘 확률(P(wi|ti))은, 003c#수학식003e#(여기서, 상기 P'의 확률값은 상기 문맥 확률 정보 DB 및 상기 어휘 확률 정보 DB에 저장된 품사 태깅된 코퍼스로부터 기학습된 정보를 통해 얻고, 상기 P''의 확률값은 상기 실시간 문맥 확률 정보 DB 및 상기 실시간 어휘 확률 정보 DB에 저장된 확률 정보를 이용하여 얻으며, 상기 α와 β는 문서 단위로 품사 태깅된 학습코퍼스로부터 실험값에 의하여 상기 입력 문서의 언어적 특징을 기학습된 언어적 특징을 통해 얻음)를 통해 얻는 문서정보 학습기반 통계적 HMM 품사 태깅 장치
8 8
삭제
9 9
입력 문서에 대하여 문장의 단위로 분리하는 단계와, 상기 문장에 대하여 형태소 분석 사전 데이터베이스(DB)를 통해 형태소 분석하는 단계와, 형태소 분석한 상기 문장에 대하여 기학습된 문맥 확률 정보 DB 및 어휘 확률 정보 DB와 상기 입력 문서에서 학습되어 실시간 문맥 확률 정보 DB 및 실시간 어휘 확률 정보 DB에 저장된 문맥 확률 및 어휘 확률을 활용하여 실시간 통계적 품사 태깅을 수행하는 단계와,상기 실시간 통계적 품사 태깅의 결과에 대하여 기구축된 태깅 오류 수정 규칙 DB를 통해 오류를 제1정정하고, 실시간 태깅 오류 수정 규칙 DB에 저장된 실시간 태깅 오류 수정 규칙으로 활용하여 제2정정시킨 태깅 결과를 출력하는 단계를 포함하고,상기 출력하는 단계는,상기 태깅 결과에 대하여 상기 태깅 오류 수정 규칙 DB를 통해 오류를 정정하고, 상기 정정이 안된 부분이 상기 실시간 태깅 오류 수정 규칙 DB의 규칙과 일치할 경우 상기 실시간 태깅 오류 수정 규칙 DB에 저장된 어휘 나열에서 긍정적인 확률(긍정적인 빈도수 / (긍정적인 빈도수 + 부정적인 확률))이 0
10 10
제 9 항에 있어서, 상기 분리하는 단계 이전에, 상기 문맥 확률 정보 DB와 상기 어휘 확률 정보 DB를 이용하여 상기 입력 문서를 품사 태깅한 후 상기 입력 문서에서 출현하는 문맥 확률 정보와 어휘 확률 정보를 추출하여 추출된 정보에 따라 상기 실시간 문맥 확률 정보 DB와 상기 실시간 어휘 확률 정보 DB를 구축하고, 상기 입력 문서의 태깅된 결과에서 어휘 및 품사 패턴을 분석하여 상기 실시간 태깅 오류 수정 규칙 DB를 구축하는 단계를 더 포함하는 문서정보 학습기반 통계적 HMM 품사 태깅 방법
11 11
제 10 항에 있어서, 상기 구축하는 단계는, 상기 형태소 분석한 상기 문장에 대하여 상기 문맥 확률 정보 DB 및 상기 어휘 확률 정보 DB에 저장된 문맥 확률 및 어휘 확률의 통계 정보를 활용시켜 통계적 품사 태깅을 수행하는 단계와,상기 통계적 품사 태깅의 결과에 대하여 상기 태깅 오류 수정 규칙 DB에 저장된 태깅 오류 수정 규칙들을 통해 오류를 정정하여 생성시킨 문장 단위의 최종 태깅 결과를 제공하는 단계와, 상기 최종 태깅 결과에 대하여 실시간 확률 정보로 학습시켜 생성시킨 어휘 확률을 구하기 위한 단어, 빈도수, 문맥 확률을 구하기 위한 n-gram 정보를 상기 실시간 문맥 확률 정보 DB와 상기 실시간 어휘 확률 정보 DB 각각에 제1저장하는 단계와, 상기 최종 태깅 결과에 대하여 태깅 오류 수정 규칙들을 통해 추출시킨 반복 사용되는 어휘 구문과 상기 어휘 구문이 태깅된 품사 나열을 상기 실시간 태깅 오류 수정 규칙 DB에 제2저장하는 단계를 포함하는 문서정보 학습기반 통계적 HMM 품사 태깅 방법
12 12
제 11 항에 있어서, 상기 제1저장하는 단계는,상기 실시간 문맥 확률 정보 DB와 상기 실시간 어휘 확률 정보 DB에 저장된 상기 어휘 확률을 구하기 위한 단어와 상기 빈도수와 상기 문맥 확률을 구하기 위한 n-gram 정보를 상기 품사 태깅을 수행한 후에 삭제하는 문서정보 학습기반 통계적 HMM 품사 태깅 방법
13 13
제 11 항에 있어서, 상기 제2저장하는 단계는,상기 실시간 태깅 오류 수정 규칙 DB에 저장된 상기 반복 사용되는 어휘 구문과 상기 어휘 구문이 태깅된 품사 나열을 상기 품사 태깅을 수행한 후에 삭제하는 문서정보 학습기반 통계적 HMM 품사 태깅 방법
14 14
삭제
지정국 정보가 없습니다
패밀리정보가 없습니다
순번, 연구부처, 주관기관, 연구사업, 연구과제의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 국가R&D 연구정보 정보 표입니다.
순번 연구부처 주관기관 연구사업 연구과제
1 지식경제부 한국전자통신연구원 한중영 대화체 및 기업문서 자동번역 기술개발