맞춤기술찾기

이전대상기술

키워드 기반 N-gram 언어모델 구축 방법

  • 기술번호 : KST2015094907
  • 담당센터 : 대전기술혁신센터
  • 전화번호 : 042-610-2279
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 본 발명은 컴퓨터를 사용하여 음성을 인식하여 이를 문자로 변환해주는 음성 인식기 등에서 음성 인식 시 사용되는 언어모델을 구축하는 방법에 관한 것이다. 본 발명은 어휘를 추출하기 위한 대상이 되는 텍스트 코퍼스를 순수 한글 문자만 포함되도록 전처리하고, 상기 전처리된 텍스트 코퍼스의 어절을 구성하는 형태소에 대한 품사 태깅을 수행하여 형태소를 분석하고, 상기 형태소를 의사형태소 단위로 병합시키는 제1 단계와, 상기 제1 단계를 통해 처리된 어휘 추출 대상이 되는 텍스트 코퍼스에서 키워드 품사로 구성된 문장 코퍼스를 추출하는 제2 단계와, 상기 추출된 키워드 품사로 구성된 문장 코퍼스를 사용하여 키워드 어휘사전을 작성하고, 상기 어휘사전을 통해 키워드 N-gram 언어모델 및 키워드 발음사전을 구축하는 제3 단계를 포함하는 키워드 기반 N-gram 언어모델 구축 방법을 제공한다. 본 발명에 의하면, 내용어를 중심으로 하는 키워드 기반의 n-gram 언어모델을 구축하는 방법을 제공함으로써, 자연스러운 발성에 대한 음성인식 성능을 향상시키는 효과가 있다. 음성인식, 어휘사전, 언어모델, 코퍼스, N-gram
Int. CL G10L 15/02 (2006.01)
CPC G10L 15/063(2013.01) G10L 15/063(2013.01) G10L 15/063(2013.01) G10L 15/063(2013.01)
출원번호/일자 1020020079354 (2002.12.12)
출원인 한국전자통신연구원
등록번호/일자 10-0474359-0000 (2005.02.22)
공개번호/일자 10-2004-0051426 (2004.06.18) 문서열기
공고번호/일자 (20050310) 문서열기
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 소멸
심사진행상태 수리
심판사항
구분
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2002.12.12)
심사청구항수 3

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 한국전자통신연구원 대한민국 대전광역시 유성구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 김현숙 대한민국 대전광역시유성구
2 정의정 대한민국 대전광역시서구
3 전형배 대한민국 서울특별시성북구
4 이영직 대한민국 대전광역시유성구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 특허법인씨엔에스 대한민국 서울 강남구 언주로 **길 **, 대림아크로텔 *층(도곡동)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
1 한국전자통신연구원 대한민국 대전 유성구
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 특허출원서
Patent Application
2002.12.12 수리 (Accepted) 1-1-2002-0413583-22
2 선행기술조사의뢰서
Request for Prior Art Search
2004.12.15 수리 (Accepted) 9-1-9999-9999999-89
3 선행기술조사보고서
Report of Prior Art Search
2005.01.18 수리 (Accepted) 9-1-2005-0002073-98
4 등록결정서
Decision to grant
2005.02.19 발송처리완료 (Completion of Transmission) 9-5-2005-0074553-16
5 출원인정보변경(경정)신고서
Notification of change of applicant's information
2009.08.04 수리 (Accepted) 4-1-2009-5150899-36
6 출원인정보변경(경정)신고서
Notification of change of applicant's information
2015.02.02 수리 (Accepted) 4-1-2015-0006137-44
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
어휘를 추출하기 위한 대상이 되는 텍스트 코퍼스를 순수 한글 문자만 포함되도록 전처리하고, 상기 전처리된 텍스트 코퍼스의 어절을 구성하는 형태소에 대한 품사 태깅을 수행하여 형태소를 분석하고, 상기 형태소를 의사형태소 단위로 병합시키는 제1 단계; 상기 제1 단계를 통해 처리된 어휘 추출 대상이 되는 텍스트 코퍼스에서 키워드 품사로 구성된 문장 코퍼스를 추출하는 제2 단계; 및 상기 추출된 키워드 품사로 구성된 문장 코퍼스를 사용하여 키워드 어휘사전을 작성하고, 상기 어휘사전을 통해 키워드 N-gram 언어모델 및 키워드 발음사전을 구축하는 제3 단계를 포함하는 키워드 기반 N-gram 언어모델 구축 방법
2 2
제1항에 있어서, 상기 제2 단계는, 어휘를 추출해야 하는 대상이 되는 태깅된 코퍼스 입력 파일과, 키워드 품사를 추출한 결과를 저장하는 출력 파일을 열고, 상기 입력 파일로부터 1개의 문장을 읽어들이고, 상기 읽어들인 1개의 문장에 대한 문자열에서 공백이 나오면 어휘로 분리하여 배열에 저장하는 제1 과정; 상기 읽어들인 1개의 문장의 전체 어휘수를 계산하고, 전체 어휘수에 따른 배열 인덱스를 초기화하고, 배열에 저장된 어휘가 키워드 품사에 해당하는지 검사하고, 상기 검사한 어휘가 키워드 품사인 경우에는 상기 출력 파일에 저장한 후 배열 인덱스를 1 증가시키고, 상기 검사한 어휘가 키워드 품사가 아닌 경우에는 바로 배열 인덱스를 1 증가시키는 제2 과정; 배열 인덱스를 참조하여 상기 읽어들인 1개의 문장의 모든 어휘에 대한 검사가 끝났는지를 확인하고, 검사가 끝나지 않았으면 다시 문장 내의 다른 어휘에 대한 검사를 반복하고, 끝난 경우에는 입력 파일에 존재하는 모든 문장을 읽었는지 확인하고, 확인 결과 입력 파일의 모든 문장을 읽지 않은 경우에는 상기한 과정을 모든 문장에 대해 반복하고, 모든 문장을 읽은 경우에는 입력 파일 및 출력 파일을 닫는 제3 과정을 포함하는 것을 특징으로 하는 키워드 기반 N-gram 언어모델 구축 방법
3 3
제1항 또는 제2항에 있어서, 상기 키워드 품사는, 명사, 수사, 대명사, 부사, 관형사, 형용사, 동사, 용언, 종결어미, 의지감탄사 또는 외국어를 포함하는 것을 특징으로 하는 N-gram 언어모델 구축방법
4 3
제1항 또는 제2항에 있어서, 상기 키워드 품사는, 명사, 수사, 대명사, 부사, 관형사, 형용사, 동사, 용언, 종결어미, 의지감탄사 또는 외국어를 포함하는 것을 특징으로 하는 N-gram 언어모델 구축방법
지정국 정보가 없습니다
패밀리정보가 없습니다
국가 R&D 정보가 없습니다.