맞춤기술찾기

이전대상기술

WFST를 이용한 음성 끝점 검출 장치 및 방법

  • 기술번호 : KST2015091805
  • 담당센터 : 대전기술혁신센터
  • 전화번호 : 042-610-2279
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 WFST를 이용한 음성 끝점 검출 장치 및 방법을 공개한다. 본 발명은 음성 신호를 변환한 프레임 단위의 특징 벡터를 수신하고, 수신된 상기 특징 벡터를 분석하여 음성 클래스 및 노이즈 클래스로 분류하는 음성 판별부, 분류된 상기 음성 클래스 및 상기 노이즈 클래스를 수신하여, WFST 형식으로 변환하는 프레임 레벨 WFST, 분류된 상기 음성 클래스 및 상기 노이즈 클래스와 기설정된 상태 사이의 관계를 분석하여 음성의 끝점을 검출하는 음성 레벨 WFST, 상기 프레임 레벨 WFST와 상기 음성 레벨 WFST를 결합하는 WFST 결합부 및 상기 프레임 레벨 WFST와 상기 음성 레벨 WFST가 결합된 결합 WFST를 최소 경로를 갖도록 최적화하는 최적화부를 포함한다.
Int. CL G10L 15/02 (2006.01)
CPC
출원번호/일자 1020130071143 (2013.06.20)
출원인 한국전자통신연구원
등록번호/일자
공개번호/일자 10-2014-0147587 (2014.12.30) 문서열기
공고번호/일자
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 공개
심사진행상태 수리
심판사항
구분 신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 N
심사청구항수 12

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 한국전자통신연구원 대한민국 대전광역시 유성구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 정훈 대한민국 대전광역시 유성구
2 이성주 대한민국 대전광역시 유성구
3 이윤근 대한민국 대전시 서구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 특허법인이지 대한민국 서울특별시 금천구 가산디지털*로 ***(가산동, KCC웰츠밸리) ***-***

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
최종권리자 정보가 없습니다
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2013.06.20 수리 (Accepted) 1-1-2013-0552148-36
2 [대리인선임]대리인(대표자)에 관한 신고서
[Appointment of Agent] Report on Agent (Representative)
2013.09.10 수리 (Accepted) 1-1-2013-0826681-54
3 출원인정보변경(경정)신고서
Notification of change of applicant's information
2015.02.02 수리 (Accepted) 4-1-2015-0006137-44
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
음성 신호를 변환한 프레임 단위의 특징 벡터를 수신하고, 수신된 상기 특징 벡터를 분석하여 음성 클래스 및 노이즈 클래스로 분류하는 음성 판별부; 분류된 상기 음성 클래스 및 상기 노이즈 클래스를 수신하여, WFST 형식으로 변환하는 프레임 레벨 WFST; 분류된 상기 음성 클래스 및 상기 노이즈 클래스와 기설정된 상태 사이의 관계를 분석하여 음성의 끝점을 검출하는 음성 레벨 WFST; 상기 프레임 레벨 WFST와 상기 음성 레벨 WFST를 결합하는 WFST 결합부; 및 상기 프레임 레벨 WFST와 상기 음성 레벨 WFST가 결합된 결합 WFST를 최소 경로를 갖도록 최적화하는 최적화부;를 포함하는 음성 끝점 검출 장치
2 2
제1 항에 있어서, 상기 WFST 결합부는 상기 프레임 레벨 WFST와 상기 음성 레벨 WFST를 WFST 기본 연산 중 결합 연산(°)을 이용하여 수학식 (여기서, C는 결합 WFST이고, F는 프레임 레벨 WFST이며, U는 음성 레벨 WFST이다
3 3
제2 항에 있어서, 상기 최적화부는 상기 WFST 기본 연산 중 최소화 연산(min)을 이용하여 수학식 (여기서, D 는 최적화된 WFST이다
4 4
제3 항에 있어서, 상기 음성 레벨 WFST는 상기 음성 클래스 및 상기 노이즈 클래스에 따른 6개의 상태(NOISE, SPEECH, Sn, Nn, BOU(Begin of utterance), EOU(End of utterance)를 포함하여 수학식(여기서, NOISE는 노이즈 상태를 나타내고, SPEECH 상태는 음성 상태를, BOU는 음성 시작 상태를, EOU는 음성 종료 상태를, Sn 은 n번째(여기서 n은 자연수) 음성 대기 상태를 나타내며, 마지막으로 Nn 은 n번째 노이즈 대기 상태를 나타낸다
5 5
제4 항에 있어서, 상기 음성 레벨 WFST는 음성 대기 상태(Sn)의 개수를 기설정된 최소 음성 프레임 카운트(Tm)에 대응하여 설정하고, 노이즈 대기 상태(Nn)의 개수를 기설정된 후단 묵음 프레임 카운트(Tb)에 대응하여 설정하는 것을 특징으로 하는 음성 끝점 검출 장치
6 6
제5 항에 있어서, 상기 음성 레벨 WFST는 상기 음성 클래스 및 상기 노이즈 클래스의 오분류에 따른 오류가 발생하는 것을 방지하기 위해 행오버 기법을 추가로 적용하여, 상기 음성 레벨 WFST가 수학식(여기서, Vn 은 n 번째 행오버 상태이다
7 7
제4 항에 있어서, 상기 음성 레벨 WFST는 상기 음성 대기 상태 각각에 대한 상기 행오버 상태의 개수를 상기 후단 묵음 프레임 카운트(Tb)보다 작게 설정하고, 상기 노이즈 대기 상태 각각에 대한 상기 행오버 상태의 개수를 상기 최소 음성 프레임 카운트(Tm)보다 작게 설정하는 것을 특징으로 하는 음성 끝점 검출 장치
8 8
음성 신호를 변환한 프레임 단위의 특징 벡터를 수신하여, 음성 끝점을 검출하는 음성 끝점 검출 장치를 이용한 음성 끝점 검출 방법에 있어서, 상기 음성 끝점 검출 장치가 수신된 상기 특징 벡터를 분석하여 음성 클래스 및 노이즈 클래스로 분류하는 단계; 분류된 상기 음성 클래스 및 상기 노이즈 클래스를 수신하여, WFST 형식으로 변환하여 프레임 레벨 WFST를 생성하는 단계; 분류된 상기 음성 클래스 및 상기 노이즈 클래스와 기설정된 상태 사이의 관계를 분석하여 음성의 끝점을 검출하는 음성 레벨 WFST를 생성하는 단계; 상기 프레임 레벨 WFST와 상기 음성 레벨 WFST를 결합하여 결합 WFST를 획득하는 단계; 및 상기 결합 WFST를 최적화하는 단계;를 포함하는 음성 끝점 검출 방법
9 9
제8 항에 있어서, 상기 결합 WFST를 획득하는 단계는 상기 프레임 레벨 WFST와 상기 음성 레벨 WFST를 WFST 기본 연산 중 결합 연산(°)을 이용하여 수학식 (여기서, C는 결합 WFST이고, F는 프레임 레벨 WFST이며, U는 음성 레벨 WFST이다
10 10
제9 항에 있어서, 상기 결합 WFST를 최적화하는 단계는 상기 WFST 기본 연산 중 최소화 연산(min)을 이용하여 수학식 (여기서, D 는 최적화된 WFST이다
11 11
제9 항에 있어서, 상기 결합 WFST를 최적화하는 단계는 상기 음성 클래스 및 상기 노이즈 클래스에 따른 6개의 상태(NOISE, SPEECH, Sn, Nn, BOU(Begin of utterance), EOU(End of utterance)를 포함하여 수학식(여기서, NOISE는 노이즈 상태를 나타내고, SPEECH 상태는 음성 상태를, BOU는 음성 시작 상태를, EOU는 음성 종료 상태를, Sn 은 n번째(여기서 n은 자연수) 음성 대기 상태를 나타내며, 마지막으로 Nn 은 n번째 노이즈 대기 상태를 나타낸다
12 12
제8 항 내지 제11 항 중 어느 한 항에 따른 상기 음성 끝점 검출 방법을 수행하기 위한 컴퓨터로 판독 가능한 프로그램을 기록한 기록 매체
지정국 정보가 없습니다
순번, 패밀리번호, 국가코드, 국가명, 종류의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 패밀리정보 - 패밀리정보 표입니다.
순번 패밀리번호 국가코드 국가명 종류
1 US09396722 US 미국 FAMILY
2 US20140379345 US 미국 FAMILY

DOCDB 패밀리 정보

순번, 패밀리번호, 국가코드, 국가명, 종류의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 패밀리정보 - DOCDB 패밀리 정보 표입니다.
순번 패밀리번호 국가코드 국가명 종류
1 US2014379345 US 미국 DOCDBFAMILY
2 US9396722 US 미국 DOCDBFAMILY
국가 R&D 정보가 없습니다.