1 |
1
적어도 프로세서를 포함하는 컴퓨팅 장치에 의해 수행되는 학습 데이터 생성 방법에 있어서,복수의 문장들을 포함하는 제1 텍스트 데이터를 제1 음성 데이터로 변환하는 단계;상기 제1 음성 데이터에 노이즈를 부가하여 제2 음성 데이터를 획득하는 단계; 및상기 제2 음성 데이터를 제2 텍스트 데이터로 변환하는 단계를 포함하되,상기 제2 텍스트 데이터는 상기 제1 텍스트 데이터에 포함된 복수의 문장들 각각에 대응하는 문장이 포함되는,학습 데이터 생성 방법
|
2 |
2
제1항에 있어서,상기 노이즈는 비소리나 천둥소리를 포함하는 자연 소음 또는 구급차 소리나 경찰차 소리를 포함하는 공해 소음을 포함하는,학습 데이터 생성 방법
|
3 |
3
제1항에 있어서,상기 제2 음성 데이터는 상기 제1 음성 데이터의 주파수 스펙트럼의 일부를 마스킹함으로써 생성되는,학습 데이터 생성 방법
|
4 |
4
적어도 프로세서를 포함하는 컴퓨팅 장치에 의해 수행되는 음성 인식 방법에 있어서,생성된 학습 데이터를 이용하여 시퀀스-투-시퀀스(seq2seq) 모델을 학습시킴으로써 음성 인식 후처리 모델을 생성하는 단계;소정의 음성 인식 모델을 이용하여 입력 음성 데이터에 대응하는 텍스트 문장을 생성하는 단계; 및상기 음성 인식 후처리 모델을 이용하여 상기 텍스트 문장을 교정하여 교정된 텍스트 문장을 출력하는 단계를 포함하는 음성 인식 방법
|
5 |
5
제4항에 있어서,상기 음성 인식 후처리 모델을 생성하는 단계 이전에, 학습 데이터를 생성하는 단계를 더 포함하고,상기 학습 데이터를 생성하는 단계는,복수의 문장들을 포함하는 제1 텍스트 데이터를 제1 음성 데이터로 변환하는 단계;상기 제1 음성 데이터의 주파수 스펙트럼의 일부를 마스킹하여 제2 음성 데이터를 생성하는 단계; 및상기 제2 음성 데이터를 제2 텍스트 데이터로 변환하는 단계를 포함하는,음성 인식 방법
|
6 |
6
제5항에 있어서,상기 학습 데이터는 상기 제1 텍스트 데이터와 상기 제2 텍스트 데이터를 포함하는,음성 인식 방법
|