1 |
1
(a) 음성데이터를 슬라이싱하고 정제된 코퍼스를 구축하는 단계;(b) 정제된 코퍼스를 활용하여 음성인식기 모델 학습을 수행하는 단계; 및(c) 반자동으로 정제-음성데이터를 추출하고, 전사데이터를 생성하는 단계를 포함하는 음성인식을 위한 반자동 정제-음성데이터 추출 및 전사 데이터 생성 방법
|
2 |
2
제1항에 있어서, 상기 (a) 단계는 기설정 시간 이하로 원본 음성데이터 파일을 자르는 전처리를 수행하는 것인 음성인식을 위한 반자동 정제-음성데이터 추출 및 전사 데이터 생성 방법
|
3 |
3
제1항에 있어서, 상기 (c) 단계는 전사문자열과 디코딩문자열의 유사치를 확인하고, 유사치가 기준값 이상인 문자열들에 대해서만 문자열 매칭을 수행하는 것인 음성인식을 위한 반자동 정제-음성데이터 추출 및 전사 데이터 생성 방법
|
4 |
4
제3항에 있어서, 상기 (c) 단계는 상기 전사문자열과 디코딩문자열을 단어 또는 어절 단위로 분리하고, 상기 디코딩문자열에 대해 빈 칸을 제거한 문자열을 생성하는 것인 음성인식을 위한 반자동 정제-음성데이터 추출 및 전사 데이터 생성 방법
|
5 |
5
제4항에 있어서, 상기 (c) 단계는 상기 전사문자열의 첫 번째 단어와 같은 단어가 상기 디코딩문자열에 대해 빈 칸을 제거한 문자열에 있는지 검색하고, 공통된 단어 부분을 특정 문자로 치환하는 것인 음성인식을 위한 반자동 정제-음성데이터 추출 및 전사 데이터 생성 방법
|
6 |
6
제5항에 있어서, 상기 (c) 단계는 상기 전사문자열의 첫 번째 단어와 상기 디코딩문자열에 대해 빈 칸을 제거한 문자열의 어절에 대한 유사치를 산출하는 것인 음성인식을 위한 반자동 정제-음성데이터 추출 및 전사 데이터 생성 방법
|
7 |
7
제6항에 있어서, 상기 (c) 단계는 상기 전사문자열의 첫 번째 단어에 대해 앞에서부터 한 글자씩 늘여 나가면서, 유사치가 기준값보다 높은 단어에 동일한 글자가 있는지 매칭을 수행하는 것인 음성인식을 위한 반자동 정제-음성데이터 추출 및 전사 데이터 생성 방법
|
8 |
8
제6항에 있어서, 상기 (c) 단계는 상기 전사문자열과 상기 디코딩문자열의 남아있는 단어의 그룹 개수를 고려하여 최종 선택을 수행하는 것인 음성인식을 위한 반자동 정제-음성데이터 추출 및 전사 데이터 생성 방법
|
9 |
9
제8항에 있어서, 상기 (c) 단계는 상기 전사문자열과 상기 디코딩문자열에 남아있는 단어의 그룹 개수가 같을 경우 상기 전사문자열을 최종 선택하는 것인 음성인식을 위한 반자동 정제-음성데이터 추출 및 전사 데이터 생성 방법
|
10 |
10
제8항에 있어서, 상기 (c) 단계는 상기 전사문자열과 상기 디코딩문자열에 대해 어느 한 쪽에만 단어 그룹이 남았을 경우, 남아 있는 그룹의 문장을 선택하는 것인 음성인식을 위한 반자동 정제-음성데이터 추출 및 전사 데이터 생성 방법
|
11 |
11
제8항에 있어서, 상기 (c) 단계는 상기 디코딩문자열에 대해서만 단어 그룹이 남아 있을 경우, 상기 전사문자열을 선택하는 것인 음성인식을 위한 반자동 정제-음성데이터 추출 및 전사 데이터 생성 방법
|
12 |
12
제8항에 있어서, 상기 (c) 단계는 상기 전사문자열과 상기 디코딩문자열에 대해 남아 있는 단어의 그룹 개수가 상이할 경우, 그룹의 개수가 많은 쪽을 선택하는 것인 음성인식을 위한 반자동 정제-음성데이터 추출 및 전사 데이터 생성 방법
|
13 |
13
제8항에 있어서, 상기 (c) 단계는 상기 전사문자열과 상기 디코딩문자열의 끝 부분에만 둘 다 단어 그룹이 남아 있을 경우, 글자의 개수가 긴 쪽을 선택하는 것 인 음성인식을 위한 반자동 정제-음성데이터 추출 및 전사 데이터 생성 방법
|