1 |
1
어휘를 추출하기 위한 대상이 되는 텍스트 코퍼스를 순수 한글 문자만 포함되도록 전처리하고, 상기 전처리된 텍스트 코퍼스의 어절을 구성하는 형태소에 대한 품사 태깅을 수행하여 형태소를 분석하고, 상기 형태소를 의사형태소 단위로 병합시키는 제1 단계; 상기 제1 단계를 통해 처리된 어휘 추출 대상이 되는 텍스트 코퍼스에서 키워드 품사로 구성된 문장 코퍼스를 추출하는 제2 단계; 및 상기 추출된 키워드 품사로 구성된 문장 코퍼스를 사용하여 키워드 어휘사전을 작성하고, 상기 어휘사전을 통해 키워드 N-gram 언어모델 및 키워드 발음사전을 구축하는 제3 단계를 포함하는 키워드 기반 N-gram 언어모델 구축 방법
|
2 |
2
제1항에 있어서, 상기 제2 단계는, 어휘를 추출해야 하는 대상이 되는 태깅된 코퍼스 입력 파일과, 키워드 품사를 추출한 결과를 저장하는 출력 파일을 열고, 상기 입력 파일로부터 1개의 문장을 읽어들이고, 상기 읽어들인 1개의 문장에 대한 문자열에서 공백이 나오면 어휘로 분리하여 배열에 저장하는 제1 과정; 상기 읽어들인 1개의 문장의 전체 어휘수를 계산하고, 전체 어휘수에 따른 배열 인덱스를 초기화하고, 배열에 저장된 어휘가 키워드 품사에 해당하는지 검사하고, 상기 검사한 어휘가 키워드 품사인 경우에는 상기 출력 파일에 저장한 후 배열 인덱스를 1 증가시키고, 상기 검사한 어휘가 키워드 품사가 아닌 경우에는 바로 배열 인덱스를 1 증가시키는 제2 과정; 배열 인덱스를 참조하여 상기 읽어들인 1개의 문장의 모든 어휘에 대한 검사가 끝났는지를 확인하고, 검사가 끝나지 않았으면 다시 문장 내의 다른 어휘에 대한 검사를 반복하고, 끝난 경우에는 입력 파일에 존재하는 모든 문장을 읽었는지 확인하고, 확인 결과 입력 파일의 모든 문장을 읽지 않은 경우에는 상기한 과정을 모든 문장에 대해 반복하고, 모든 문장을 읽은 경우에는 입력 파일 및 출력 파일을 닫는 제3 과정을 포함하는 것을 특징으로 하는 키워드 기반 N-gram 언어모델 구축 방법
|
3 |
3
제1항 또는 제2항에 있어서, 상기 키워드 품사는, 명사, 수사, 대명사, 부사, 관형사, 형용사, 동사, 용언, 종결어미, 의지감탄사 또는 외국어를 포함하는 것을 특징으로 하는 N-gram 언어모델 구축방법
|
4 |
3
제1항 또는 제2항에 있어서, 상기 키워드 품사는, 명사, 수사, 대명사, 부사, 관형사, 형용사, 동사, 용언, 종결어미, 의지감탄사 또는 외국어를 포함하는 것을 특징으로 하는 N-gram 언어모델 구축방법
|