1 |
1
(a) 텍스트 문장을 입력받아 공백 문자 단위로 분리하여 어절열을 생성하는 단계; (b) 상기 각 어절열을 형태소 단위로 분리하여 각 형태소의 품사를 결정하며, 상기 각 형태소의 형태소 분석 사전 상의 등재 여부를 분석하는 단계; (c) 상기 단계 (b)의 분석 결과를 바탕으로 어절을 구성하는 형태소들 중에서 접두사, 접미사, 어미, 조사, 조사/어미의 뒤에 붙는 활용형을 제거하는 단계; (d) 상기 단계 (c)에서 제거되고 남은 형태소 중에서 상기 형태소 분석 사전에 등재되어 있는 형태소를 제거하는 단계; (e) 상기 단계 (d)에서 제거되고 남은 형태소 중에서 외래어 사전에 이미 등재되어 있는 형태소를 제거하는 단계; 및 (f) 상기 단계 (e)에서 제거되고 남은 형태소의 각 음소의 유니그램, 바이그램 및 트리그램과, 상기 형태소의 각 음절의 유니그램 및 바이그램의 한국어에서의 출현 확률과 외국어에서의 출현 확률을 계산하고, 상기 계산된 확률을 서로 비교하여 해당 형태소의 외래어 여부를 판별하는 단계를 포함하는 외래어 판별 방법
|
2 |
2
제1항에 있어서, 상기 단계 (a)에서 공백 문자 단위는 어절 식별 문자이며, 공백, 탭, 개행 및 사용자가 정의한 어절 구별자를 포함하는 외래어 판별 방법
|
3 |
3
제1항에 있어서, 상기 단계 (b)에 의해 어절열은 형태소, 형태소의 품사 및 형태소 분석 사전 등재여부로 표현되는 외래어의 판별 방법
|
4 |
4
제1항에 있어서, 상기 단계 (e)에서 사용되는 외래어 사전은 한국어에서 자주 출현하는 외국어 목록과, 철자표기상 한국어와 유사하여 외래어이면서 한국어로 오인될 수 있는 형태소를 미리 저장하고 있는 외래어의 판별 방법
|
5 |
5
제1항에 있어서, 상기 단계 (f)는 상기 단계 (e)에서 제거되고 남은 형태소의 각 음소의 유니그램, 바이그램 및 트리그램과, 상기 형태소의 각 음절의 유니그램 및 바이그램의 한국어에서의 출현 확률과 외국어에서의 출현 확률을 아래의 수학식을 차례로 적용하여 계산하는 (상기은 음소 unigram에 대한 가중치이며, 는 음소 bigram에 대한 가중치, 은 음소 trigram에 대한 가중치, 는 음절 unigram에 대한 가중치이다
|
6 |
6
제5항에 있어서, 상기 단계 (f)에서의 계산 결과로부터 한국어에서의 출현 확률과 외국어에서의 출현 확률을 비교하여 외국어에서의 출현 확률이 더 클 경우에는 해당 형태소를 외래어로 판단하는 외래어의 판별 방법
|
7 |
6
제5항에 있어서, 상기 단계 (f)에서의 계산 결과로부터 한국어에서의 출현 확률과 외국어에서의 출현 확률을 비교하여 외국어에서의 출현 확률이 더 클 경우에는 해당 형태소를 외래어로 판단하는 외래어의 판별 방법
|