1 |
1
어절 엔-그램(n-gram)을 이용한 띄어쓰기와 철자 교정장치에 있어서, 어절 n-gram을 저장하는 어절 n-gram DB; 정제되어 오류가 없는 언어 자료를 입력받아 어절 n-gram을 추출하고, 상기 추출된 어절 n-gram을 상기 어절 n-gram DB에 저장하는 어절 n-gram 구축부; 검증해야 할 대상 언어 자료를 제공받아 상기 언어 자료에 포함된 각 어절을 하나의 심볼로 매핑 처리한 구조로 변경하며, 상기 변경된 어절에 대하여 상기 어절 n-gram DB를 검색하여 동일한 어절이 존재하는지를 검색하는 어절 n-gram 검색 및 검증부; 상기 어절 n-gram 검색 및 검증부에 의해 검증이 되지 않은 어절에 대하여 띄어쓰기와 붙여쓰기 오류 및 오타를 수정하는 띄어쓰기 및 붙여쓰기 오류/오타 수정부; 상기 띄어쓰기 및 붙여쓰기 오류/오타 수정부에 의해 수정된 어절에 대하여 형태소 태깅을 수행하여 확률값이 제일 높은 값을 선택하여 적용하는 통계 기반 품사 태깅 시스템; 상기 대상 언어 자료에 대하여 띄어쓰기 및 붙여쓰기 오류/오타 수정부 및 상기 통계 기반 품사 태깅 시스템에 의해 처리되는 과정을 거치면서 수정이 완료된 대상 언어 자료를 출력하는 수정 문장 출력부; 를 포함하는 것을 특징으로 하는 어절 엔-그램을 이용한 띄어쓰기와 철자 교정장치
|
2 |
2
제 1 항에 있어서, 상기 어절 n-gram 검색 및 검증부에 의해 검증이 되지 않은 어절을 띄어쓰기 붙여쓰기 정의규칙에 따라 수정하는 규칙에 의한 수정기를 더 포함하는 것을 특징으로 하는 어절 엔-그램을 이용한 띄어쓰기와 철자 교정장치
|
3 |
3
제 1 항에 있어서, 상기 어절 n-gram 검색 및 검증부에 의해 검증이 되지 않은 어절에 대하여 상기 어절을 앞뒤 어절과 함께 붙이거나, 상기 어절을 잘라서 다수의 어절 리스트를 만들고, 상기 다수의 어절 리스트에 포함된 어절들이 상기 어절 n-gram DB에 존재하는지는 확인하여 후보 어절 리스트를 생성하는 어절 n-gram에 의한 수정기를 더 포함하는 것을 특징으로 하는 어절 엔-그램을 이용한 띄어쓰기와 철자 교정장치
|
4 |
4
제 2 항 또는 제 3 항에 있어서, 상기 규칙에 의한 수정기 및 어절 n-gram에 의한 수정기를 거치면서 아직 검증이 되지 않은 어절 리스트들에 포함된 어절들에 대해서 상기 어절 각각을 음절별로 나눈 후, 다시 여러 어절을 조합하여 상기 통계 기반 품사 태깅 시스템에 제공하여 형태소 태깅을 하여 확률값이 제일 높은 어절 조합을 선택하는 태거에 의한 수정기를 더 포함하는 것을 특징으로 하는 어절 엔-그램을 이용한 띄어쓰기와 철자 교정장치
|
5 |
5
제 1 항에 있어서, 상기 띄어쓰기 및 붙여쓰기 오류 수정에 의해서도 검증이 되지 않은 어절 리스트들에 포함된 어절들에 대해서 상기 어절 n-gram DB에서 1-gram만 활용하여 앞부분 몇 개 음소가 같거나, 뒷부분 몇 개의 음소가 같은 어절들을 포함하는 리스트를 작성하며, 상기 리스트중에서 음절의 수가 같은 어절을 우선으로 하며, 음절수가 동일하지 않을 경우, 상기 음절수와 제일 가까운 어절을 선택하여 어절 리스트를 만드는 알고리듬에 의한 수정기를 더 포함하는 것을 특징으로 하는 어절 엔-그램을 이용한 띄어쓰기와 철자 교정장치
|
6 |
6
어절 엔-그램을 이용한 띄어쓰기와 철자 교정방법에 있어서, 정제되어 오류가 없는 언어 자료를 입력받아 어절 n-gram을 추출하여 어절 n-gram DB에 저장하는 단계; 검증해야 할 대상 언어 자료를 제공받아 상기 언어 자료에 포함된 각 어절을 하나의 심볼로 매핑 처리한 구조로 변경하며, 상기 변경된 어절에 대하여 상기 어절 n-gram DB를 검색하여 동일한 어절이 존재하는지를 검색하는 단계; 상기 검색 단계에서 동일한 어절이 존재하지 않을 경우, 상기 동일하지 않은 어절에 대하여 띄어쓰기와 붙여쓰기 오류 및 오타를 수정한 결과에 대하여 형태소 태깅을 수행하여 확률값이 제일 높은 값을 선택하여 적용하는 띄어쓰기 및 붙여쓰기 오류 수정 단계; 상기 검증해야 할 대상 언어 자료에 대하여 수정이 완료된 대상 언어 자료를 출력하는 단계; 를 포함하는 것을 특징으로 하는 어절 엔-그램을 이용한 띄어쓰기와 철자 교정방법
|
7 |
7
제 6 항에 있어서, 상기 검색 단계에서 동일한 어절이 존재할 경우, 상기 입력된 대상 언어 자료를 출력하는 단계를 더 포함하는 것을 특징으로 하는 어절 엔-그램을 이용한 띄어쓰기와 철자 교정방법
|
8 |
8
제 6 항에 있어서, 상기 띄어쓰기 및 붙여쓰기 오류 수정 단계에 의해서도 검증이 되지 않은 어절 리스트들에 대해서 오타 수정 규칙을 이용하여 오타를 수정하는 오타 수정 단계를 더 포함하는 것을 특징으로 하는 어절 엔-그램을 이용한 띄어쓰기와 철자 교정방법
|
9 |
9
제 8 항에 있어서, 상기 오타 수정 단계는 검증되지 않은 어절 리스트들이 발생될 경우, 상기 발생된 어절 리스트를 수정하기 위해 어절 n-gram DB에서 1-gram만 활용하여 앞부분 몇 개 음소가 같거나, 뒷부분 몇 개의 음소가 동일한 어절들을 포함하는 리스트를 작성하며, 상기 작성된 리스트중에서 음절의 수가 같은 어절을 우선으로 하며, 음절수가 동일하지 않을 경우, 상기 음절수와 제일 가까운 어절을 선택하여 어절 리스트를 만드는 것을 특징으로 하는 어절 엔-그램을 이용한 띄어쓰기와 철자 교정방법
|
10 |
10
제 9 항에 있어서, 상기 만들어진 리스트중에서 음절수가 같거나 음절수가 가까운 어절에 대해서 음소의 수가 제일 가까운 리스트를 선택하는 것을 특징으로 하는 어절 엔-그램을 이용한 띄어쓰기와 철자 교정방법
|
11 |
11
제 10 항에 있어서, 상기 선택된 리스트가 다수 개 존재할 경우, 앞뒤 한 어절씩을 연결하여 어절 n-gram 검색기에서 어절 3-gram이나 2-gram에서 제일 좋은 값을 선택하며, 상기 어절 3-gram이나 2-gram에 없거나 빈도가 동일할 경우, 앞 뒤 2∼3 어절을 연결하여 형태소 태깅을 수행하여 확률값이 제일 높은 하나를 선택하는 것을 특징으로 하는 어절 엔-그램을 이용한 띄어쓰기와 철자 교정방법
|
12 |
11
제 10 항에 있어서, 상기 선택된 리스트가 다수 개 존재할 경우, 앞뒤 한 어절씩을 연결하여 어절 n-gram 검색기에서 어절 3-gram이나 2-gram에서 제일 좋은 값을 선택하며, 상기 어절 3-gram이나 2-gram에 없거나 빈도가 동일할 경우, 앞 뒤 2∼3 어절을 연결하여 형태소 태깅을 수행하여 확률값이 제일 높은 하나를 선택하는 것을 특징으로 하는 어절 엔-그램을 이용한 띄어쓰기와 철자 교정방법
|