1 |
1
중국어 문장이 포함된 웹문서를 입력받으면, 상기 입력된 웹문서의 html 태그를 제거하는 과정과,상기 웹문서 내의 문장별로 메타 태그와 일반 태그 처리 방식으로 분류하는 과정과,형태소 분석을 진행하여 분석결과를 출력하는 과정과,상기 분석 결과를 이용하여 어근 중심의 미등록어를 추출하는 방식과, 단음절 토큰을 중심으로 미등록어를 추출하는 방식과, 4음절로 된 동사 미등록어를 추출하는 방식과, 상기 단음절 토큰의 단어 가능 여부를 판단하여 단어 가능 미등록어를 추출하는 방식과, 상기 메타 태그 정보에 포함된 단어를 이용하여 미등록어를 추출하는 방식 중 적어도 하나의 방식을 이용하여 미등록어를 추출하는 과정을 포함하는 중국어 미등록어 자동 추출 방법
|
2 |
2
제 1항에 있어서, 상기 분석 결과를 이용하여 어근사전을 구축하고, 어근을 중심으로 미등록어를 추출하는 과정과,단음절 나열에 대해서 빈도를 구하고, 기 설정된 빈도수를 초과하는 경우 미등록어로 추출하는 과정과,동사로 태깅된 동사열에 대해서 빈도를 구하여 4음절 미등록어의 동사를 추출하는 과정을 포함하는 것을 특징으로 하는 중국어 미등록어 자동 추출 방법
|
3 |
3
제 1항에 있어서, 상기 방법은,학습코퍼스를 이용하여 단음절 토큰의 단독 단어 가능여부를 판단하는 과정과,상기 단음절 단어로 불가능한 토큰에 대해서 좌우 문맥 정보를 이용하여 확장을 통하여 미등록어를 추출하는 과정을 포함하는 것을 특징으로 하는 중국어 미등록어 자동 추출 방법
|
4 |
4
제 1항에 있어서, 상기 방법은,상기 메타 태그 정보에 포함된 단어를 토큰 길이별로 분류하는 과정과,상기 토큰 길이가 1이며, 기 설정된 빈도수를 초과하는 단어를 미등록어로 추출하는 과정과,상기 토큰 길이가 2 이상이며, 형태소 분석결과 명사인 경우, 미등록어로 추출하는 과정을 포함하는 것을 특징으로 하는 중국어 미등록어 자동 추출 방법
|
5 |
5
중국어 문장이 포함된 웹문서를 입력받으면, 상기 입력된 웹문서의 html 태그를 제거하는 제거부와,상기 웹문서 내의 문장별로 메타 태그와 일반 태그 처리 방식으로 분류하는 태그 분류부와,형태소 분석을 진행하여 분석결과를 출력하는 형태소 분석부와,상기 분석 결과를 이용하여 어근 중심의 미등록어를 추출하는 어근 중심 추출 모듈과, 단음절 토큰을 중심으로 미등록어를 추출하는 단음절 중심 추출 모듈과, 4음절로 된 동사 미등록어를 추출하는 동사 중심 추출 모듈을 포함하는 일반 태그를 이용한 추출 방식부와,상기 단음절 토큰의 단어 가능 여부를 판단하여 단어 가능 미등록어를 추출하는 단음절 토큰의 단어 가능 여부를 이용한 추출 방식부와,상기 메타 태그 정보에 포함된 단어를 이용하여 미등록어를 추출하는 메타 태그를 이용한 추출 방식부를 포함하는 중국어 미등록어 자동 추출 시스템
|
6 |
6
제 5항에 있어서,상기 일반 태그를 이용한 추출 방식부는,상기 형태소 분석 결과를 이용하여 어근사전을 구축하고, 어근을 중심으로 미등록어를 추출하고, 단음절 나열에 대해서 빈도를 구하고, 기 설정된 빈도수를 초과하는 경우 미등록어로 추출하고,동사로 태깅된 동사열에 대해서 빈도를 구하여 4음절 미등록어의 동사를 추출하는 것을 특징으로 하는 중국어 미등록어 자동 추출 시스템
|
7 |
7
제 5항에 있어서,상기 단음절 토큰의 단어 가능 여부를 이용한 추출 방식부는,학습코퍼스를 이용하여 단음절 토큰의 단독 단어 가능여부를 판단하고, 상기 단음절 단어로 불가능한 토큰에 대해서 좌우 문맥 정보를 이용한 확장을 통하여 미등록어를 추출하는 것을 특징으로 하는 중국어 미등록어 자동 추출 시스템
|
8 |
8
제 5항에 있어서,상기 메타 태그를 이용한 추출 방식부는,상기 메타 태그 정보에 포함된 단어를 토큰 길이별로 분류하여, 상기 토큰 길이가 1인 경우에 기 설정된 빈도수를 초과하는 단어를 미등록어로 추출하고,상기 토큰 길이가 2 이상이며, 형태소 분석결과 명사인 경우, 미등록어로 추출하는 것을 특징으로 하는 중국어 미등록어 자동 추출 시스템
|