1 |
1
적어도 하나의 프로세서(processor)를 이용하여 자연어를 처리하는 방법에 있어서,자연어 텍스트(text)를 입력받는 단계;상기 입력된 자연어 텍스트를 전처리하여 언어 처리에 필요없다고 인정되는 제외어(stop word), 어기(base)가 아닌 단어의 주변부를 형성하는 형태소 중 한 단어의 굴절(inflection)만을 담당하는 형태소인 굴절 접사(inflection affix) 및 미등록어를 제거하는 단계;상기 전처리된 자연어 텍스트에 복수의 형태소가 하나로 결합되어 표현되며 어근에 접사가 결합되어 문장 내에서의 각 단어의 기능을 나타내는 교착어가 포함된 경우, 상기 교착어를 결합 전의 원형으로 복원하는 단계; 및미리 정의된 단일화 규칙에 의해 계층화된 자질과 해당 자질 값을 연계하여 구조화된 자질 트리(feature tree)를 생성하는 단계;를 포함하되,상기 자질 트리는, 상기 전처리된 자연어 텍스트를 루트 노드(root node)로 설정하고, 상기 루트 노드의 자식 노드로서 구문 자질을 생성하여 대응하는 구문 자질 값을 할당하며, 상기 구문 자질의 자식 노드로서 의미를 갖는 언어의 최소 단위인 형태소 자질을 생성하여 대응하는 형태소 자질 값을 할당함으로써, 상기 형태소 자질이 구문으로 구조화되고, 상기 구문 자질이 문장으로 구조화되는 것을 특징으로 하는 방법
|
5 |
5
제 1 항에 있어서,상기 형태소 자질은,LEX(형태소), POS(품사), SEM(의미범주)를 갖는 명사(N) 자질,LEX(형태소), POS(품사), SEM(의미범주), SUBCAT(하위범주)를 갖는 동사(V) 자질,LEX(형태소), POS(품사), SEM(의미범주), QUALIFIER(수식범주)를 갖는 형용사(ADJ) 자질 및 부사(ADV) 자질,LEX(형태소), POS(품사), CASE(격범주)를 갖는 관계언(PARTICLE) 자질,LEX(형태소), POS(품사), TYPE(어미범주)를 갖는 어미(END) 자질,LEX(형태소), POS(품사), MOD(서법범주)를 갖는 선어말어미(PEND) 자질, 중 어느 하나이고,상기 구문 자질은,SUBJ(주어), OBJ(목적어), PRED(술어)를 갖는 문장(S) 자질,HEAD(핵심어), CASE(격범주), COMP(보충어)를 갖는 주어(SUBJ) 자질 및 목적어(OBJ) 자질,HEAD(핵심어), SEM(의미범주)를 갖는 복합명사(NN) 자질 및 관형어구(ADJP) 자질,HEAD(핵심어), COMP(보충어), CONJ(어미범주)를 갖는 서술어(PRED) 자질, 중 어느 하나인 것을 특징으로 하는 방법
|