1 |
1
형태소 분석을 통해 입력받은 문서를 각각의 단어로 분리하는 전처리부;분리된 단어와 인접한 위치의 다른 단어들을 의미별로 분류하고, 의미별로 분류된 단어들을 포함한 문장 또는 문서를 벡터화하는 특징추출부; 및상기 벡터화된 문장 또는 문서를 순환신경망 기반에 다층 구조의 서열 분류모델인 GRU(Gated Recurrent Unit)의 업데이트 게이트(update gate)와 리셋 게이트(reset gate)로 구성된 셀(cell)을 통해 주제별로 분류하는 자동분류부를 포함하되,상기 특징추출부는,문장 내에서 특정 단어가 입력 데이터로 설정되면 주위에 인접한 다른 단어를 출력 데이터로 입력하고, 스킵그램 모델(Skip-gram model)을 통해 학습을 수행하여 상기 특정 단어와 인접한 위치의 다른 단어들을 의미별로 분류하여 벡터로 설정하는 의미분석모듈; 및상기 의미별로 분류된 단어들을 분산메모리(DM: distributed memory) 구조를 통해 기 설정된 문맥 연결 기준에 부합하도록 구성한 문장 또는 문서를 벡터화하는 문맥파악모듈을 포함하고,상기 의미분석모듈은,상기 입력 데이터를 은닉층(Hidden layer)로 인가하고, 출력층(Output layer)에 입력된 데이터에 가중치 행렬(Weight Matrix)을 곱한 값을 인가하며, 소프트맥스(softmax) 계산을 통해 기 설정된 단어의 벡터와 비교하여 오차를 계산한 후 오류 역전파를 통한 수정을 반복해 가중치 행렬을 수정하고, 기 설정된 기준 이하의 오차가 나오는 경우 가중치 행렬을 곱한 값과 대응하는 단어들을 벡터로 설정하며, 상기 특정 단어와 인접한 위치의 다른 단어를 의미별로 분류하여 word2vec를 통해 벡터화하며,상기 문맥파악모듈은,학습 단계를 벡터에 기억시키고 학습된 최종 벡터를 해당 문서의 벡터로 정의하되, 문단(paragraph) 벡터 메모리를 추가로 할당하고, 학습단계에서 입력 벡터에 추가로 문서 벡터를 더해 분류하고, 학습한 결과만큼의 오차를 갱신하되, 상기 문장 또는 문서를 doc2vec을 통해 벡터화하며,상기 리셋 게이트는 [수학식 1]을 통해 정의하고, 상기 업데이트 게이트는 [수학식 2]를 통해서 정의하며, 현 시점에서 유지할 정보를 [수학식 3]과 같이 정의하고, 수정된 현재의 정보를 출력값으로 내보내기 위한 업데이트 절차는 [수학식 4]를 통해 수행하되, 현재의 정보는 로 설정하고, 과거 정보는 로 설정하며, 과거 정보를 얼마나 반열할지는 리셋 게이트 를 통해 결정하고, 과거의 정보 과 현재의 정보 를 업데이트 게이트 값을 통해 결정하는 것을 특징으로 하는 의미와 문맥을 고려한 주제기반 문서 자동 분류 시스템
|