1 |
1
레이블이 부착되지 않은 가공되지 않은 말뭉치에서 기본형이 파악된 중의성이 없는 제1동사활용과 상기 제1동사활용에 관련된 문맥 특징을 포함하는 학습 데이터를 수집하는 기본 데이터 수집부; 및상기 말뭉치에서 기본형이 중의적인 제2동사활용과 가장 근접하게 위치하는 2개의 앞 어절들의 문맥 특징을 추출하고, 상기 추출한 문맥 특징과 상기 학습 데이터의 문맥 특징에 기반하여 상기 제2동사활용의 기본형을 상기 제1동사활용의 기본형과 매칭시키기 위한 분류자를 학습하는 훈련 수행부를 포함하는, 형태적 중의성 동사 분석 장치
|
2 |
2
제 1 항에 있어서,임의의 텍스트가 입력되면, 텍스트에서 각각의 동사의 앞에 존재하는 문맥 특징을 추출하고 상기 분류자를 이용하여 상기 각각의 동사의 기본형을 판단하는 동사 분석부를 더 포함하는 것을 특징으로 하는, 형태적 중의성 동사 분석 장치
|
3 |
3
제 1 항에 있어서,상기 훈련 수행부는형태적 중의성이 존재하는 어절에서, 각각의 기본형과 연관되는 문맥 정보의 조건부 문맥 확률을 기준으로 상기 제2동사활용의 기본형을 판단하는 것을 특징으로 하는, 형태적 중의성 동사 분석 장치
|
4 |
4
제 1 항에 있어서,상기 훈련 수행부에서 중의성 있는 동사의 기본형 예측 시 첫 번째로 높은 확률값으로 예측되는 제1기본형과 두 번째로 높은 확률값으로 예측되는 제2기본형에 대해, 상기 확률값의 차를 이용하여 분류의 확신도를 평가하고, 실험 데이터와 현재까지 수집된 학습 데이터 사이의 유사도를 계산한 후, 상기 확신도와 상기 유사도에 기반하여 학습 데이터를 추가할 지 여부를 결정하는 어려운 사례 판단부를 더 포함하는 것을 특징으로 하는, 형태적 중의성 동사 분석 장치
|
5 |
5
제 4 항에 있어서,상기 어려운 사례 판단부가 학습데이터를 추가할 것을 결정한 어려운 사례의 기본형 파악을 위해, 상기 어려운 사례와 가장 근접하게 위치하는 2개의 앞 어절들의 문맥 특징을 이용한 질의구를 검색 엔진에 전달한 후, 상기 검색 엔진으로부터 웹 카운트를 반환받는 통신부; 및상기 웹 카운트를 이용하여 상기 어려운 사례의 기본형을 추출하고 학습 데이터로 추가하는 방식으로 상기 분류자를 학습하는 추가 훈련 수행부를 더 포함하는 것을 특징으로 하는, 형태적 중의성 동사 분석 장치
|
6 |
6
레이블이 부착되지 않은 가공되지 않은 말뭉치에서 기본형을 파악할 수 있는 중의성이 없는 제1동사활용의 예제로부터 상기 기본형과 관련된 문맥 특징을 학습 데이터로 수집하는 단계;상기 말뭉치에서 기본형이 중의적인 제2동사활용의 문맥 특징을 추출하고, 상기 추출한 문맥 특징과 상기 학습 데이터의 문맥 특징에 기반하여 상기 제1동사활용의 기본형과 매칭시킴으로써 상기 제2동사활용의 기본형을 판단하는 단계; 및상기 기본형을 판단하는 과정에서 사용된 문맥 특징을 상기 제2동사활용의 기본형 추출을 위한 학습 데이터로서 추가하는 단계를 포함하는, 형태적 중의성 동사 분석 방법
|
7 |
7
제 6 항에 있어서,임의의 텍스트가 입력되면, 텍스트에서 기본형을 구하고자 하는 동사 활용의 앞에 등장하는 어절과 기본형과의 확률을 이용하여 상기 동사 활용의 기본형을 판단하는 단계를 더 포함하는 것을 특징으로 하는, 형태적 중의성 동사 분석 방법
|
8 |
8
제 7 항에 있어서,상기 동사 활용의 기본형을 판단하는 단계는상기 동사 활용 앞의 문맥들의 조사와 내용어들을 추출하여 기본형을 판단하는 단계를 포함하는 것을 특징으로 하는, 형태적 중의성 동사 분석 방법
|
9 |
9
제 8 항에 있어서,상기 동사 활용의 기본형을 판단하는 단계는상기 동사 활용의 앞에 가장 근접하게 위치하는 2개의 어절들을 기준으로 상기 동사 활용의 기본형을 판단하는 단계인 것을 특징으로 하는, 형태적 중의성 동사 분석 방법
|
10 |
10
제 6 항에 있어서,상기 제2동사활용의 기본형을 판단하는 단계는상기 동사 활용의 가능한 기본형들과 문맥 정보 사이의 조건부 문맥 확률을 이용한 나이브 베이지언 분류자를 이용하여 상기 제2동사활용의 기본형을 판단하는 단계인 것을 특징으로 하는, 형태적 중의성 동사 분석 방법
|
11 |
11
제 6 항에 있어서,상기 제2동사활용에 대해 첫 번째로 높은 확률값으로 예측되는 제1기본형과 두 번째로 높은 확률값으로 예측되는 제2기본형을 파악하고, 상기 첫 번째로 높은 확률값과 상기 두 번째로 높은 확률값의 차에 기반하여 상기 제2동사활용을 위한 학습 데이터의 추가 여부를 결정하는 단계를 더 포함하는 것을 특징으로 하는, 형태적 중의성 동사 분석 방법
|
12 |
12
제 6 항에 있어서,상기 제2동사활용의 기본형 파악을 위해 추가되는 학습 데이터와 현재까지 수집된 학습 데이터 사이의 유사도를 계산하고, 상기 유사도에 기반하여 상기 제2동사활용을 위한 학습 데이터의 추가 여부를 결정하는 단계를 더 포함하는 것을 특징으로 하는, 형태적 중의성 동사 분석 방법
|
13 |
13
제 12 항에 있어서,상기 학습 데이터의 추가 여부를 결정하는 단계에서 학습데이터를 추가할 것을 결정한 어려운 사례의 기본형 파악을 위해, 상기 어려운 사례와 가장 근접하게 위치하는 2개의 앞 어절들의 문맥 특징을 이용한 질의 구를 검색 엔진에 전달하는 단계; 및상기 검색 엔진으로부터 반환되는 웹 카운트를 이용하여 상기 어려운 사례의 기본형을 추출하고 학습 데이터로 추가하는 단계를 더 포함하는 것을 특징으로 하는, 형태적 중의성 동사 분석 방법
|
14 |
14
제 6 항 내지 제 13 항 중 어느 한 항의 방법을 수행하기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체
|