1 |
1
텍스트를 전자 문서로부터 읽어들이는 전처리 단계;상기 텍스트에서 주격조사 및 보조사와 결합된 체언을 추출하는 단계;상기 추출된 체언 중 유정명사용 조사와 결합된 체언을 제1 그룹으로 분류하는 단계; 및상기 제1 그룹의 체언에 관형격조사가 결합되어 있는 어절 뒤에 제1 단어와 인접하는 명사구가 상기 텍스트 내에서 소정 횟수 이상 나타나는 경우, 상기 제1 단어의 앞에 인접하며 상기 관형격조사와 결합되어 있는 체언, 및 상기 제1 그룹의 체언을 유정명사의 후보로 추출하는 단계를 포함하는 유정명사 추출 방법
|
2 |
2
제1항에 있어서,상기 유정명사용 조사는 -한테/-에게/-께 및 상기 -한테/-에게/-께 에 다른 조사가 결합된 복합조사 중 적어도 하나인유정명사 추출 방법
|
3 |
3
제1항에 있어서,상기 유정명사의 후보로 추출하는 단계는, 상기 텍스트 내에서 의 형태로 구성된 명사구 -상기 은 상기 제1 그룹의 체언이고, 상기 는 상기 관형격조사이며, 상기 은 상기 제1 단어임- 가 소정 횟수 이상 나타나는 경우, 상기 텍스트 내에서 의 형태로 구성된 명사구 -상기 는 상기 제1 그룹의 체언이 아니고, 상기 는 상기 관형격조사이며, 상기 은 상기 제1 단어임- 의 상기 를 상기 유정명사의 후보로 추출하는 단계를 포함하는 유정명사 추출 방법
|
4 |
4
제1항에 있어서,상기 추출된 체언 중 무정명사용 조사와 결합된 체언을 제2 그룹, 상기 추출된 체언 중 범용 조사와 결합된 체언을 제3 그룹, 상기 추출된 체언 중 상기 제1 그룹, 상기 제2 그룹 및 상기 제3 그룹의 어디에도 속하지 않는 체언을 제4 그룹으로 분류하는 단계를 더 포함하고,상기 유정명사의 후보로 추출하는 단계는,상기 제1 그룹의 체언 중 상기 제2 그룹 및 상기 제3 그룹에 속하지 않는 체언에 관형격조사가 결합되어 있는 어절 뒤에 제1 단어와 인접하는 명사구가 상기 텍스트 내에서 소정 횟수 이상 나타나는 경우, 상기 제1 단어의 앞에 인접하며 상기 관형격조사와 결합되어 있는 상기 제4 그룹의 체언, 및 상기 제1 그룹의 체언 중 상기 제2 그룹에 속하지 않는 체언을 상기 유정명사의 후보로 추출하는 단계를 포함하는 유정명사 추출 방법
|
5 |
5
제4항에 있어서,상기 무정명사용 조사는 -에까지, -에는, -에도, -에로, -에서, -에서는, -에선 및 -엔 중 적어도 하나이고, 상기 범용조사는 -에 인 유정명사 추출 방법
|
6 |
6
제4항에 있어서,상기 유정명사의 후보로 추출하는 단계는, 상기 텍스트 내에서 의 형태로 구성된 명사구 - 상기 은 상기 제1 그룹의 체언 중 상기 제2 그룹 및 상기 제3 그룹에 속하지 않는 체언이고, 상기 는 상기 관형격조사이며, 상기 은 상기 제1 단어임- 가 소정 횟수 이상 나타나는 경우, 상기 텍스트 내에서 의 형태로 구성된 명사구 - 상기 는 상기 제4 그룹의 체언이고, 상기 는 상기 관형격조사이며, 상기 은 상기 제1 단어임 - 의 상기 를 상기 유정명사의 후보로 추출하는 단계를 포함하는유정명사 추출 방법
|
7 |
7
제4항에 있어서,상기 유정명사의 후보로 추출하는 단계는, 상기 텍스트 내에서 의 형태로 구성된 명사구 - 상기 이 상기 제1 그룹의 체언 중 상기 제2 그룹 및 상기 제3 그룹에 속하지 않는 체언이고, 상기 가 상기 관형격조사이며, 상기 이 상기 제1 단어임- 가 소정 횟수 이상 나타나는 경우,상기 텍스트 내에서 형태로 구성된 명사구 - 상기 은 관형어가 아니고, 상기 는 상기 제4 그룹의 체언이며, 상기 는 상기 관형격조사이고, 상기 은 상기 관형격조사를 포함하지 않는 하나 이상의 관형어 또는 null이며, 상기 은 상기 제1 단어임 - 의 상기 를 상기 유정명사의 후보로 추출하는 단계를 포함하는 유정명사 추출 방법
|
8 |
8
제1항에 있어서,상기 유정명사의 후보로 추출하는 단계는,상기 추출된 후보 중 대명사, 불특정명사, 집합명사, 복수형, 수사 및 의존명사 중 적어도 하나 이상을 제외하는 단계를 더 포함하는 유정명사 추출 방법
|
9 |
9
제1항에 있어서,상기 전처리 단계는,인용부호 내의 텍스트를 발화(utterance)로 구분하고, 상기 발화 외의 텍스트를 내러티브(narrative)로 구분하는 단계를 포함하고,상기 체언을 추출하는 단계는,상기 내러티브에서 주격조사 및 보조사와 결합된 체언을 추출하는 단계를 포함하고,상기 제1 그룹으로 분류하는 단계는,상기 추출된 체언 중 유정명사용 조사와 결합된 체언 및 상기 발화에서 유정명사용 조사와 결합된 단어를 제1 그룹으로 분류하는 단계를 포함하는유정명사 추출 방법
|
10 |
10
제1항에 있어서,상기 체언을 추출하는 단계는,-이 및 -은 과 결합된 단어, 및 -가 및 -는 과 결합된 단어를 체언으로 추출하는 단계를 포함하는 유정명사 추출 방법
|
11 |
11
텍스트를 전자 문서로부터 읽어들이는 전처리부;상기 텍스트에서 주격조사 및 보조사와 결합된 체언을 추출하는 체언 추출부;상기 추출된 체언 중 유정명사용 조사와 결합된 체언을 제1 그룹으로 분류하는 그룹 분류부; 및상기 제1 그룹의 체언에 관형격조사가 결합되어 있는 어절 뒤에 제1 단어와 인접하는 명사구가 상기 텍스트 내에서 소정 횟수 이상 나타나는 경우, 상기 제1 단어의 앞에 인접하며 상기 관형격조사와 결합되어 있는 체언, 및 상기 제1 그룹의 체언을 유정명사의 후보로 추출하는 유정명사 추출부를 포함하는 유정명사 추출 장치
|
12 |
12
제1항 내지 제10항 중 어느 한 항의 방법을 프로세서가 수행하도록 하는 컴퓨터 판독 가능 기록매체에 저장된 프로그램
|
13 |
13
제1항 내지 제10항 중 어느 한 항의 방법을 프로세서가 수행하게 하는 명령어를 포함하는 프로그램이 기록된 컴퓨터 판독 가능 기록매체
|