1 |
1
국문 및 영문 문장 쌍으로 이루어진 병렬말뭉치를 수집하는 문장 수집 모듈(10);상기 병렬말뭉치의 상기 국문 및 영문 문장에 동시에 출현한 한글-영어 단어 쌍의 빈도를 이용하여 검색어에 대한 대역어 뭉치를 추출하고, 상기 병렬말뭉치의 상기 국문 문장에 포함된 한글 단어를 이용하여 상기 검색어에 대한 연관단어 뭉치를 추출하는 단어 간 상관성 분석 모듈(30);상기 대역어 뭉치를 기초로 상기 검색어에 대한 대체어 목록을 추출하고, 상기 대역어 뭉치가 저장되는 대역어 뭉치 DB(40);상기 연관단어 뭉치를 기초로 상기 대체어 목록에서 연관단어를 필터링하여 상기 검색어에 대한 최종 대체어를 추출하고, 상기 연관단어 뭉치가 저장되는 연관단어 뭉치 DB(50); 및상기 최종 대체어가 저장되는 대체어 DB(60);를 포함하는 것을 특징으로 하는 병렬말뭉치를 이용한 대체어 자동 추출 시스템
|
2 |
2
제 1항에 있어서,상기 수집된 병렬말뭉치에서 불필요한 부분을 제거하고, 상기 제거된 병렬말뭉치에서 국문 및 영문 색인어를 추출하는 전처리 모듈(20)을 더 포함하며,상기 단어 간 상관성 분석 모듈(30)은 상기 국문 및 영문 색인어를 이용하여 상기 대역어 뭉치 및 상기 연관단어 뭉치를 추출하는 것을 특징으로 하는 병렬말뭉치를 이용한 대체어 자동 추출 시스템
|
3 |
3
제 1항에 있어서,상기 단어 간 상관성 분석 모듈(30)은,상기 병렬말뭉치의 상기 국문 및 영문 문장에 동시에 출현한 한글-영어 단어 쌍의 빈도를 이용하여 Jaccard 상관계수를 다음의 [수학식 A]에 의해 계산하고, 상기 Jaccard 상관계수 값을 기초로 상기 검색어에 대한 상기 대역어 뭉치를 추출하는 Jaccard 계산 모듈(33); 및상기 병렬말뭉치의 상기 국문 문장에 포함된 한글 단어를 이용하여 PMI(pointwise mutual information)를 다음의 [수학식 B]에 의해 계산하고, 상기 PMI 값을 기초로 상기 검색어에 대한 상기 연관단어 뭉치를 추출하는 PMI 계산 모듈(34);을 포함하는 것을 특징으로 하는 병렬말뭉치를 이용한 대체어 자동 추출 시스템:[수학식 A],상기 [수학식 A]에서, w1은 상기 국문 문장 내에 포함된 한글 단어를 나타내고, w2는 상기 영문 문장 내에 포함된 영어 단어를 나타내며,[수학식 B],상기 [수학식 B]에서, w1 및 w2는 상기 국문 문장에 포함된 한글 단어를 나타낸다
|
4 |
4
제 3항에 있어서,상기 대역어 뭉치 DB(40)는 상기 Jaccard 계산 모듈(33)에서 추출된 상기 대역어 뭉치를 단어의 특징벡터로 하여 상기 검색어와 조합 가능한 다른 단어 사이의 코사인 유사도(cosine similarity)를 계산하고, 상기 계산된 코사인 유사도 값을 기초로 상기 검색어에 대한 상기 대체어 목록을 추출하는 것을 특징으로 하는 병렬말뭉치를 이용한 대체어 자동 추출 시스템
|
5 |
5
제 3항에 있어서,상기 연관단어 뭉치 DB(50)는 상기 PMI 계산 모듈(34)에서 추출된 상기 연관단어 뭉치를 기초로 상기 검색어와 상기 대체어 목록에 포함된 단어 사이의 PMI 값이 0 또는 음수인 단어를 획득하고, 상기 획득된 단어를 상기 검색어에 대한 상기 최종 대체어로 추출하는 것을 특징으로 하는 병렬말뭉치를 이용한 대체어 자동 추출 시스템
|
6 |
6
국문 및 영문 문장 쌍으로 이루어진 병렬말뭉치를 수집하는 단계;상기 병렬말뭉치의 상기 국문 및 영문 문장에 동시에 출현한 한글-영어 단어 쌍의 빈도를 이용하여 검색어에 대한 대역어 뭉치를 추출하는 단계;상기 병렬말뭉치의 상기 국문 문장에 포함된 한글 단어를 이용하여 상기 검색어에 대한 연관단어 뭉치를 추출하는 단계;상기 추출된 대역어 뭉치를 단어의 특징벡터로 하여 상기 검색어와 조합 가능한 다른 단어 사이의 코사인 유사도(cosine similarity)를 산출하고, 상기 산출된 코사인 유사도 값을 기초로 상기 검색어에 대한 대체어 목록을 추출하는 단계; 및상기 연관단어 뭉치를 기초로 상기 대체어 목록에서 연관단어를 필터링하여 상기 검색어에 대한 최종 대체어를 추출하는 단계;를 포함하는 것을 특징으로 하는 병렬말뭉치를 이용한 대체어 자동 추출 방법
|
7 |
7
제 6항에 있어서,상기 대역어 뭉치 추출 단계는,상기 병렬말뭉치의 상기 국문 및 영문 문장에 동시에 출현한 한글-영어 단어 쌍의 빈도를 이용하여 Jaccard 상관계수를 다음의 [수학식 A]에 의해 계산하는 단계; 및상기 Jaccard 상관계수 값을 기초로 상기 검색어에 대한 상기 대역어 뭉치를 추출하는 단계;를 포함하는 것을 특징으로 하는 병렬말뭉치를 이용한 대체어 자동 추출 방법:[수학식 A],상기 [수학식 A]에서, w1은 상기 국문 문장 내에 포함된 한글 단어를 나타내고, w2는 상기 영문 문장 내에 포함된 영어 단어를 나타낸다
|
8 |
8
제 6항에 있어서,상기 연관단어 뭉치 추출 단계는,상기 병렬말뭉치의 상기 국문 문장에 포함된 한글 단어를 이용하여 PMI(pointwise mutual information)를 다음의 [수학식 B]에 의해 계산하는 단계; 및 상기 PMI 값을 기초로 상기 검색어에 대한 상기 연관단어 뭉치를 추출하는 단계;를 포함하는 것을 특징으로 하는 병렬말뭉치를 이용한 대체어 자동 추출 방법:[수학식 B],상기 [수학식 B]에서, w1 및 w2는 상기 국문 문장에 포함된 한글 단어를 나타낸다
|
9 |
9
제 8항에서,상기 최종 대체어 추출 단계는,상기 연관단어 뭉치를 기초로 상기 검색어와 상기 대체어 목록에 포함된 단어 사이의 PMI 값이 0 또는 음수인 단어를 획득하는 단계; 및상기 획득된 단어를 상기 검색어에 대한 상기 최종 대체어로 추출하는 단계;를 포함하는 것을 특징으로 하는 병렬말뭉치를 이용한 대체어 자동 추출 방법
|