1 |
1
통계적 기계번역 시스템에서 단어 및 구문들간의 번역 관계를 자율적으로 학습하기 위한 장치에 있어서,
형태-구문 분석된 소스 언어 문장을 수신하고, 상기 형태-구문 분석된 소스 언어 문장을 형태-구문적 특징 정보를 부착한 토큰화된 소스 언어 문장으로 변화시키는 소스 언어 문장 전처리기와,
형태-구문 분석된 타겟 언어 문장을 수신하고, 상기 형태-구문 분석된 타겟 언어 문장을 형태-구문적 특징 정보를 부착한 토큰화된 타겟 언어 문장으로 변화시키는 타겟 언어 문장 전처리기와,
상기 토큰화된 소스 언어 문장 및 상기 토큰화된 타겟 언어 문장을 수신하여, 상기 토큰화된 소스 언어 문장 및 상기 토큰화된 타겟 언어 문장의 쌍에 대한 단어 정렬 및 구문 정렬을 수행하는 자율 학습기와,
상기 자율 학습기의 상기 단어 정렬 및 구문 정렬 수행을 반복시키기 위한 학습 종료 조건 검사기
를 포함하며,
상기 형태-구문적 특징 정보는 형태소 또는 단어의 원형, 품사, 기본구 내에서의 상대적 위치정보, 구문 정보를 포함하는, 단어 및 구문들간의 번역 관계를 자율적으로 학습하기 위한 장치
|
2 |
2
제1항에 있어서,
소스 언어는 한국어이고 타겟 언어는 영어 또는 중국어인, 단어 및 구문들간의 번역 관계를 자율적으로 학습하기 위한 장치
|
3 |
3
제1항에 있어서,
상기 자율 학습기는, 상기 토큰화된 소스 언어 문장의 단어를 상기 토큰화된 타겟 언어 문장의 단어로 정렬하고 상기 토큰화된 타겟 언어 문장의 단어를 상기 토큰화된 소스 언어 문장의 단어로 정렬하여, 소스 언어에 적용된 형태-구문 특징 정보와 타겟 언어에 적용된 형태-구문 특징 정보에 따라 문장단위로 다수의 단어 정렬 집합을 획득하는 단어 정렬기를 포함하는, 단어 및 구문들간의 번역 관계를 자율적으로 학습하기 위한 장치
|
4 |
4
제3항에 있어서,
상기 자율 학습기는, 상기 다수의 단어 정렬 집합이 공통적으로 갖는 단어 정렬 결과를 초기 정렬값으로 취하여 구문 정렬(phrase alignment)을 수행하고 정렬되지 않은 소스와 타겟 언어의 구문의 내용어(content word)들을 대상으로 대역 스코어를 계산하고 가장 높은 대역 스코어를 갖는 단어를 선택하여 단어를 재정렬하는 단어 재정렬기를 더 포함하는, 단어 및 구문들간의 번역 관계를 자율적으로 학습하기 위한 장치
|
5 |
5
제4항에 있어서,
상기 자율 학습기는, 상기 구문 정보를 활용하여 하나 이상의 소스 구문과 하나 이상의 타겟 구문을 대역 구문으로 정렬하는 구문 정렬기를 더 포함하는, 단어 및 구문들간의 번역 관계를 자율적으로 학습하기 위한 장치
|
6 |
6
제5항에 있어서,
상기 자율 학습기는 상기 단어 재정렬 결과 및 상기 구문 정렬 결과로부터 단어 및 구문 대역 사전을 생성하는 대역 사전 생성기를 더 포함하는, 단어 및 구문들간의 번역 관계를 자율적으로 학습하기 위한 장치
|
7 |
7
제6항에 있어서,
상기 대역 사전 생성기는 신뢰도 측정을 통한 필터링 과정을 거쳐 임계 신뢰도 이상의 대역쌍들만을 상기 단어 및 구문 대역 사전에 존재시키고 임계 신뢰도 미만의 대역쌍은 상기 단어 및 구문 대역 사전에서 제거하는, 단어 및 구문들간의 번역 관계를 자율적으로 학습하기 위한 장치
|
8 |
8
제7항에 있어서,
상기 학습 종료 조건 검사기는 상기 단어 및 구문 대역 사전에 더 이상 변화가 없게 될 때까지 상기 자율 학습기의 단어 정렬, 단어 재정렬, 구문 정렬, 단어 및 구문 대역 사전 생성 과정을 반복시키는, 단어 및 구문들간의 번역 관계를 자율적으로 학습하기 위한 장치
|
9 |
9
제1항에 있어서,
상기 자율 학습기에 의한 상기 단어 정렬 결과 및 상기 구문 정렬 결과로부터 통계 기반의 번역 모델을 위한 파라미터를 추출하는, 통계적 기계번역 모델 파라미터 추출기를 더 포함하는, 단어 및 구문들간의 번역 관계를 자율적으로 학습하기 위한 장치
|
10 |
10
통계적 기계번역 시스템에서 단어 및 구문들간의 번역 관계를 자율적으로 학습하기 위한 방법에 있어서,
(a) 형태-구문 분석된 소스 언어 문장 및 형태-구문 분석된 타겟 언어 문장을 수신하는 단계와,
(b) 상기 형태-구문 분석된 소스 언어 문장 및 상기 형태-구문 분석된 타겟 언어 문장 각각을 형태소 또는 단어 단위로 나누고 각 형태소 또는 단어에 형태-구문적 특징 정보를 부착하고, 상기 형태-구문적 특징 정보가 부착된 형태소 또는 단어를 번역의 기본단위로 하는 토큰화된 소스 언어 문장 및 토큰화된 타겟 언어 문장을 구성하는 단계와,
(c) 상기 토큰화된 소스 언어 문장 및 상기 토큰화된 타겟 언어 문장의 쌍에 대한 단어 정렬 및 구문 정렬을 수행하는 단계와,
(d) 상기 단어 정렬 결과 및 상기 구문 정렬 결과로부터 단어 및 구문 대역 사전을 생성하는 단계
를 포함하는, 통계적 기계번역 시스템에서 단어 및 구문들간의 번역 관계를 자율적으로 학습하기 위한 방법
|
11 |
11
삭제
|
12 |
12
제10항에 있어서,
상기 (c)단계는, 상기 토큰화된 소스 언어 문장의 단어를 토큰화된 상기 타겟 언어 문장의 단어로 정렬하고 상기 토큰화된 타겟 언어 문장의 단어를 상기 토큰화된 소스 언어 문장의 단어로 정렬하여, 소스 언어에 적용된 형태-구문 특징 정보와 타겟 언어에 적용된 형태-구문 특징 정보에 따라 문장단위로 다수의 단어 정렬 집합을 획득하는 단계와,
상기 다수의 단어 정렬 집합이 공통적으로 갖는 단어 정렬 결과를 초기 정렬값으로 취하여 구문 정렬(phrase alignment)을 수행하고 정렬되지 않은 소스와 타겟 언어의 구문의 내용어(content word)들을 대상으로 대역 스코어를 계산하고 가장 높은 대역 스코어를 갖는 단어를 선택하여 단어를 재정렬하는 단계와,
구문 정보를 활용하여 하나 이상의 소스 구문과 하나 이상의 타겟 구문을 대역 구문으로 정렬하는 단계
를 포함하는, 통계적 기계번역 시스템에서 단어 및 구문들간의 번역 관계를 자율적으로 학습하기 위한 방법
|
13 |
13
제12항에 있어서,
상기 (d)단계는, 임계 신뢰도 이상의 대역쌍들만을 상기 단어 및 구문 대역 사전에 존재시키고 임계 신뢰도 미만의 대역쌍은 상기 단어 및 구문 대역 사전에서 제거하는 단계를 포함하는, 통계적 기계번역 시스템에서 단어 및 구문들간의 번역 관계를 자율적으로 학습하기 위한 방법
|
14 |
14
제13항에 있어서,
상기 단어 및 구문 대역 사전에 더 이상 변화가 없게 될 때까지 상기 (c) 및 (d) 단계를 반복하는 단계를 더 포함하는, 통계적 기계번역 시스템에서 단어 및 구문들간의 번역 관계를 자율적으로 학습하기 위한 방법
|