1 |
1
(a) 기존 태깅된 코퍼스로부터 태깅 확률 정보를 학습하여 어휘 품사 문맥확률 정보 DB 및 어휘확률 정보 DB를 구축하는 단계;(b) 적용 도메인의 원시 코퍼스(raw corpus)를 기반으로 상기 어휘확률 정보 DB를 도메인 의존적으로 학습하여 갱신하는 단계;(c) 형태소 분석 사전 DB를 기반으로 입력 문장에 대한 형태소 분석을 수행하는 단계;(d) 상기 어휘 품사 문맥확률 정보 DB와 상기 갱신된 어휘확률 정보 DB를 기반으로 상기 형태소 분석 결과에 대하여 통계적 품사 태깅을 수행하는 단계; 및(e) 상기 통계적 품사 태깅 단계를 통해 태깅된 결과에서 태깅 오류 수정 규칙 DB에 따라 오류를 수정하여 출력하는 단계를 포함하며,상기 (b) 단계는,상기 적용 도메인 원시 코퍼스에 대하여 통계적 품사 태깅을 수행하여 자동 태깅된 코퍼스를 구축하고, 상기 자동 태깅된 코퍼스를 기반으로 적용 도메인의 어휘확률 통계치를 추출하는 제 1 단계와,상기 어휘확률 정보 DB의 정보와 상기 제 1 단계에서 추출된 도메인 의존적 어휘확률 통계치 정보를 기반으로 도메인 의존적 어휘를 추출하는 제 2 단계와,상기 제 2 단계에서 추출된 도메인 의존적 어휘의 어휘확률을 조정하여 상기 조정된 도메인 의존적 어휘확률을 기반으로 상기 어휘확률 정보 DB를 갱신하는 제 3 단계를 더 포함하는 것을 특징으로 하는 태깅된 도메인 코퍼스 없이 새로운 도메인에 적용 가능한 통계적 HMM 품사 태깅 방법
|
2 |
2
제 1항에 있어서, 상기 (b) 단계에서,상기 제 2 단계에서 추출된 도메인 의존적 어휘의 개수가 소정의 종료 검사수 미만일 경우 상기 제 3 단계의 어휘확률 조정 및 그에 따른 어휘확률 정보 DB 갱신 단계를 종료하는 제 4 단계를 더 포함하는 것을 특징으로 하는 태깅된 도메인 코퍼스 없이 새로운 도메인에 적용 가능한 통계적 HMM 품사 태깅 방법
|
3 |
3
제 1 항에 있어서, 상기 제 2 단계에서,상기 도메인 의존적 어휘는,여기에서, f(wi) : 태깅된 코퍼스에 나타나는 단어 wi 의 개수f(wi, tj) : 단어 wi 가 품사 tj 를 가지는 경우 태깅된 코퍼스에서 단어 wi 가 품사 tj로 나타나는 개수f'(wi) : 자동 태깅된 코퍼스에 나타나는 단어 wi 의 개수f'(wi, tj) : 단어 wi 가 품사 tj 를 가지는 경우 자동 태깅된 코퍼스(104)에서 단어 wi 가 품사 tj로 나타나는 개수에 의해 추출되는 것을 특징으로 하는 태깅된 도메인 코퍼스 없이 새로운 도메인에 적용 가능한 통계적 HMM 품사 태깅 방법
|
4 |
4
제 1 항에 있어서, 상기 제 3 단계에서,상기 도메인 의존적 어휘확률은, 여기에서, f(wi, tj) : 단어 wi 가 품사 tj 를 가지는 경우 태깅된 코퍼스에서 단어 wi 가 품사 tj로 나타나는 개수f'(wi) : 자동 태깅된 코퍼스에 나타나는 단어 wi 의 개수f'(wi, tj) : 단어 wi 가 품사 tj 를 가지는 경우 자동 태깅된 코퍼스에서 단어 wi 가 품사 tj로 나타나는 개수f(tj) : 품사 tj가 태깅된 코퍼스에서 나타나는 개수N : 태깅된 코퍼스에서의 모든 단어의 출현 빈도 합N’: 자동 태깅된 코퍼스에서의 모든 단어의 출현 빈도 합에 의해 조정되는 것을 특징으로 하는 태깅된 도메인 코퍼스 없이 새로운 도메인에 적용 가능한 통계적 HMM 품사 태깅 방법
|
5 |
5
제 2 항에 있어서, 상기 제 4 단계에서,상기 제 2 단계에서 추출된 도메인 의존적 어휘의 개수가 소정의 종료 검사수 이상인 경우 상기 제 3 단계의 어휘확률 조정 및 그에 따른 어휘확률 정보 DB 갱신 단계를 반복하는 단계를 더 포함하는 것을 특징으로 하는 태깅된 도메인 코퍼스 없이 새로운 도메인에 적용 가능한 통계적 HMM 품사 태깅 방법
|
6 |
6
형태소 분석 사전 DB를 기반으로 입력 문장을 형태소 분석하는 형태소 분석부;기존 태깅된 코퍼스로부터 태깅 확률 정보를 학습하여 어휘 품사 문맥확률 정보 DB 및 어휘확률 정보 DB를 구축하는 태깅 확률 정보 학습부;적용 도메인의 원시 코퍼스를 기반으로 상기 어휘확률 정보 DB를 도메인 의존적으로 학습하여 갱신하는 도메인 의존 확률 정보 학습부;상기 어휘 품사 문맥확률 정보 DB 및 상기 갱신된 어휘확률 정보 DB를 기반으로 상기 형태소 분석부를 통해 형태소 분석된 결과에 대하여 통계적 품사 태깅을 수행하는 통계적 품사 태깅부; 및상기 통계적 품사 태깅부를 통해 태깅된 결과에서 태깅 오류 수정 규칙 DB에 따라 오류를 수정하여 출력하는 태깅 오류 정정부를 포함하는 것을 특징으로 하는 태깅된 도메인 코퍼스 없이 새로운 도메인에 적용 가능한 통계적 HMM 품사 태깅 장치
|
7 |
7
제 6항에 있어서, 상기 도메인 의존 확률 정보 학습부는,상기 적용 도메인 원시 코퍼스를 기반으로 자동 태깅된 코퍼스를 구축하고,상기 자동 태깅된 코퍼스를 기반으로 현재 도메인의 어휘확률 통계치를 추출하여, 상기 어휘확률 정보 DB 및 상기 추출된 도메인 의존적 어휘확률 통계치 정보를 기반으로 도메인 의존적 어휘를 추출하며,상기 추출된 도메인 의존적 어휘의 어휘확률을 조정하여 상기 조정된 도메인 의존적 어휘확률을 기반으로 상기 어휘확률 정보 DB를 갱신하는 것을 특징으로 하는 태깅된 도메인 코퍼스 없이 새로운 도메인에 적용 가능한 통계적 HMM 품사 태깅 장치
|
8 |
8
제 7항에 있어서, 상기 도메인 의존 확률 정보 학습부는,상기 추출된 도메인 의존적 어휘의 개수가 소정의 종료 검사수 미만일 경우 도메인 의존 어휘확률 학습을 종료하며, 상기 추출된 도메인 의존적 어휘의 개수가 소정의 종료 검사수 이상인 경우 도메인 의존 어휘확률 학습을 반복하는 것을 특징으로 하는 태깅된 도메인 코퍼스 없이 새로운 도메인에 적용 가능한 통계적 HMM 품사 태깅 장치
|
9 |
9
제 6항에 있어서, 상기 갱신된 어휘확률 정보 DB에는, 적용 도메인 의존 어휘확률 정보가 저장된 것을 특징으로 하는 태깅된 도메인 코퍼스 없이 새로운 도메인에 적용 가능한 통계적 HMM 품사 태깅 장치
|