1 |
1
자연어 대화 시스템 상에서 실행되는 도메인 식별 방법에 있어서,적어도 하나의 도메인 각각에 대한 말뭉치를 수집하는 단계;상기 적어도 하나의 도메인 각각에 대한 말뭉치를 포지티브 이그잼플(positive example)과 언레이블된 이그잼플(unlabeled example)로 분류하고, 상기 언레이블된 이그잼플로부터 네거티브 이그잼플(negative example)를 선별하는 단계; 상기 네거티브 이그잼플을 선별하고 남아 있는 잔여 언레이블된 이그잼플로부터 상기 네거티브 이그잼플을 재선별함으로써, 상기 포지티브 이그잼플과 상기 네거티브 이그잼플로 최종 분류될 수 있도록 하는 적어도 하나의 도메인 식별 모델을 생성하는 단계; 및상기 적어도 하나의 도메인 식별 모델에 기반하여 입력 발화에 상응하는 하나 이상의 도메인을 선별하는 단계를 포함하는 자연어 대화 시스템을 위한 다중 도메인 식별 방법
|
2 |
2
삭제
|
3 |
3
청구항 1에 있어서, 상기 언레이블된 이그잼플로부터 네거티브 이그잼플(negative example)를 선별하는 단계는, 상기 적어도 하나의 도메인 중 하나를 해당 도메인으로 하고, 상기 해당 도메인의 말뭉치를 상기 포지티브 이그잼플(positive example)로 하고, 나머지 도메인의 말뭉치를 상기 언레이블된 이그잼플(unlabeled example)로 구분하는 단계; 상기 포지티브 이그잼플을 하나의 포지티브 클러스터로 설정하고, 상기 언레이블된 이그잼플 각각을 언레이블된 클러스터로 설정하는 클러스터 초기화 단계; 및상기 하나의 포지티브 클러스터에 포함된 발화와 상기 각각의 언레이블된 클러스터에 포함된 발화 사이의 발화 거리에 기반한 클러스터 병합을 통하여 계층적 클러스터링을 수행하는 단계를 포함하는 자연어 대화 시스템을 위한 다중 도메인 식별 방법
|
4 |
4
청구항 3에 있어서, 상기 발화 거리는, 상기 하나의 포지티브 클러스터에 포함된 발화와 상기 각각의 언레이블된 클러스터 각각에 포함된 발화의 전체 어휘 개수와 공통된 어휘 개수의 비율에 따라 산출되는 것을 특징으로 하는 자연어 대화 시스템을 위한 다중 도메인 식별 방법
|
5 |
5
청구항 3에 있어서, 상기 계층적 클러스터링을 수행하는 단계는, 상기 각각의 언레이블된 클러스터 중에서 상기 하나의 포지티브 클러스터와 가장 가까운 상기 발화 거리에 있는 클러스터를 상기 잔여 언레이블된 클러스터로 선별하고, 나머지 언레이블된 클러스터를 상기 네거티브 클러스터로 선별하여 병합하는 것을 특징으로 하는 자연어 대화 시스템을 위한 다중 도메인 식별 방법
|
6 |
6
청구항 5에 있어서, 상기 적어도 하나의 도메인 식별 모델을 생성하는 단계는, 상기 하나의 포지티브 클러스터와 상기 잔여 언레이블된 클러스터 사이의 발화 거리와, 상기 네거티브 클러스터와 상기 잔여 언레이블된 클러스터 사이의 발화 거리에 기반하여 상기 잔여 언레이블된 클러스터로부터 상기 네거티브 클러스터를 재선별하는 과정을 반복하고, 상기 재선별된 네거티브 클러스터를 상기 네거티브 클러스터에 병합하는 것을 특징으로 하는 자연어 대화 시스템을 위한 다중 도메인 식별 방법
|
7 |
7
청구항 6에 있어서, 상기 적어도 하나의 도메인 식별 모델을 생성하는 단계는,상기 네거티브 클러스터가 재선별되지 않을 때까지 반복하여 수행되는 것을 특징으로 하는 자연어 대화 시스템을 위한 다중 도메인 식별 방법
|
8 |
8
다중 도메인에서 구현되는 자연어 대화 시스템에 있어서,입력 발화를 텍스트로 변환하는 음성 인식부; 상기 입력 발화와 관련성이 높은 도메인에 포함되는 포지티브 이그잼플(positive example)과 상기 입력 발화와 관련성이 낮은 도메인에 포함된 네거티브 이그잼플(negative example)로 분류될 수 있도록 하는 적어도 하나의 도메인 식별 모델을 저장하는 도메인 식별 모델 저장부; 및상기 적어도 하나의 도메인 식별 모델에 기반하여 입력 발화에 상응하는 하나 이상의 도메인을 선정하는 도메인 식별부를 포함하되, 상기 적어도 하나의 도메인 식별 모델은, 적어도 하나의 도메인 중 하나를 해당 도메인으로 하고, 상기 해당 도메인의 말뭉치를 상기 포지티브 이그잼플(positive example)로 하고, 나머지 도메인의 말뭉치를 언레이블된 이그잼플(unlabeled example)로 구분하고, 상기 포지티브 이그잼플을 하나의 포지티브 클러스터로 설정하고, 상기 언레이블된 이그잼플 각각을 언레이블된 클러스터로 설정하며,상기 하나의 포지티브 클러스터에 포함된 발화와 상기 각각의 언레이블된 클러스터에 포함된 발화 사이의 발화 거리에 기반한 클러스터 병합을 통하여 모델링된 것을 특징으로 하는 다중 도메인을 식별하는 자연어 대화 시스템
|
9 |
9
삭제
|
10 |
10
청구항 8에 있어서, 상기 발화 거리는, 상기 하나의 포지티브 클러스터에 포함된 발화와 상기 각각의 언레이블된 클러스터 각각에 포함된 발화의 전체 어휘 개수와 공통된 어휘 개수의 비율에 따라 산출되는 것을 특징으로 하는 다중 도메인을 식별하는 자연어 대화 시스템
|
11 |
11
청구항 8에 있어서, 상기 클러스터 병합은,상기 각각의 언레이블된 클러스터 중에서 상기 하나의 포지티브 클러스터와 가장 가까운 상기 발화 거리에 있는 클러스터를 잔여 언레이블된 클러스터로 선별하고, 나머지 언레이블된 클러스터를 상기 네거티브 클러스터로 선별하여 병합하는 것을 특징으로 하는 다중 도메인을 식별하는 자연어 대화 시스템
|
12 |
12
청구항 11에 있어서, 상기 적어도 하나의 도메인 식별 모델은, 상기 하나의 포지티브 클러스터와 상기 잔여 언레이블된 클러스터 사이의 발화 거리와, 상기 네거티브 클러스터와 상기 잔여 언레이블된 클러스터 사이의 발화 거리에 기반하여 상기 잔여 언레이블된 클러스터로부터 상기 네거티브 클러스터를 재선별하는 과정을 반복하고, 상기 재선별된 네거티브 클러스터를 상기 네거티브 클러스터에 병합하여 생성된 것을 특징으로 하는 다중 도메인을 식별하는 자연어 대화 시스템
|