1 |
1
디지털 신호 처리가 가능한 정보 처리 장치에서 수행되는 다중 사용자 기반의 대화 처리 방법에 있어서,적어도 하나의 센서로부터 수집한 다중 사용자의 영상 또는 음성을 기반으로 상기 다중 사용자 중에서 발화자를 인식하는 단계;상기 적어도 하나의 센서를 이용하여 상기 발화자의 음성을 녹음하고, 상기 녹음된 발화자의 음성을 분석하여 상기 발화자의 발화 의도를 추출하는 단계;미리 구축된 대화 이력 모델을 기반으로 상기 발화자의 발화 의도에 상응하는 응답을 생성하는 단계; 및상기 정보 처리 장치의 디스플레이 장치에 그래픽 아이콘을 디스플레이함과 동시에 상기 생성된 응답을 음성으로 변환하여 출력함으로써 상기 발화자에게 상기 발화자의 발화 의도에 상응하는 응답을 제공하는 단계를 포함하되,상기 다중 사용자 중에서 발화자를 인식하는 단계는,상기 다중 사용자의 영상으로부터 입 모양의 변화, 일정 시간 동안 동공의 상기 정보 처리 장치의 디스플레이 장치에 대한 응시 및 상기 정보 처리 장치를 향한 모션을 분석하여 적어도 하나의 사용자를 대화 참여자로 판별하는 단계;상기 대화 참여자 중에서 상기 적어도 하나의 센서를 통해 음성이 수집되는 사용자를 발화자로 인식하는 단계; 및상기 다중 사용자의 영상 및 음성으로부터 상기 발화자의 얼굴 및 음성의 특징을 추출하여 상기 발화자를 식별하는 단계를 포함하고,상기 발화자의 발화 의도에 상응하는 응답을 제공하는 단계는,상기 발화자에게 현실감있는 대화를 제공할 수 있도록 상기 센서를 통해 상기 발화자의 눈의 위치를 감지하여 상기 발화자의 시선과 맞출 수 있도록 상기 그래픽 아이콘을 디스플레이하되, 상기 음성으로 변환된 응답에 상응하도록 상기 그래픽 아이콘의 입 모양 및 제스처를 포함하는 모션을 디스플레이하는 것을 특징으로 하는 다중 사용자 기반의 대화 처리 방법
|
2 |
2
삭제
|
3 |
3
삭제
|
4 |
4
삭제
|
5 |
5
청구항 1에 있어서,상기 발화자의 발화 의도를 추출하는 단계는,상기 녹음된 발화자의 음성을 텍스트로 변환하고, 상기 텍스트로부터 상기 발화자의 발화 의도를 추출하는 것을 특징으로 하는 다중 사용자 기반의 대화 처리 방법
|
6 |
6
청구항 1에 있어서,상기 대화 이력 모델은,상기 다중 사용자의 사용자 별로 발화가 진행되는 상황에서의 영상 및 음성을 수집하여 저장된 사용자 별 대화 이력과 대화 말뭉치(corpus)를 확률 기반 모델 또는 기계 학습 기반으로 훈련함으로써 구축되는 것을 특징으로 하는 다중 사용자 기반의 대화 처리 방법
|
7 |
7
청구항 6에 있어서,상기 발화자의 발화 의도에 상응하는 응답을 생성하는 단계는,상기 미리 구축된 대화 이력 모델에서 상기 발화자에 상응하는 상기 사용자 별 대화 이력을 추출하고 상기 추출된 사용자 별 대화 이력을 기반으로 상기 발화자의 발화 의도에 상응하는 응답을 생성하는 것을 특징으로 하는 다중 사용자 기반의 대화 처리 방법
|
8 |
8
디지털 신호 처리가 가능한 정보 처리 장치에 구현되는 다중 사용자 기반의 대화 처리 장치에 있어서,적어도 하나의 센서로부터 수집한 다중 사용자의 영상 또는 음성을 기반으로 상기 다중 사용자 중에서 발화자를 인식하는 발화자 인식부;상기 적어도 하나의 센서를 이용하여 상기 발화자의 음성을 녹음하고, 상기 녹음된 발화자의 음성을 분석하여 상기 발화자의 발화 의도를 추출하는 발화의도 추출부;미리 구축된 대화 이력 모델을 기반으로 상기 발화자의 발화 의도에 상응하는 응답을 생성하는 응답 생성부; 및상기 정보 처리 장치의 디스플레이 장치에 그래픽 아이콘을 디스플레이함과 동시에 상기 생성된 응답을 음성으로 변환하여 출력함으로써 상기 발화자에게 상기 발화자의 발화 의도에 상응하는 응답을 제공하는 응답 제공부를 포함하되,상기 발화자 인식부는,상기 다중 사용자의 영상으로부터 입 모양의 변화, 일정 시간 동안 동공의 상기 정보 처리 장치의 디스플레이 장치에 대한 응시 및 상기 정보 처리 장치를 향한 모션을 분석하여 적어도 하나의 사용자를 대화 참여자로 판별하는 참여자 판별 모듈; 및상기 대화 참여자 중에서 상기 적어도 하나의 센서를 통해 음성이 수집되는 사용자를 발화자로 인식하고, 상기 다중 사용자의 영상 및 음성으로부터 상기 발화자의 얼굴 및 음성의 특징을 추출하여 상기 발화자를 식별하는 발화자 식별 모듈을 포함하고,상기 응답 제공부는,상기 발화자에게 현실감있는 대화를 제공할 수 있도록 상기 센서를 통해 상기 발화자의 눈의 위치를 감지하여 상기 발화자의 시선과 맞출 수 있도록 상기 그래픽 아이콘을 디스플레이하되, 상기 음성으로 변환된 응답에 상응하도록 상기 그래픽 아이콘의 입 모양 및 제스처를 포함하는 모션을 디스플레이하는 것을 특징으로 하는 다중 사용자 기반의 대화 처리 장치
|
9 |
9
삭제
|
10 |
10
삭제
|
11 |
11
삭제
|
12 |
12
청구항 8에 있어서,상기 발화의도 추출부는,상기 녹음된 발화자의 음성을 텍스트로 변환하고, 상기 텍스트로부터 상기 발화자의 발화 의도를 추출하는 것을 특징으로 하는 다중 사용자 기반의 대화 처리 장치
|
13 |
13
청구항 8에 있어서,상기 대화 이력 모델은,상기 다중 사용자의 사용자 별로 발화가 진행되는 상황에서의 영상 및 음성을 수집하여 저장된 사용자 별 대화 이력과 대화 말뭉치(corpus)를 확률 기반 모델 또는 기계 학습 기반으로 훈련함으로써 구축되는 것을 특징으로 하는 다중 사용자 기반의 대화 처리 장치
|
14 |
14
청구항 13에 있어서,상기 응답 생성부는,상기 미리 구축된 대화 이력 모델에서 상기 발화자에 상응하는 상기 사용자 별 대화 이력을 추출하고 상기 추출된 사용자 별 대화 이력을 기반으로 상기 발화자의 발화 의도에 상응하는 응답을 생성하는 것을 특징으로 하는 다중 사용자 기반의 대화 처리 장치
|