1 |
1
오디오 신호를 수신하는 단계;뎁스 카메라를 통해 촬영된 뎁스 픽쳐 데이터를 획득하는 단계;상기 뎁스 픽쳐 데이터에서 적어도 하나의 사용자 머리 위치 정보를 추출하는 단계;상기 추출된 사용자 머리 위치 정보를 3차원 상의 좌표 정보로 변환하는 단계;상기 변환된 좌표 정보 및 상기 수신된 오디오 신호를 이용하여, 상기 적어도 하나의 사용자 머리 위치 정보 중 화자의 위치 정보를 식별하는 단계;상기 식별된 화자의 위치 정보에 대응하는 가중치를 획득하는 단계; 및상기 가중치를 이용하여, 상기 수신된 오디오 신호에 빔포밍을 수행하여 상기 화자의 음원을 분리하는 단계;를 포함하며,상기 화자의 위치 정보를 식별하는 단계는,상기 변환된 좌표를 이용하여, 상기 사용자 머리 위치에서 마이크로폰 어레이의 각 마이크에 대한 소리의 도달시간 차이를 구하는 단계;상기 도달시간 차이를 이용하여 상기 사용자 머리 위치에 대한 방향 벡터를 구하는 단계;상기 방향 벡터를 이용하여 상기 오디오 신호의 빔포밍을 위한 가중치를 획득하는 단계; 및상기 가중치로 상기 오디오 신호를 빔포밍한 출력의 파워를 이용하여 상기 사용자 머리 위치가 화자의 위치인지 여부를 판별하는 단계;를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법
|
2 |
2
삭제
|
3 |
3
제 1항에 있어서,상기 사용자 머리 위치가 화자의 위치인지 여부를 판별하는 단계는,상기 빔포밍한 출력의 파워를 기 설정된 임계값과 비교하고,상기 빔포밍한 출력의 파워가 기 설정된 임계값 이상일 경우, 해당 사용자 머리 위치를 화자의 위치로 식별하는 것을 특징으로 하는 오디오 신호 처리 방법
|
4 |
4
제 1항에 있어서,상기 가중치를 획득하는 단계는,상기 식별된 화자의 위치 정보에 대응하는 방향 벡터를 이용하여 상기 가중치를 획득하는 것을 특징으로 하는 오디오 신호 처리 방법
|
5 |
5
제 4항에 있어서,상기 가중치는 주파수 빈(frequecy bin)별 가중치인 것을 특징으로 하는 오디오 신호 처리 방법
|
6 |
6
제 1항에 있어서,상기 사용자 머리 위치 정보를 추출하는 단계는,상기 사용자 머리 위치를 검출하는 단계; 및상기 사용자 머리 위치를 추적하는 단계;를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법
|
7 |
7
제 6항에 있어서,상기 사용자 머리 위치를 검출하는 단계는,상기 뎁스 픽쳐 데이터에서 배경 이미지를 제거하는 단계;상기 배경 이미지가 제거된 뎁스 픽쳐 데이터에서 엣지 이미지를 추출하는 단계;상기 뎁스 픽쳐 데이터에서 거리 이미지를 추출하는 단계;상기 추출된 엣지 이미지와 거리 이미지간의 매칭을 통해 머리 후보군을 획득하는 단계; 및상기 획득된 머리 후보군을 기 설정된 머리 템플릿 이미지와 템플릿 매칭을 수행하여 사용자 머리 위치를 획득하는 단계;를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법
|
8 |
8
제 6항에 있어서,상기 사용자 머리 위치를 추적하는 단계는,상기 검출된 사용자 머리 위치에 대응하는 윈도우를 설정하는 단계; 및상기 윈도우를 이용하여 상기 사용자 머리의 중심부를 추적하는 단계;를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법
|
9 |
9
오디오 신호 처리 장치에 있어서,뎁스 카메라를 통해 촬영된 뎁스 픽쳐 데이터를 획득하고, 상기 뎁스 픽쳐 데이터에서 적어도 하나의 사용자 머리 위치 정보를 추출하고, 상기 추출된 사용자 머리 위치 정보를 3차원 상의 좌표 정보로 변환하는 비디오 처리부;오디오 신호를 수신하고, 상기 비디오 처리부에서 변환된 좌표 정보 및 상기 수신된 오디오 신호를 이용하여 상기 적어도 하나의 사용자 머리 위치 정보 중 화자의 위치 정보를 식별하고, 상기 식별된 화자의 위치 정보에 대응하는 가중치를 획득하는 오디오 처리부; 및상기 가중치를 이용하여, 상기 수신된 오디오 신호에 빔포밍을 수행하여 상기 화자의 음원을 분리하는 음원 분리부;를 포함하며,상기 오디오 처리부는,상기 변환된 좌표를 이용하여, 상기 사용자 머리 위치에서 마이크로폰 어레이의 각 마이크에 대한 소리의 도달시간 차이를 구하고,상기 도달시간 차이를 이용하여 상기 사용자 머리 위치에 대한 방향 벡터를 구하고,상기 방향 벡터를 이용하여 상기 오디오 신호의 빔포밍을 위한 가중치를 획득하고,상기 가중치로 상기 오디오 신호를 빔포밍한 출력의 파워를 이용하여 상기 사용자 머리 위치가 화자의 위치인지 여부를 판별하는것을 특징으로 하는 오디오 신호 처리 장치
|
10 |
10
삭제
|
11 |
11
제 9항에 있어서,상기 오디오 처리부는,상기 빔포밍한 출력의 파워를 기 설정된 임계값과 비교하고,상기 빔포밍한 출력의 파워가 기 설정된 임계값 이상일 경우, 해당 사용자 머리 위치를 화자의 위치로 식별하는 것을 특징으로 하는 오디오 신호 처리 장치
|
12 |
12
제 9항에 있어서,상기 오디오 처리부는,상기 식별된 화자의 위치 정보에 대응하는 방향 벡터를 이용하여 상기 가중치를 획득하는 것을 특징으로 하는 오디오 신호 처리 장치
|
13 |
13
제 12항에 있어서,상기 가중치는 주파수 빈(frequecy bin)별 가중치인 것을 특징으로 하는 오디오 신호 처리 장치
|
14 |
14
제 9항에 있어서,상기 비디오 처리부는,상기 사용자 머리 위치를 검출하는 머리 위치 검출부; 및상기 사용자 머리 위치를 추적하는 머리 위치 추적부를 포함하는 것을 특징으로 하는 오디오 신호 처리 장치
|
15 |
15
제 14항에 있어서,상기 머리 위치 검출부는,상기 뎁스 픽쳐 데이터에서 배경 이미지를 제거하고,상기 배경 이미지가 제거된 뎁스 픽쳐 데이터에서 엣지 이미지를 추출하고,상기 뎁스 픽쳐 데이터에서 거리 이미지를 추출하고,상기 추출된 엣지 이미지와 거리 이미지간의 매칭을 통해 머리 후보군을 획득하고,상기 획득된 머리 후보군을 기 설정된 머리 템플릿 이미지와 템플릿 매칭을 수행하여 사용자 머리 위치를 획득하는 것을 특징으로 하는 오디오 신호 처리 장치
|
16 |
16
제 14항에 있어서,상기 사용자 머리 위치를 추적부는,상기 검출된 사용자 머리 위치에 대응하는 윈도우를 설정하고,상기 윈도우를 이용하여 상기 사용자 머리의 중심부를 추적하는 것을 특징으로 하는 오디오 신호 처리 장치
|