1 |
1
사용자의 동작을 인식하는 동작 상태 인식 모듈 및상기 동작 상태 인식 모듈로 수집되는 사용자의 동작에 따라 작업을 수행하도록 구비되는 협력로봇 작업부의 동작을 제어하는 동작 제어 모듈을 포함하는 휴머노이드 로봇이 사용자의 동작에 따라 함께 동작하여 협업할 수 있도록 제어하는 협력로봇 제어 시스템에 있어서,상기 동작 상태 인식 모듈은,휴머노이드 로봇의 전방에 구비되어 작업부에 거치된 작업물의 이미지를 촬영하여 데이터로 변환하는 작업물 이미지 획득 모듈을 포함하고,상기 동작 제어 모듈은,상기 작업물 이미지 획득 모듈을 통해 촬영된 작업부에 거치된 작업물의 각도에 따른 작업물 이미지의 범위를 토대로 작업부의 동작을 제어하는 것을 특징으로 하는 Q-학습 기반의 협력로봇 제어 시스템
|
2 |
2
제 1 항에 있어서,상기 동작 제어 모듈은,상기 동작 상태 인식 모듈을 통해 인식되는 사용자의 동작에 관한 데이터를 바탕으로 도출되는 Q-학습 단계에서 산출된 정책(π)에 의해 작업부를 제어하고,상기 Q-학습 단계에서 산출되는 정책은,[수학식 1]을 통해 도출되는 것을 특징으로 하는 Q-학습 기반의 협력로봇 제어 시스템[수학식 1](여기서, π 는 정책, Q 는 동작가치 함수, s 는 작업물의 상태, a 는 로봇의 동작, A는 모든 작업부 동작의 집합
|
3 |
3
제 2 항에 있어서,상기 작업부의 동작은,작업물의 상태(s)에서 Q 함수의 값이 가장 높은 작업부의 동작 모드(a)를 수행하는 것을 특징으로 하는 Q-학습 기반의 협력로봇 제어 시스템
|
4 |
4
제 3 항에 있어서,상기 Q-학습 단계는, 작업부의 수행 단계에서 수행되는 모드의 동작에 사용되는 Q 값을 업데이트 하여 이후 수행될 작업부의 동작에 대한 보상 정책을 수립하는 Q-강화 학습 단계를 포함하고,상기 Q-강화 학습 단계는,[수학식 2]로 도출되는 것을 특징으로 하는 Q-학습 기반의 협력로봇 제어 시스템[수학식 2](는 현재 상태에서 다음 상태로 가는 로봇 동작에 대한 보상을 의미하며, , , 의 는 작업부의 동작 횟수(iteration time)을 의미한다
|
5 |
5
제 4 항에 있어서,상기 Q 값은,[수학식 3]으로 업데이트 되는 것을 특징으로 하는 Q-학습 기반의 협력로봇 제어 시스템[수학식 3]
|
6 |
6
제 5 항에 있어서,상기 Q-학습 기반의 협력로봇 제어 시스템은,작업부의 동작을 검토하는 정확도 검증 모듈을 더 포함하고,상기 정확도 검증 모듈은, [수학식 4]를 수행하여 작업부의 동작에 대한 정확성을 판별하는 것을 특징으로 하는 Q-학습 기반의 협력로봇 제어 시스템[수학식 4]
|
7 |
7
제 6 항에 있어서,상기 Q-학습 기반의 협력로봇 제어 시스템은,Q-강화 학습 단계 이후 작업부의 동작을 정립하는 최종 정책 수립 단계를 더 포함하고,상기 최종 정책 수립 단계는, [수학식 5]에 의해 결정되어, 작업부에 동작을 수행하도록 하는 것을 특징으로 하는 Q-학습 기반의 협력로봇 제어 시스템[수학식 5](는 일 때의 Q 함수)
|