1 |
1
순차적으로 연결된 제1 내지 제6링크부, 상기 제6링크부와 결합하고 작업을 수행하는 엔드이펙터(End-effector), 및 각각의 관절을 회전시키기 위한 제1 내지 제7서보모터를 포함하는 7축 로봇에 대해 강화학습을 구성하는 파리미터(parameter)를 설정하고, 상태(State)와 행동(Action)을 설정하는 설정 단계;상기 엔드이펙터의 기준점의 위치 오차와 각도 오차에 대한 행동요령 평가(Policy Evaluation)가 일정한 기준 오차 이내에서 수행되고, 전체 오차가 최소인 행동(Action)에 대해서 행동요령 개선(Policy Improvement)의 보상(Reward)을 수행하는 보상 수행 단계;전체 오차가 최소인 행동(Action)에 해당하는 최적의 행동요령(Optimal Policy)을 도출하는 행동요령 도출 단계; 및상기 최적의 행동요령(Optimal Policy)에 따른 제어신호를 상기 제1 내지 제7서보모터 각각에 전달하여 상기 7축 로봇이 작동하는 작동 단계;를 포함하는 것을 특징으로 하는 강화학습을 이용한 7축 로봇 제어 방법
|
2 |
2
청구항 1에 있어서,상기 설정 단계에서, 상기 상태(State)는 상기 엔드이펙터의 기준점의 3차원 위치 좌표(x, y 및 z)인 것을 특징으로 하는 강화학습을 이용한 7축 로봇 제어 방법
|
3 |
3
청구항 1에 있어서,상기 설정 단계에서, 상기 행동(Action)은 상기 제1 내지 제7서보모터 각각의 회전 각도(θ1~ θ7)인 것을 특징으로 하는 강화학습을 이용한 7축 로봇 제어 방법
|
4 |
4
청구항 1에 있어서,상기 보상 수행 단계는, 현재 행동요령(Current policy)을 대체하는 후보 행동요령(Candidate policy)을 도출하는 후보 행동요령 연산 단계;상기 후보 행동요령(Candidate policy)을 이용하여, 현재 상태(Current state)를 대체하는 후보 상태(Candidate state)를 도출하는 후보 상태 연산 단계; 및상기 후보 상태(Candidate state)을 이용하여, 상기 엔드이펙터의 기준점 상태(State)의 오차(error)에 대한 함수인 상태행동 가치함수를 도출하는 가치함수 도출 단계;를 포함하는 것을 특징으로 하는 강화학습을 이용한 7축 로봇 제어 방법
|
5 |
5
청구항 4에 있어서,상기 보상 수행 단계는, 상기 상태행동 가치함수의 한계 값(Qlimit)이 상기 상태행동 가치함수의 최소 값(Qmin) 이상인지 여부를 판단하는 한계 판단 단계;를 더 포함하는 것을 특징으로 하는 강화학습을 이용한 7축 로봇 제어 방법
|
6 |
6
청구항 5에 있어서,상기 보상 수행 단계는, 상기 한계 판단 단계 수행 후, 다음 행동요령(next policy)을 도출하여 상기 다음 행동요령(next policy)을 상기 현재 행동요령(Current policy)에 대입하는 업데이트를 수행하는 행동요령 개선 단계;를 더 포함하는 것을 특징으로 하는 강화학습을 이용한 7축 로봇 제어 방법
|
7 |
7
청구항 1에 있어서,상기 7축 로봇은, 상부면이 평면으로 형성되는 베이스를 더 포함하는 것을 특징으로 하는 강화학습을 이용한 7축 로봇 제어 방법
|
8 |
8
청구항 7에 있어서,상기 제1서보모터, 상기 제4서보모터 및 상기 제7서보모터는 상기 베이스의 상부면에 대해 수직 축인 수직회전축을 중심으로 회전력을 생성하는 것을 특징으로 하는 강화학습을 이용한 7축 로봇 제어 방법
|
9 |
9
청구항 8에 있어서,상기 제2서보모터, 상기 제3서보모터, 상기 제5서보모터 및 상기 제6서보모터는 상기 수직회전축에 수직된 축인 수평회전축을 중심으로 회전력을 생성하는 것을 특징으로 하는 강화학습을 이용한 7축 로봇 제어 방법
|
10 |
10
청구항 1 내지 청구항 9 중 선택되는 어느 하나의 항에 기재된 강화학습을 이용한 7축 로봇 제어 방법을 실행하는 프로그램을 기록하여 컴퓨터 판독 가능한 것을 특징으로 하는 기록매체
|