1 |
1
멀티모달 인공지능 에이전트를 이용하여 강화학습을 수행하는 방법에 있어서,가상환경을 촬영한 영상에 포함된 프레임들을 복수의 구간들로 분할하는 단계; 및상기 분할된 복수의 구간별로 복수의 지도 방식(guidance type) 중 어느 하나를 적용하여, 멀티모달 인공지능 에이전트가 상기 영상을 통해 상기 가상환경과 상호작용하도록 함으로써 강화학습을 수행하는 단계를 포함하며,상기 복수의 지도 방식은 지도 수준에 따라 3단계 이상으로 구분되며,상기 강화학습을 수행하는 단계는,상기 분할된 복수의 구간들 중 미리 설정된 결정적 시기(critical periods)의 구간들에 대해서는 중간 수준의 지도 방식을 적용하고, 나머지 구간들에 대해서는 상기 복수의 지도 방식 중 어느 하나를 적용하여 강화학습을 수행하는 것을 특징으로 하는, 방법
|
2 |
2
제1항에 있어서,훈련 대상이 되는 영상은 상기 가상환경에서 하나 이상의 객체를 촬영한 영상이며, 양안시(binocular vision)를 고려한 이미지 및 3D 공간 음향(3D spatialized audio)을 포함하는 것을 특징으로 하는 방법
|
3 |
3
제2항에 있어서,상기 강화학습을 수행하는 단계는,상기 양안시를 고려한 이미지를 콘볼루션 신경망을 이용해 처리한 후, 제1 다층 퍼셉트론을 통과시킨 출력과, 상기 3D 공간 음향을 양쪽 귀에서 수신한다고 가정하여 벡터화한 후, 제2 다층 퍼셉트론을 통과시킨 출력을 상호작용 특징 맵(interaction feature map)으로 통합하는 단계; 및객체 찾기 쿼리(object finding query)를 선형 사영(linear projection)한 결과에 상기 상호작용 특징 맵에 기초한 마스킹(masking)을 수행한 후, 제3 다층 퍼셉트론에 통과시키는 단계를 포함하는 것을 특징으로 하는 방법
|
4 |
4
제1항에 있어서,상기 멀티모달 인공지능 에이전트에는,양안시(binocular vision), 3D 공간화 오디오(3D spatialized audio) 입력, 메시 기반 촉각 센서(mesh-based tactile), 관절 수준의 물리(joint-level physics), 객체와의 상호작용(objective interaction) 및 현실적인 충돌(realistic collider) 특성이 탑재된 것을 특징으로 하는 방법
|
5 |
5
컴퓨터에 제1항에 기재된 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체
|
6 |
6
컴퓨팅 장치에 의해 수행되며, 제1항에 기재된 방법을 수행하기 위해 컴퓨터 판독 가능 기록 매체에 저장된 컴퓨터 프로그램
|
7 |
7
멀티모달 인공지능 에이전트를 이용하여 강화학습을 수행하기 위한 컴퓨팅 장치에 있어서,데이터를 입력 받고, 이를 연산 처리한 결과를 출력하기 위한 입출력부;멀티모달 인공지능 에이전트를 이용한 강화학습을 수행하기 위한 프로그램 및 데이터가 저장되는 저장부; 및적어도 하나의 프로세서를 포함하며, 상기 프로그램을 실행시킴으로써 상기 강화학습을 수행하는 제어부를 포함하며,상기 제어부는 상기 프로그램을 실행함으로써,가상환경을 촬영한 영상에 포함된 프레임들을 복수의 구간들로 분할하고, 상기 분할된 복수의 구간별로 복수의 지도 방식(guidance type) 중 어느 하나를 적용하여, 멀티모달 인공지능 에이전트가 상기 영상을 통해 상기 가상환경과 상호작용하도록 함으로써 강화학습을 수행하며,상기 복수의 지도 방식은 지도 수준에 따라 3단계 이상으로 구분되고,상기 제어부는 상기 강화학습을 수행함에 있어서,상기 분할된 복수의 구간들 중 미리 설정된 결정적 시기(critical periods)의 구간들에 대해서는 중간 수준의 지도 방식을 적용하고, 나머지 구간들에 대해서는 상기 복수의 지도방식 중 어느 하나를 적용하여 강화학습을 수행하는 것을 특징으로 하는, 컴퓨팅 장치
|
8 |
8
제7항에 있어서,훈련 대상이 되는 영상은 상기 가상환경에서 하나 이상의 객체를 촬영한 영상이며, 양안시(binocular vision)를 고려한 이미지 및 3D 공간 음향(3D spatialized audio)을 포함하는 것을 특징으로 하는 컴퓨팅 장치
|
9 |
9
제8항에 있어서,상기 제어부는 상기 강화학습을 수행함에 있어서,상기 양안시를 고려한 이미지를 콘볼루션 신경망을 이용해 처리한 후, 제1 다층 퍼셉트론을 통과시킨 출력과, 상기 3D 공간 음향을 양쪽 귀에서 수신한다고 가정하여 벡터화한 후, 제2 다층 퍼셉트론을 통과시킨 출력을 상호작용 특징 맵(interaction feature map)으로 통합하고,객체 찾기 쿼리(object finding query)를 선형 사영(linear projection)한 결과에 상기 상호작용 특징 맵에 기초한 마스킹(masking)을 수행한 후, 제3 다층 퍼셉트론에 통과시키는 것을 특징으로 하는 컴퓨팅 장치
|
10 |
10
제7항에 있어서,상기 제어부는,상기 멀티모달 인공지능 에이전트에, 양안시(binocular vision), 3D 공간화 오디오(3D spatialized audio) 입력, 메시 기반 촉각 센서(mesh-based tactile), 관절 수준의 물리(joint-level physics), 객체와의 상호작용(objective interaction) 및 현실적인 충돌(realistic collider) 특성을 탑재하는 것을 특징으로 하는 컴퓨팅 장치
|