1 |
1
강화학습(reinforcement learning)을 이용한 선형가속기(linear accelerator, LINAC)의 자동 주파수 제어(automatic frequency control, AFC) 방법에 있어서,에이전트(agent)가 현재 상태(state, St)에 기초하여 액션(action)을 배포하는 단계; 및상기 에이전트가 다음 상태(St+1)와 보상(reward, Rt+1)을 획득하고, 인공신경망(artificial neural network)을 업데이트하는 단계를 포함하는, 선형가속기의 자동 주파수 제어 방법
|
2 |
2
제1항에 있어서,상기 액션을 배포하는 단계 이전에상기 인공신경망을 학습시키는 단계를 더 포함하는, 선형가속기의 자동 주파수 제어 방법
|
3 |
3
제1항에 있어서,상기 상태는공동(cavity)으로부터의 반사 전력(Pr) 및 스텝 모터의 위치(Pm)를 포함하는, 선형가속기의 자동 주파수 제어 방법
|
4 |
4
제1항에 있어서,상기 액션은 스텝 모터의 위치 커맨드인, 선형가속기의 자동 주파수 제어 방법
|
5 |
5
제1항에 있어서,상기 보상은다음 스텝에서의 반사 전력(Prt+1)이 현재 스텝에서의 반사 전력(Prt)보다 작으면 긍정적인 보상이고, 상기 다음 스텝에서의 반사 전력(Prt+1)이 상기 현재 스텝에서의 반사 전력(Prt)보다 크거나 같으면 부정적인 보상이고, 상기 다음 스텝에서의 반사 전력(Prt+1) 및 상기 현재 스텝에서의 반사 전력(Prt)이 3dB 대역폭보다 작으면 긍정적인 보상인, 선형가속기의 자동 주파수 제어 방법
|
6 |
6
제1항에 있어서,상기 업데이트는가중치(weight)와 편향(bias)을 초기화하는 단계;손실함수(loss function)와 상기 상태(state)에 따라 역전파(back propagation)에 의해 상기 가중치와 상기 편향의 경사(gradient)를 획득하는 단계; 및최적화 방법에 의해 상기 가중치 및 상기 편향의 감소치를 계산하고, 상기가중치 및 상기 편향을 업데이트하는 단계를 포함하는, 선형가속기의 자동 주파수 제어 방법
|
7 |
7
제6항에 있어서,상기 최적화 방법은 아담 옵티마이저(Adam optimizer)인, 선형가속기의 자동 주파수 제어 방법
|
8 |
8
제1항에 있어서,상기 강화학습은 A2C(Advantage Actor-Critic)인, 선형가속기의 자동 주파수 제어 방법
|
9 |
9
제8항에 있어서,액터(actor)는 정책신경망을 포함하고,상기 정책신경망은 복수 개의 뉴런으로 구성된 적어도 하나의 은닉층을 포함하는, 선형가속기의 자동 주파수 제어 방법
|
10 |
10
제8항에 있어서,크리틱(critic)은 가치신경망을 포함하고,상기 가치신경망은 복수 개의 뉴런으로 구성된 적어도 두 개의 은닉층을 포함하는, 선형가속기의 자동 주파수 제어 방법
|
11 |
11
강화학습(reinforcement learning)을 이용한 선형가속기(linear accelerator, LINAC)의 자동 주파수 제어(automatic frequency control, AFC) 장치에 있어서,현재 상태(state, St)에 기초하여 액션(action)을 배포하는 액션 출력부;양방향 커플러(bi-directional coupler)와 스텝 모터의 엔코더(encoder)로부터 다음 상태(St+1)를 수신하는 상태 수신부;공동(cavity)으로부터의 반사 전력(Pr)을 이용해 보상(reward)을 결정하는 보상 결정부; 및상기 상태와 상기 보상에 따라 인공신경망(artificial neural network)을 업데이트하는 학습부를 포함하는, 선형가속기의 자동 주파수 제어 장치
|
12 |
12
제11항에 있어서,상기 상태는상기 공동으로부터의 반사 전력(Pr) 및 상기 스텝 모터의 위치(Pm)를 포함하는, 선형가속기의 자동 주파수 제어 장치
|
13 |
13
제11항에 있어서,상기 액션은 스텝 모터의 위치 커맨드인, 선형가속기의 자동 주파수 제어 장치
|
14 |
14
제11항에 있어서,상기 보상은다음 스텝에서의 반사 전력(Prt+1)이 현재 스텝에서의 반사 전력(Prt)보다 작으면 긍정적인 보상이고, 상기 다음 스텝에서의 반사 전력(Prt+1)이 상기 현재 스텝에서의 반사 전력(Prt)보다 크거나 같으면 부정적인 보상이고, 상기 다음 스텝에서의 반사 전력(Prt+1) 및 상기 현재 스텝에서의 반사 전력(Prt)이 3dB 대역폭보다 작으면 긍정적인 보상인, 선형가속기의 자동 주파수 제어 장치
|
15 |
15
제11항에 있어서,상기 업데이트는가중치(weight)와 편향(bias)을 초기화하는 단계;손실함수(loss function)와 상기 상태(state)에 따라 역전파(back propagation)에 의해 상기 가중치와 상기 편향의 경사(gradient)를 획득하는 단계; 및최적화 방법에 의해 상기 가중치 및 상기 편향의 감소치를 계산하고, 상기가중치 및 상기 편향을 업데이트하는 단계를 포함하는, 선형가속기의 자동 주파수 제어 장치
|
16 |
16
제15항에 있어서,상기 최적화 방법은 아담 옵티마이저(Adam optimizer)인, 선형가속기의 자동 주파수 제어 장치
|
17 |
17
제11항에 있어서,상기 강화학습은 A2C(Advantage Actor-Critic)인, 선형가속기의 자동 주파수 제어 장치
|
18 |
18
제17항에 있어서,액터(actor)는 정책신경망을 포함하고,상기 정책신경망은 복수 개의 뉴런으로 구성된 적어도 하나의 은닉층을 포함하는, 선형가속기의 자동 주파수 제어 장치
|
19 |
19
제17항에 있어서,크리틱(critic)은 가치신경망을 포함하고,상기 가치신경망은 복수 개의 뉴런으로 구성된 적어도 두 개의 은닉층을 포함하는, 선형가속기의 자동 주파수 제어 장치
|
20 |
20
강화학습(reinforcement learning)을 이용한 선형가속기(linear accelerator, LINAC)의 자동 주파수 제어(automatic frequency control, AFC)를 위한 컴퓨터 프로그램을 저장한 컴퓨터 판독 가능한 저장 매체에 있어서,에이전트(agent)가 현재 상태(state, St)에 기초하여 액션(action)을 배포하도록 하는 명령; 및상기 에이전트가 다음 상태(St+1)와 보상(reward, Rt+1)을 획득하고, 인공신경망(artificial neural network)을 업데이트하도록 하는 명령을 포함하는, 선형가속기의 자동 주파수 제어를 위한 컴퓨터 프로그램을 저장한 컴퓨터 판독 가능한 저장 매체
|