1 |
1
카세트 엑손으로 구성되는 데이터 세트로부터 RNA시퀀스 데이터를 정렬 및 스플라이싱 포함 비율(PSI)을 정량화하고, 상기 RNA시퀀스 데이터를 기 설정된 크기의 단어로 생성하는 데이터전처리부;기 학습된 자연어처리모델을 통해 상기 생성된 단어를 특징 표현으로 매핑하는 특징표현부; 및상기 특징 표현과 입력된 조직 유형으로부터 선택적 스플라이싱을 예측하는 딥러닝 기반의 스플라이싱예측부;을 포함하는 것을 특징으로 하는 선택적 스플라이싱 예측을 위한 분산 특징 표현에 기반한 딥러닝 모델
|
2 |
2
제1항에 있어서, 상기 데이터전처리부는엑숀사이에 구비된 인트론이 기 설정된 길이를 초과하면, 상기 각 인트론의 길이를 기 설정된 크기로 지정하여 카세트 엑숀으로 처리하는 것을 특징으로 하는 선택적 스플라이싱 예측을 위한 분산 특징 표현에 기반한 딥러닝 모델
|
3 |
3
제1항에 있어서,상기 자연어처리모델은 게놈의 유전자 특징이 분류된 코퍼스로부터 기 설정된 개수의 염색체로 분할하는 염색체분할부;상기 염색체에 대응되는 각각의 문장을 형성하며, 상기 문장을 기 설정된 크기의 또 다른 단어로 생성하는 단어생성부;복수의 단어 컨테스트를 기반으로 상기 각 문장내의 또 다른 단어를 벡터로 출력하는 제1자연어처리모델; 및 상기 각 문장 및 문서를 고정된 치수벡터로 출력하는 제2자연어처리모델;을 포함하는 것을 특징으로 하는 선택적 스플라이싱 예측을 위한 분산 특징 표현에 기반한 딥러닝 모델
|
4 |
4
제3항에 있어서, 상기 스플라이싱예측부는상기 제1자연어처리모델에서 매핑된 특징 벡터가 입력되는 입력레이어; 상기 특징 벡터에 32x32 컨볼루션을 적용하며, 크기 조정하여 특징을 표준화하기 위한 배치 정규화로 이루어지는 제1레이어;상기 제1레이어에서 출력된 값에 1x1 콘볼루션 적용하며, 2x2 맥스플링과 1x1, 3x3, 5x5 컨볼루션이 포함된 활성화 함수로 이루어지는 적어도 하나의 제2레이어;상기 특징 표현 및 상기 조직 유형에 따라 입력되는 상기 카세트 엑숀의 상기 스플라이싱 포함 비율(PSI)값을 예측하는 스플라이싱예측모델; 및 미리 지정된 클래스 레이블을 통해 상기 스플라이싱 포함 비율(PSI)값을 낮음, 중간 및 높음 중 어느 하나로 분류하여 출력하는 스플라이싱분류모델;로 구성되는 인셉션 컨볼루션 신경망모델을 포함하는 것을 특징으로 하는 선택적 스플라이싱 예측을 위한 분산 특징 표현에 기반한 딥러닝 모델
|
5 |
5
제3항에 있어서, 상기 스플라이싱예측부는상기 제2자연어처리모델에서 매핑된 또 다른 특징 벡터가 입력되되,피드포워드 심층 신경망으로 구성되고, 시그모이드 활성화함수를 통해 입력되는 상기 카세트 엑숀의 상기 스플라이싱 포함 비율(PSI)값을 예측하며, 소프트맥스 활성화 함수를 통해 상기 스플라이싱 포함 비율(PSI)값을 낮음, 중간 또는 높음 중 어느 하나로 분류하여 출력하는 다층 퍼셉트론모델을 포함하는 것을 특징으로 하는 선택적 스플라이싱 예측을 위한 분산 특징 표현에 기반한 딥러닝 모델
|