1 |
1
단어 임베딩 장치에 의해 수행되는 단어 임베딩 방법에 있어서, 학습시킬 문장에서 미등록 단어(OOV: Out Of Vocabulary)를 미지의 토큰(unknown token)으로 대체하여 문장을 가공하는 단계; 상기 가공된 문장에서 상기 미등록 단어를 제외한 타겟 단어의 문자(Character)를 학습 대상인 문맥 문자 모델(Context Character Model)의 입력으로 입력하는 단계; 상기 문장에서 타겟 단어의 주변 단어에 대한 주변 문맥 벡터를 조합하여 상기 문맥 문자 모델의 초기 상태로 설정하는 단계; 및 상기 문맥 문자 모델로부터 산출된 순방향 은닉 상태(Forward hidden state) 및 역방향 은닉 상태(Backward hidden state)를 연결하여 생성된 상기 타겟 단어의 예측 임베딩(Predicted embedding)과 상기 타겟 단어의 실제 임베딩(Real embedding) 간의 오류가 최소가 되도록, 상기 문맥 문자 모델을 학습하는 단계를 포함하는, 단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 방법
|
2 |
2
제1항에 있어서, 상기 학습시킬 문장에서 문장 부호 및 불용어(stopword)를 제거하는 단계를 더 포함하는, 단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 방법
|
3 |
3
제1항에 있어서, 상기 문맥 문자 모델은, 문자 기반의 양방향 장단기 메모리(Character-based Bidirectional Long Short-Term Memory) 구조를 가지는, 단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 방법
|
4 |
4
제1항에 있어서, 상기 초기 상태로 설정하는 단계는, 상기 주변 단어에 대한 주변 문맥 벡터의 평균을 계산하여 상기 문맥 문자 모델의 양방향에 대한 초기 상태로 설정하는, 단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 방법
|
5 |
5
제1항에 있어서, 상기 문맥 문자 모델을 학습하는 단계는, 상기 연결된 순방향 은닉 상태 및 역방향 은닉 상태를 밀집 레이어(Dense layer)를 거친 차원 축소를 통해 상기 타겟 단어의 예측 임베딩을 생성하는, 단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 방법
|
6 |
6
제1항에 있어서, 상기 문맥 문자 모델을 학습하는 단계는, 상기 타겟 단어의 예측 임베딩(Predicted embedding)과 상기 타겟 단어의 실제 임베딩(Real embedding) 간의 평균 제곱 오차(mean squared error)가 최소가 되도록, 상기 문맥 문자 모델을 학습하는, 단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 방법
|
7 |
7
단어 임베딩 장치에 의해 수행되는 단어 임베딩 방법에 있어서, 문장에서 사전에 학습되지 않은 미등록 단어(OOV: Out Of Vocabulary)의 문자(Character)를 기 학습된 문맥 문자 모델의 입력으로 입력하는 단계; 상기 문장에서 미등록 단어의 주변 단어에 대한 주변 문맥 벡터를 조합하여 상기 문맥 문자 모델의 초기 상태로 설정하는 단계; 및 상기 문맥 문자 모델로부터 산출된 순방향 은닉 상태(Forward hidden state) 및 역방향 은닉 상태(Backward hidden state)를 연결하여 미등록 단어의 임베딩을 예측하는 단계를 포함하는, 단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 방법
|
8 |
8
제7항에 있어서, 상기 문장에서 문장 부호 및 불용어(stopword)를 제거하는 단계를 더 포함하는, 단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 방법
|
9 |
9
제7항에 있어서, 상기 기 학습된 문맥 문자 모델은, 문자 기반의 양방향 장단기 메모리(Character-based Bidirectional Long Short-Term Memory) 구조를 가지는, 단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 방법
|
10 |
10
제7항에 있어서, 상기 초기 상태로 설정하는 단계는, 상기 주변 단어에 대한 주변 문맥 벡터의 평균을 계산하여 상기 문맥 문자 모델의 양방향에 대한 초기 상태로 설정하는, 단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 방법
|
11 |
11
제7항에 있어서, 상기 미등록 단어의 임베딩을 예측하는 단계는, 상기 연결된 순방향 은닉 상태 및 역방향 은닉 상태를 밀집 레이어(Dense layer)를 거친 차원 축소를 통해 상기 미등록 단어의 임베딩을 예측하는, 단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 방법
|
12 |
12
적어도 하나의 프로그램을 저장하는 메모리; 및 상기 메모리와 연결된 프로세서를 포함하고, 상기 프로세서는, 상기 적어도 하나의 프로그램을 실행함으로써, 학습시킬 문장에서 미등록 단어(OOV: Out Of Vocabulary)를 미지의 토큰(unknown token)으로 대체하여 문장을 가공하고, 상기 가공된 문장에서 상기 미등록 단어를 제외한 타겟 단어의 문자(Character)를 학습 대상인 문맥 문자 모델(Context Character Model)의 입력으로 입력하고, 상기 문장에서 타겟 단어의 주변 단어에 대한 주변 문맥 벡터를 조합하여 상기 문맥 문자 모델의 초기 상태로 설정하고, 상기 문맥 문자 모델로부터 산출된 순방향 은닉 상태(Forward hidden state) 및 역방향 은닉 상태(Backward hidden state)를 연결하여 생성된 상기 타겟 단어의 예측 임베딩(Predicted embedding)과 상기 타겟 단어의 실제 임베딩(Real embedding) 간의 오류가 최소가 되도록, 상기 문맥 문자 모델을 학습하는, 단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 장치
|
13 |
13
제12항에 있어서, 상기 프로세서는, 상기 학습시킬 문장에서 문장 부호 및 불용어(stopword)를 제거하는, 단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 장치
|
14 |
14
제12항에 있어서, 상기 문맥 문자 모델은, 문자 기반의 양방향 장단기 메모리(Character-based Bidirectional Long Short-Term Memory) 구조를 가지는, 단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 장치
|
15 |
15
제12항에 있어서, 상기 프로세서는, 상기 주변 단어에 대한 주변 문맥 벡터의 평균을 계산하여 상기 문맥 문자 모델의 양방향에 대한 초기 상태로 설정하는, 단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 장치
|
16 |
16
제12항에 있어서, 상기 프로세서는, 상기 연결된 순방향 은닉 상태 및 역방향 은닉 상태를 밀집 레이어(Dense layer)를 거친 차원 축소를 통해 상기 타겟 단어의 예측 임베딩을 생성하는, 단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 장치
|
17 |
17
제12항에 있어서, 상기 프로세서는, 상기 타겟 단어의 예측 임베딩(Predicted embedding)과 상기 타겟 단어의 실제 임베딩(Real embedding) 간의 평균 제곱 오차(mean squared error)가 최소가 되도록, 상기 문맥 문자 모델을 학습하는, 단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 장치
|
18 |
18
적어도 하나의 프로그램을 저장하는 메모리; 및 상기 메모리와 연결된 프로세서를 포함하고, 상기 프로세서는, 상기 적어도 하나의 프로그램을 실행함으로써, 문장에서 사전에 학습되지 않은 미등록 단어(OOV: Out Of Vocabulary)의 문자(Character)를 기 학습된 문맥 문자 모델의 입력으로 입력하고, 상기 문장에서 미등록 단어의 주변 단어에 대한 주변 문맥 벡터를 조합하여 상기 문맥 문자 모델의 초기 상태로 설정하고, 상기 문맥 문자 모델로부터 산출된 순방향 은닉 상태(Forward hidden state) 및 역방향 은닉 상태(Backward hidden state)를 연결하여 미등록 단어의 임베딩을 예측하는, 단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 장치
|
19 |
19
제18항에 있어서, 상기 프로세서는, 상기 문장에서 문장 부호 및 불용어(stopword)를 제거하는, 단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 장치
|
20 |
20
제18항에 있어서, 상기 기 학습된 문맥 문자 모델은, 문자 기반의 양방향 장단기 메모리(Character-based Bidirectional Long Short-Term Memory) 구조를 가지는, 단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 장치
|
21 |
21
제18항에 있어서, 상기 프로세서는, 상기 주변 단어에 대한 주변 문맥 벡터의 평균을 계산하여 상기 문맥 문자 모델의 양방향에 대한 초기 상태로 설정하는, 단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 장치
|
22 |
22
제18항에 있어서, 상기 프로세서는, 상기 연결된 순방향 은닉 상태 및 역방향 은닉 상태를 밀집 레이어(Dense layer)를 거친 차원 축소를 통해 상기 미등록 단어의 임베딩을 예측하는, 단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 장치
|