1 |
1
컴퓨팅 장치에 의해 수행되는 자연어 처리 방법으로서, 수를 포함하는 자연어를 입력 받는 단계, 수에 관한 문맥 정보를 가중시키도록 생성된 어텐션 마스크를 상기 자연어에 적용하여 마스킹 하는 단계, 및마스킹 된 상기 자연어에 기초하여, 상기 자연어와 연관된 질의의 정답을 생성하는 단계를 포함하는,자연어 처리 방법
|
2 |
2
제 1항에서,상기 수는,자연어로 표현되는 수이고, 상기 방법은,상기 자연어로 표현되는 수를, 하나 이상의 숫자(digit)으로 표현되는 수치(numerical value)로 변환하는 단계를 더 포함하는,자연어 처리 방법
|
3 |
3
제 1항에서,상기 방법은, 입력된 상기 자연어를 토크나이저(tokenizer)를 통해 토큰화 하고 입력 임베딩을 생성하는 단계를 더 포함하는,자연어 처리 방법
|
4 |
4
제 3항에서,상기 어텐션 마스크는, 상기 입력 임베딩이 입력되며 하나 이상의 레이어를 포함하는 인코더(encoder)의 상단에 추가적인 레이어로 구성되어, 상기 하나 이상의 레이어를 통해 출력되는 중간 출력 임베딩에 대하여 적용되는,자연어 처리 방법
|
5 |
5
제 4항에서,상기 어텐션 마스크는, 하나 이상의 채널을 포함하고,상기 하나 이상의 채널은,엔티티-넘버(entity-number) 채널, 타입-넘버(type-number) 채널, 및 디코더-넘버(decoder-number) 채널 중 적어도 하나를 포함하는,자연어 처리 방법
|
6 |
6
제 5항에서,상기 엔티티-넘버 채널은, 상기 자연어에 포함된 수와 대응되는 문장에 위치하는 엔티티를, 상기 자연어에 포함된 수에 관한 문맥 정보로 결정하는,자연어 처리 방법
|
7 |
7
제 5항에서,상기 엔티티-넘버 채널은, 상기 중간 출력 임베딩에 포함된 하나 이상의 토큰 중 상기 자연어에 포함된 수에 관한 수 토큰의 셀프 어텐션(self-attention)이 수행되는 경우, 상기 수 토큰과 대응되지 않는 문장에 위치하는 토큰에 대한 어텐션 스코어를 0으로 할당하여(zeroing) 최종 출력 임베딩을 생성하는,자연어 처리 방법
|
8 |
8
제 5항에서,상기 엔티티-넘버 채널은, 상기 자연어에 포함되는 수의 수 인덱스를 키(key)로 하고, 상기 키와 대응되는 수와 동일한 문장 내에 위치하는 엔티티의 엔티티 인덱스를 상기 키의 값(value)으로 할당하여 생성되는 사전을 기초로, 상기 자연어에 포함된 수에 관한 문맥 정보를 결정하는,자연어 처리 방법
|
9 |
9
제 5항에서,상기 타입-넘버 채널은, 상기 자연어에 포함된 수로부터 기 설정된 거리 이내에 위치하는 토큰을, 상기 자연어에 포함된 수에 관한 문맥 정보로 결정하는,자연어 처리 방법
|
10 |
10
제 5항에서,상기 타입-넘버 채널은, 상기 중간 출력 임베딩에 포함된 하나 이상의 토큰 중 상기 자연어에 포함된 수에 관한 수 토큰의 셀프 어텐션(self-attention)이 수행되는 경우, 상기 수 토큰으로부터 기 설정된 거리를 초과하여 위치하는 토큰에 대한 어텐션 스코어는 0으로 할당(zeroing)하여 최종 출력 임베딩을 생성하는, 자연어 처리 방법
|
11 |
11
제 5항에서,상기 타입-넘버 채널은, 상기 자연어에 포함되는 수의 수 인덱스를 키(key)로 하고, 상기 키와 대응되는 수로부터 기 설정된 크기의 윈도우 내에 존재하는 단어들 중 적어도 일부에 대한 단어 인덱스를 상기 키의 값(value)으로 할당하여 생성되는 사전을 기초로, 상기 자연어에 포함된 수에 관한 문맥 정보를 결정하는,자연어 처리 방법
|
12 |
12
제 7항 또는 제 10항에서,상기 디코더-넘버 채널은, 디코더가 상기 인코더의 최종 출력 임베딩에 대한 어텐션을 수행하는 경우, 상기 최종 출력 임베딩 중 상기 자연어에 포함된 수에 관한 숫자 임베딩에 대하여만 어텐션 하도록 제한하는, 자연어 처리 방법
|
13 |
13
제 12항에서,상기 디코더-넘버 채널은,상기 디코더가 상기 질의를 상기 인코더에 입력하여 획득되는 질의 임베딩에 추가적으로 어텐션 하도록 제한하는,자연어 처리 방법
|
14 |
14
제 7항 또는 제 10항에서,상기 인코더는,상기 최종 출력 임베딩 내에서 상기 자연어에 포함되는 수에 관한 수치 정보의 희석을 방지하기 위해, 상기 자연어에 포함되는 두 개의 수 간의 거리와, 상기 두 개의 수 각각에 대응되는 상기 최종 출력 임베딩 내 두 개의 숫자 임베딩 간의 거리 사이의 로스(loss)가 최소화되는 방향으로 학습되는, 자연어 처리 방법
|
15 |
15
컴퓨팅 장치에 의해 수행되는 자연어 처리 방법으로서, 수를 포함하는 자연어를 입력 받는 단계, 상기 자연어에 기초하여 임베딩을 생성하는 단계, 상기 임베딩에 어텐션 마스크를 적용하여, 상기 수에 관한 상기 자연어 내의 엔티티 정보 및 상기 수에 관한 상기 자연어 내의 유형 정보 중 적어도 일부의 정보가 가중화 된 숫자 임베딩을 생성하는 단계, 및상기 숫자 임베딩에 기초하여, 상기 자연어와 연관된 질의의 정답을 생성하는 단계를 포함하는, 자연어 처리 방법
|
16 |
16
제 15항에서,상기 임베딩을 생성하는 단계는, 상기 자연어에 포함되는 자연어로 표현되는 수를, 하나 이상의 숫자로 표현되는 수치로 변환하는 단계, 상기 변환된 자연어를 토크나이저를 통해 토큰화 하고 입력 임베딩을 생성하는 단계, 및상기 입력 임베딩을 하나 이상의 레이어를 포함하는 인코더에 입력하여, 중간 출력 임베딩을 획득하는 단계를 포함하는,자연어 처리 방법
|
17 |
17
제 15항에서,상기 어텐션 마스크는, 하나 이상의 채널을 포함하고,상기 하나 이상의 채널은,엔티티-넘버(entity-number) 채널, 타입-넘버(type-number) 채널, 및 디코더-넘버(decoder-number) 채널 중 적어도 하나를 포함하는,자연어 처리 방법
|
18 |
18
제 17항에서,상기 엔티티-넘버 채널은, 상기 자연어에 포함된 수와 대응되는 문장에 위치하는 엔티티를, 상기 수에 관한 상기 자연어 내의 엔티티 정보로 결정하고, 상기 엔티티 정보가 가중화 된 상기 숫자 임베딩을 생성하는, 자연어 처리 방법
|
19 |
19
제 17항에서,상기 타입-넘버 채널은, 상기 자연어에 포함된 수로부터 기 설정된 거리 이내에 위치하는 토큰을, 상기 수에 관한 상기 자연어 내의 유형 정보로 결정하고, 상기 유형 정보가 가중화 된 상기 숫자 임베딩을 생성하는,자연어 처리 방법
|
20 |
20
제 17항에서,상기 디코더-넘버 채널은, 디코더가 상기 질의의 정답을 생성하기 위해 인코더의 출력 임베딩에 대한 어텐션을 수행하는 경우, 상기 출력 임베딩 중 상기 숫자 임베딩 및 상기 질의에 관한 질의 임베딩에 대하여만 어텐션 하도록 제한하는, 자연어 처리 방법
|