1 |
1
사전학습 언어모델 구축장치가, 특정 분야의 데이터로부터, 기 구축된 범용 사전학습 언어모델에 추가 적용하기 위한 특정 어휘를 선별하는 선별단계;상기 사전학습 언어모델 구축장치가, 상기 범용 사전학습 언어모델 및 상기 특정 어휘가 포함되는 문장을 이용하여, 상기 특정 어휘에 대한 임베딩 값을 생성하는 생성단계; 및상기 사전학습 언어모델 구축장치가, 상기 특정 어휘 및 상기 특정 어휘에 대하여 생성한 임베딩 값을, 상기 범용 사전학습 언어모델의 어휘 사전 및 임베딩 계층에 추가하여, 상기 특정 분야에 대한 분야 적응형 어휘 확장 사전학습 언어모델을 구축하는 구축단계를 포함하며,상기 생성단계는, 상기 특정 어휘가 포함되는 문장에서 상기 특정 어휘를 특정 토큰(‘[MASK]’)으로 마스킹한 후 상기 범용 사전학습 언어모델의 MLM(Masked Language Model)에 입력하여, 상기 특정 어휘가 포함되는 문장 별로 상기 특정 토큰(‘[MASK]’)에 대한 예측 어휘 집합을 획득하며,획득한 상기 예측 어휘 집합에서 예측 오류를 개선하기 위한 필터링을 수행하며, 상기 범용 사전학습 언어모델로부터 상기 예측 어휘 집합에서 상기 필터링된 각 예측 어휘에 대한 임베딩 벡터값을 획득하고, 상기 획득한 임베딩 벡터값을 이용한 집계연산을 통해 상기 특정 어휘에 대한 임베딩 값을 생성하는 것을 특징으로 하는 사전학습 언어모델의 어휘 확장 방법
|
2 |
2
제 1 항에 있어서,상기 생성단계는, 상기 특정 어휘 별로, 특정 분야의 데이터로부터 특정 어휘가 포함되는 문장을 N개 추출하여 이용하며,상기 데이터로부터 상기 N개의 문장 추출이 불가능한 경우, 검색을 통해 웹 문서로부터 특정 어휘가 포함되는 문장을 부족한 개수 만큼 추가로 추출하여 이용하는 것을 특징으로 하는 사전학습 언어모델의 어휘 확장 방법
|
3 |
3
제 2 항에 있어서,상기 생성단계는,상기 특정 어휘가 포함되는 문장 추출 시, 상기 특정 어휘가 문장의 시작이나 끝 위치가 아닌 위치에 출현하는 문장을 우선 추출하며, 상기 특정 어휘가 복합명사를 구성하면서 상기 복합명사에서 시작 위치 또는 수식구에 출현하는 문장을 추출 대상에서 제외하는 것을 특징으로 하는 사전학습 언어모델의 어휘 확장 방법
|
4 |
4
삭제
|
5 |
5
제 1 항에 있어서,상기 생성단계는, 상기 예측 어휘 집합 내 각 예측 어휘 별로 상기 특정 어휘와의 문자 유형 및 품사 유형을 비교하여, 비교 결과 상기 특정 어휘와 상호 호환되지 않는 예측 어휘를 제외시키는 제1 필터링,상기 예측 어휘 집합 내 각 예측 어휘 간 예측 확률값을 비교하여, 비교 결과를 근거로 예측 확률값이 가장 높은 순서에 따라 K개를 선정하거나, 가장 높은 예측 확률값의 특정 예측 어휘 및 상기 특정 예측 어휘와의 예측 확률값 차이가 기준 범위 이내인 예측 어휘들을 선정하는 제2 필터링 중 적어도 하나를 수행하는 것을 특징으로 하는 사전학습 언어모델의 어휘 확장 방법
|
6 |
6
제 1 항에 있어서,상기 선별단계는,상기 특정 분야의 데이터 언어에 따른 토큰 구분(tokenization) 전처리를 수행하여, 상기 특정 분야의 데이터를 토큰(token)으로 구분하고,상기 토큰으로 구분된 데이터에 대해, 부분 단어 기반 토큰 구분(subword-based tokenization)을 추가로 수행하여 상기 특정 분야에 대한 토큰 사전을 획득하며,상기 획득한 토큰 사전에서 상기 범용 사전학습 언어모델에 존재하는 어휘에 해당하는 토큰을 제외한 후 남아 있는 각 토큰에 해당하는 각 어휘를, 상기 특정 어휘로서 선별하는 것을 특징으로 하는 사전학습 언어모델의 어휘 확장 방법
|
7 |
7
제 1 항에 있어서,상기 구축단계는,상기 구축한 분야 적응형 어휘 확장 사전학습 언어모델을 상기 특정 분야의 데이터로 추가 사전학습(continual pre-training)하는 단계를 더 포함하는 것을 특징으로 하는 사전학습 언어모델의 어휘 확장 방법
|
8 |
8
특정 분야의 데이터로부터, 기 구축된 범용 사전학습 언어모델에 추가 적용하기 위한 특정 어휘를 선별하는 선별부;상기 범용 사전학습 언어모델 및 상기 특정 어휘가 포함되는 문장을 이용하여, 상기 특정 어휘에 대한 임베딩 값을 생성하는 생성부; 및상기 특정 어휘 및 상기 특정 어휘에 대하여 생성한 임베딩 값을, 상기 범용 사전학습 언어모델의 어휘 사전 및 임베딩 계층에 추가하여, 상기 특정 분야에 대한 분야 적응형 어휘 확장 사전학습 언어모델을 구축하는 구축부를 포함하며,상기 생성부는, 상기 특정 어휘가 포함되는 문장에서 상기 특정 어휘를 특정 토큰(‘[MASK]’)으로 마스킹한 후 상기 범용 사전학습 언어모델의 MLM(Masked Language Model)에 입력하여, 상기 특정 어휘가 포함되는 문장 별로 상기 특정 토큰(‘[MASK]’)에 대한 예측 어휘 집합을 획득하며,획득한 상기 예측 어휘 집합에서 예측 오류를 개선하기 위한 필터링을 수행하며, 상기 범용 사전학습 언어모델로부터 상기 예측 어휘 집합에서 상기 필터링된 각 예측 어휘에 대한 임베딩 벡터값을 획득하고, 상기 획득한 임베딩 벡터값을 이용한 집계연산을 통해 상기 특정 어휘에 대한 임베딩 값을 생성하는 것을 특징으로 하는 사전학습 언어모델 구축장치
|
9 |
9
제 8 항에 있어서,상기 생성부는, 상기 특정 어휘 별로, 특정 분야의 데이터로부터 특정 어휘가 포함되는 문장을 N개 추출하여 이용하며,상기 데이터로부터 상기 N개의 문장 추출이 불가능한 경우, 검색을 통해 웹 문서로부터 특정 어휘가 포함되는 문장을 부족한 개수 만큼 추가로 추출하여 이용하는 것을 특징으로 하는 사전학습 언어모델 구축장치
|
10 |
10
제 9 항에 있어서,상기 생성부는,상기 특정 어휘가 포함되는 문장 추출 시, 상기 특정 어휘가 문장의 시작이나 끝 위치가 아닌 위치에 출현하는 문장을 우선 추출하며, 상기 특정 어휘가 복합명사를 구성하면서 상기 복합명사에서 시작 위치 또는 수식구에 출현하는 문장을 추출 대상에서 제외하는 것을 특징으로 하는 사전학습 언어모델 구축장치
|
11 |
11
삭제
|
12 |
12
제 8 항에 있어서,상기 생성부는,상기 예측 어휘 집합 내 각 예측 어휘 별로 상기 특정 어휘와의 문자 유형 및 품사 유형을 비교하여, 비교 결과 상기 특정 어휘와 상호 호환되지 않는 예측 어휘를 제외시키는 제1 필터링,상기 예측 어휘 집합 내 각 예측 어휘 간 예측 확률값을 비교하여, 비교 결과를 근거로 예측 확률값이 가장 높은 순서에 따라 K개를 선정하거나, 가장 높은 예측 확률값의 특정 예측 어휘 및 상기 특정 예측 어휘와의 예측 확률값 차이가 기준 범위 이내인 예측 어휘들을 선정하는 제2 필터링 중 적어도 하나를 수행하는 것을 특징으로 하는 사전학습 언어모델 구축장치
|
13 |
13
제 8 항에 있어서,상기 선별부는,상기 특정 분야의 데이터 언어에 따른 토큰 구분(tokenization) 전처리를 수행하여, 상기 특정 분야의 데이터를 토큰(token)으로 구분하고,상기 토큰으로 구분된 데이터에 대해, 부분 단어 기반 토큰 구분(subword-based tokenization)을 추가로 수행하여 상기 특정 분야에 대한 토큰 사전을 획득하며,상기 획득한 토큰 사전에서 상기 범용 사전학습 언어모델에 존재하는 어휘에 해당하는 토큰을 제외한 후 남아 있는 각 토큰에 해당하는 각 어휘를, 상기 특정 어휘로서 선별하는 것을 특징으로 하는 사전학습 언어모델 구축장치
|
14 |
14
제 8 항에 있어서,상기 구축부는,상기 구축한 분야 적응형 어휘 확장 사전학습 언어모델을 상기 특정 분야의 데이터로 추가 사전학습(continual pre-training)하는 것을 특징으로 하는 사전학습 언어모델 구축장치
|
15 |
15
하드웨어와 결합되어, 특정 분야의 데이터로부터 기 구축된 범용 사전학습 언어모델에 추가 적용하기 위한 특정 어휘를 선별하는 단계;상기 범용 사전학습 언어모델 및 상기 특정 어휘가 포함되는 문장을 이용하여, 상기 특정 어휘에 대한 임베딩 값을 생성하는 단계; 및상기 특정 어휘 및 상기 특정 어휘에 대하여 생성한 임베딩 값을, 상기 범용 사전학습 언어모델의 어휘 사전 및 임베딩 계층에 추가하여, 상기 특정 분야에 대한 분야 적응형 어휘 확장 사전학습 언어모델을 구축하는 구축단계를 실행시키며,상기 특정 어휘에 대한 임베딩 값을 생성하는 단계는, 상기 특정 어휘가 포함되는 문장에서 상기 특정 어휘를 특정 토큰(‘[MASK]’)으로 마스킹한 후 상기 범용 사전학습 언어모델의 MLM(Masked Language Model)에 입력하여, 상기 특정 어휘가 포함되는 문장 별로 상기 특정 토큰(‘[MASK]’)에 대한 예측 어휘 집합을 획득하며,획득한 상기 예측 어휘 집합에서 예측 오류를 개선하기 위한 필터링을 수행하며, 상기 범용 사전학습 언어모델로부터 상기 예측 어휘 집합에서 상기 필터링된 각 예측 어휘에 대한 임베딩 벡터값을 획득하고, 상기 획득한 임베딩 벡터값을 이용한 집계연산을 통해 상기 특정 어휘에 대한 임베딩 값을 생성하기 위해 매체에 저장된 컴퓨터프로그램
|