맞춤기술찾기

이전대상기술

사전학습 언어모델 구축장치 및 사전학습 언어모델의 어휘 확장 방법

  • 기술번호 : KST2022024157
  • 담당센터 : 대전기술혁신센터
  • 전화번호 : 042-610-2279
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 본 발명은, 시간 및 비용의 상승을 최소화하면서 신규 데이터(예: 특정 분야의 데이터) 기반의 어휘 확장을 통해 특정 분야를 위한 고성능의 사전학습 언어모델을 구축할 수 있는 기술을 실현하는 사전학습 언어모델 구축장치 및 사전학습 언어모델의 어휘 확장 방법을 제안하고 있다.
Int. CL G06F 40/284 (2020.01.01) G06F 40/237 (2020.01.01) G06F 40/205 (2020.01.01) G06F 16/951 (2019.01.01) G06F 17/18 (2006.01.01) G06N 20/00 (2019.01.01)
CPC G06F 40/284(2013.01) G06F 40/237(2013.01) G06F 40/205(2013.01) G06F 16/951(2013.01) G06F 17/18(2013.01) G06N 20/00(2013.01)
출원번호/일자 1020220077942 (2022.06.27)
출원인 한국과학기술정보연구원
등록번호/일자 10-2476104-0000 (2022.12.06)
공개번호/일자
공고번호/일자 (20221209) 문서열기
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 등록
심사진행상태 수리
심판사항
구분 국내출원/신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2022.06.27)
심사청구항수 13

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 한국과학기술정보연구원 대한민국 대전광역시 유성구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 이승우 대전광역시 서구
2 김성찬 세종특별자치시 새롬중앙
3 최명석 대전광역시 서구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 특허법인 남앤남 대한민국 서울특별시 중구 서소문로**(서소문동, 정안빌딩*층)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
1 한국과학기술정보연구원 대전광역시 유성구
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2022.06.27 수리 (Accepted) 1-1-2022-0665918-14
2 [우선심사신청]심사청구서·우선심사신청서
2022.06.28 수리 (Accepted) 1-1-2022-0673738-24
3 [우선심사신청]선행기술조사의뢰서
[Request for Preferential Examination] Request for Prior Art Search
2022.07.02 수리 (Accepted) 9-1-9999-9999999-89
4 [우선심사신청]선행기술조사보고서
[Request for Preferential Examination] Report of Prior Art Search
2022.07.07 수리 (Accepted) 9-1-2022-0009791-46
5 의견제출통지서
Notification of reason for refusal
2022.07.18 발송처리완료 (Completion of Transmission) 9-5-2022-0536248-86
6 [거절이유 등 통지에 따른 의견]의견서·답변서·소명서
2022.09.19 수리 (Accepted) 1-1-2022-0980335-51
7 [명세서등 보정]보정서
[Amendment to Description, etc.] Amendment
2022.09.19 보정승인간주 (Regarded as an acceptance of amendment) 1-1-2022-0980336-07
8 등록결정서
Decision to grant
2022.11.25 발송처리완료 (Completion of Transmission) 9-5-2022-0917397-51
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
사전학습 언어모델 구축장치가, 특정 분야의 데이터로부터, 기 구축된 범용 사전학습 언어모델에 추가 적용하기 위한 특정 어휘를 선별하는 선별단계;상기 사전학습 언어모델 구축장치가, 상기 범용 사전학습 언어모델 및 상기 특정 어휘가 포함되는 문장을 이용하여, 상기 특정 어휘에 대한 임베딩 값을 생성하는 생성단계; 및상기 사전학습 언어모델 구축장치가, 상기 특정 어휘 및 상기 특정 어휘에 대하여 생성한 임베딩 값을, 상기 범용 사전학습 언어모델의 어휘 사전 및 임베딩 계층에 추가하여, 상기 특정 분야에 대한 분야 적응형 어휘 확장 사전학습 언어모델을 구축하는 구축단계를 포함하며,상기 생성단계는, 상기 특정 어휘가 포함되는 문장에서 상기 특정 어휘를 특정 토큰(‘[MASK]’)으로 마스킹한 후 상기 범용 사전학습 언어모델의 MLM(Masked Language Model)에 입력하여, 상기 특정 어휘가 포함되는 문장 별로 상기 특정 토큰(‘[MASK]’)에 대한 예측 어휘 집합을 획득하며,획득한 상기 예측 어휘 집합에서 예측 오류를 개선하기 위한 필터링을 수행하며, 상기 범용 사전학습 언어모델로부터 상기 예측 어휘 집합에서 상기 필터링된 각 예측 어휘에 대한 임베딩 벡터값을 획득하고, 상기 획득한 임베딩 벡터값을 이용한 집계연산을 통해 상기 특정 어휘에 대한 임베딩 값을 생성하는 것을 특징으로 하는 사전학습 언어모델의 어휘 확장 방법
2 2
제 1 항에 있어서,상기 생성단계는, 상기 특정 어휘 별로, 특정 분야의 데이터로부터 특정 어휘가 포함되는 문장을 N개 추출하여 이용하며,상기 데이터로부터 상기 N개의 문장 추출이 불가능한 경우, 검색을 통해 웹 문서로부터 특정 어휘가 포함되는 문장을 부족한 개수 만큼 추가로 추출하여 이용하는 것을 특징으로 하는 사전학습 언어모델의 어휘 확장 방법
3 3
제 2 항에 있어서,상기 생성단계는,상기 특정 어휘가 포함되는 문장 추출 시, 상기 특정 어휘가 문장의 시작이나 끝 위치가 아닌 위치에 출현하는 문장을 우선 추출하며, 상기 특정 어휘가 복합명사를 구성하면서 상기 복합명사에서 시작 위치 또는 수식구에 출현하는 문장을 추출 대상에서 제외하는 것을 특징으로 하는 사전학습 언어모델의 어휘 확장 방법
4 4
삭제
5 5
제 1 항에 있어서,상기 생성단계는, 상기 예측 어휘 집합 내 각 예측 어휘 별로 상기 특정 어휘와의 문자 유형 및 품사 유형을 비교하여, 비교 결과 상기 특정 어휘와 상호 호환되지 않는 예측 어휘를 제외시키는 제1 필터링,상기 예측 어휘 집합 내 각 예측 어휘 간 예측 확률값을 비교하여, 비교 결과를 근거로 예측 확률값이 가장 높은 순서에 따라 K개를 선정하거나, 가장 높은 예측 확률값의 특정 예측 어휘 및 상기 특정 예측 어휘와의 예측 확률값 차이가 기준 범위 이내인 예측 어휘들을 선정하는 제2 필터링 중 적어도 하나를 수행하는 것을 특징으로 하는 사전학습 언어모델의 어휘 확장 방법
6 6
제 1 항에 있어서,상기 선별단계는,상기 특정 분야의 데이터 언어에 따른 토큰 구분(tokenization) 전처리를 수행하여, 상기 특정 분야의 데이터를 토큰(token)으로 구분하고,상기 토큰으로 구분된 데이터에 대해, 부분 단어 기반 토큰 구분(subword-based tokenization)을 추가로 수행하여 상기 특정 분야에 대한 토큰 사전을 획득하며,상기 획득한 토큰 사전에서 상기 범용 사전학습 언어모델에 존재하는 어휘에 해당하는 토큰을 제외한 후 남아 있는 각 토큰에 해당하는 각 어휘를, 상기 특정 어휘로서 선별하는 것을 특징으로 하는 사전학습 언어모델의 어휘 확장 방법
7 7
제 1 항에 있어서,상기 구축단계는,상기 구축한 분야 적응형 어휘 확장 사전학습 언어모델을 상기 특정 분야의 데이터로 추가 사전학습(continual pre-training)하는 단계를 더 포함하는 것을 특징으로 하는 사전학습 언어모델의 어휘 확장 방법
8 8
특정 분야의 데이터로부터, 기 구축된 범용 사전학습 언어모델에 추가 적용하기 위한 특정 어휘를 선별하는 선별부;상기 범용 사전학습 언어모델 및 상기 특정 어휘가 포함되는 문장을 이용하여, 상기 특정 어휘에 대한 임베딩 값을 생성하는 생성부; 및상기 특정 어휘 및 상기 특정 어휘에 대하여 생성한 임베딩 값을, 상기 범용 사전학습 언어모델의 어휘 사전 및 임베딩 계층에 추가하여, 상기 특정 분야에 대한 분야 적응형 어휘 확장 사전학습 언어모델을 구축하는 구축부를 포함하며,상기 생성부는, 상기 특정 어휘가 포함되는 문장에서 상기 특정 어휘를 특정 토큰(‘[MASK]’)으로 마스킹한 후 상기 범용 사전학습 언어모델의 MLM(Masked Language Model)에 입력하여, 상기 특정 어휘가 포함되는 문장 별로 상기 특정 토큰(‘[MASK]’)에 대한 예측 어휘 집합을 획득하며,획득한 상기 예측 어휘 집합에서 예측 오류를 개선하기 위한 필터링을 수행하며, 상기 범용 사전학습 언어모델로부터 상기 예측 어휘 집합에서 상기 필터링된 각 예측 어휘에 대한 임베딩 벡터값을 획득하고, 상기 획득한 임베딩 벡터값을 이용한 집계연산을 통해 상기 특정 어휘에 대한 임베딩 값을 생성하는 것을 특징으로 하는 사전학습 언어모델 구축장치
9 9
제 8 항에 있어서,상기 생성부는, 상기 특정 어휘 별로, 특정 분야의 데이터로부터 특정 어휘가 포함되는 문장을 N개 추출하여 이용하며,상기 데이터로부터 상기 N개의 문장 추출이 불가능한 경우, 검색을 통해 웹 문서로부터 특정 어휘가 포함되는 문장을 부족한 개수 만큼 추가로 추출하여 이용하는 것을 특징으로 하는 사전학습 언어모델 구축장치
10 10
제 9 항에 있어서,상기 생성부는,상기 특정 어휘가 포함되는 문장 추출 시, 상기 특정 어휘가 문장의 시작이나 끝 위치가 아닌 위치에 출현하는 문장을 우선 추출하며, 상기 특정 어휘가 복합명사를 구성하면서 상기 복합명사에서 시작 위치 또는 수식구에 출현하는 문장을 추출 대상에서 제외하는 것을 특징으로 하는 사전학습 언어모델 구축장치
11 11
삭제
12 12
제 8 항에 있어서,상기 생성부는,상기 예측 어휘 집합 내 각 예측 어휘 별로 상기 특정 어휘와의 문자 유형 및 품사 유형을 비교하여, 비교 결과 상기 특정 어휘와 상호 호환되지 않는 예측 어휘를 제외시키는 제1 필터링,상기 예측 어휘 집합 내 각 예측 어휘 간 예측 확률값을 비교하여, 비교 결과를 근거로 예측 확률값이 가장 높은 순서에 따라 K개를 선정하거나, 가장 높은 예측 확률값의 특정 예측 어휘 및 상기 특정 예측 어휘와의 예측 확률값 차이가 기준 범위 이내인 예측 어휘들을 선정하는 제2 필터링 중 적어도 하나를 수행하는 것을 특징으로 하는 사전학습 언어모델 구축장치
13 13
제 8 항에 있어서,상기 선별부는,상기 특정 분야의 데이터 언어에 따른 토큰 구분(tokenization) 전처리를 수행하여, 상기 특정 분야의 데이터를 토큰(token)으로 구분하고,상기 토큰으로 구분된 데이터에 대해, 부분 단어 기반 토큰 구분(subword-based tokenization)을 추가로 수행하여 상기 특정 분야에 대한 토큰 사전을 획득하며,상기 획득한 토큰 사전에서 상기 범용 사전학습 언어모델에 존재하는 어휘에 해당하는 토큰을 제외한 후 남아 있는 각 토큰에 해당하는 각 어휘를, 상기 특정 어휘로서 선별하는 것을 특징으로 하는 사전학습 언어모델 구축장치
14 14
제 8 항에 있어서,상기 구축부는,상기 구축한 분야 적응형 어휘 확장 사전학습 언어모델을 상기 특정 분야의 데이터로 추가 사전학습(continual pre-training)하는 것을 특징으로 하는 사전학습 언어모델 구축장치
15 15
하드웨어와 결합되어, 특정 분야의 데이터로부터 기 구축된 범용 사전학습 언어모델에 추가 적용하기 위한 특정 어휘를 선별하는 단계;상기 범용 사전학습 언어모델 및 상기 특정 어휘가 포함되는 문장을 이용하여, 상기 특정 어휘에 대한 임베딩 값을 생성하는 단계; 및상기 특정 어휘 및 상기 특정 어휘에 대하여 생성한 임베딩 값을, 상기 범용 사전학습 언어모델의 어휘 사전 및 임베딩 계층에 추가하여, 상기 특정 분야에 대한 분야 적응형 어휘 확장 사전학습 언어모델을 구축하는 구축단계를 실행시키며,상기 특정 어휘에 대한 임베딩 값을 생성하는 단계는, 상기 특정 어휘가 포함되는 문장에서 상기 특정 어휘를 특정 토큰(‘[MASK]’)으로 마스킹한 후 상기 범용 사전학습 언어모델의 MLM(Masked Language Model)에 입력하여, 상기 특정 어휘가 포함되는 문장 별로 상기 특정 토큰(‘[MASK]’)에 대한 예측 어휘 집합을 획득하며,획득한 상기 예측 어휘 집합에서 예측 오류를 개선하기 위한 필터링을 수행하며, 상기 범용 사전학습 언어모델로부터 상기 예측 어휘 집합에서 상기 필터링된 각 예측 어휘에 대한 임베딩 벡터값을 획득하고, 상기 획득한 임베딩 벡터값을 이용한 집계연산을 통해 상기 특정 어휘에 대한 임베딩 값을 생성하기 위해 매체에 저장된 컴퓨터프로그램
지정국 정보가 없습니다
패밀리정보가 없습니다
순번, 연구부처, 주관기관, 연구사업, 연구과제의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 국가R&D 연구정보 정보 표입니다.
순번 연구부처 주관기관 연구사업 연구과제
1 보건복지부 한국과학기술정보연구원 감염병위기대응기술개발(방역연계 범부처 감염병 연구개발사업단) 해외 감염병 신속 경보 의사결정 지원을 위한 인공지능 기술 개발
2 과학기술정보통신부 한국과학기술정보연구원 한국과학기술정보연구원연구운영비지원(R&D)(주요사업비) Data/AI 기반 문제해결 체계 구축