맞춤기술찾기

이전대상기술

자연어 처리 방법 및 장치

  • 기술번호 : KST2023007197
  • 담당센터 : 대전기술혁신센터
  • 전화번호 : 042-610-2279
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 본 개시의 일 실시예에 따라, 컴퓨팅 장치에 의해 수행되는 자연어 처리 방법으로서, 상기 방법은, 수를 포함하는 자연어를 입력 받는 단계, 수에 관한 문맥 정보를 가중시키도록 생성된 어텐션 마스크를 상기 자연어에 적용하여 마스킹 하는 단계, 및 마스킹 된 상기 자연어에 기초하여, 상기 자연어와 연관된 질의의 정답을 생성하는 단계를 포함할 수 있다.
Int. CL G06F 40/211 (2020.01.01) G06F 40/284 (2020.01.01) G06F 40/151 (2020.01.01) G06F 16/332 (2019.01.01) G06F 16/33 (2019.01.01) G06N 3/04 (2023.01.01) G06N 3/08 (2023.01.01)
CPC G06F 40/211(2013.01) G06F 40/284(2013.01) G06F 40/151(2013.01) G06F 16/3334(2013.01) G06F 16/3329(2013.01) G06F 16/3344(2013.01) G06N 3/045(2013.01) G06N 3/08(2013.01)
출원번호/일자 1020220023838 (2022.02.23)
출원인 한국과학기술원
등록번호/일자
공개번호/일자 10-2023-0126536 (2023.08.30) 문서열기
공고번호/일자
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 공개
심사진행상태 수리
심판사항
구분 국내출원/신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2022.02.23)
심사청구항수 20

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 한국과학기술원 대한민국 대전광역시 유성구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 맹성현 대전광역시 유성구
2 김정환 대전광역시 유성구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 유미특허법인 대한민국 서울특별시 강남구 테헤란로 ***, 서림빌딩 **층 (역삼동)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
최종권리자 정보가 없습니다
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2022.02.23 수리 (Accepted) 1-1-2022-0205462-29
2 선행기술조사의뢰서
Request for Prior Art Search
2023.01.16 수리 (Accepted) 9-1-9999-9999999-89
3 특허고객번호 정보변경(경정)신고서·정정신고서
2023.01.31 수리 (Accepted) 4-1-2023-5023571-05
4 특허고객번호 정보변경(경정)신고서·정정신고서
2023.05.04 수리 (Accepted) 4-1-2023-5110236-33
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
컴퓨팅 장치에 의해 수행되는 자연어 처리 방법으로서, 수를 포함하는 자연어를 입력 받는 단계, 수에 관한 문맥 정보를 가중시키도록 생성된 어텐션 마스크를 상기 자연어에 적용하여 마스킹 하는 단계, 및마스킹 된 상기 자연어에 기초하여, 상기 자연어와 연관된 질의의 정답을 생성하는 단계를 포함하는,자연어 처리 방법
2 2
제 1항에서,상기 수는,자연어로 표현되는 수이고, 상기 방법은,상기 자연어로 표현되는 수를, 하나 이상의 숫자(digit)으로 표현되는 수치(numerical value)로 변환하는 단계를 더 포함하는,자연어 처리 방법
3 3
제 1항에서,상기 방법은, 입력된 상기 자연어를 토크나이저(tokenizer)를 통해 토큰화 하고 입력 임베딩을 생성하는 단계를 더 포함하는,자연어 처리 방법
4 4
제 3항에서,상기 어텐션 마스크는, 상기 입력 임베딩이 입력되며 하나 이상의 레이어를 포함하는 인코더(encoder)의 상단에 추가적인 레이어로 구성되어, 상기 하나 이상의 레이어를 통해 출력되는 중간 출력 임베딩에 대하여 적용되는,자연어 처리 방법
5 5
제 4항에서,상기 어텐션 마스크는, 하나 이상의 채널을 포함하고,상기 하나 이상의 채널은,엔티티-넘버(entity-number) 채널, 타입-넘버(type-number) 채널, 및 디코더-넘버(decoder-number) 채널 중 적어도 하나를 포함하는,자연어 처리 방법
6 6
제 5항에서,상기 엔티티-넘버 채널은, 상기 자연어에 포함된 수와 대응되는 문장에 위치하는 엔티티를, 상기 자연어에 포함된 수에 관한 문맥 정보로 결정하는,자연어 처리 방법
7 7
제 5항에서,상기 엔티티-넘버 채널은, 상기 중간 출력 임베딩에 포함된 하나 이상의 토큰 중 상기 자연어에 포함된 수에 관한 수 토큰의 셀프 어텐션(self-attention)이 수행되는 경우, 상기 수 토큰과 대응되지 않는 문장에 위치하는 토큰에 대한 어텐션 스코어를 0으로 할당하여(zeroing) 최종 출력 임베딩을 생성하는,자연어 처리 방법
8 8
제 5항에서,상기 엔티티-넘버 채널은, 상기 자연어에 포함되는 수의 수 인덱스를 키(key)로 하고, 상기 키와 대응되는 수와 동일한 문장 내에 위치하는 엔티티의 엔티티 인덱스를 상기 키의 값(value)으로 할당하여 생성되는 사전을 기초로, 상기 자연어에 포함된 수에 관한 문맥 정보를 결정하는,자연어 처리 방법
9 9
제 5항에서,상기 타입-넘버 채널은, 상기 자연어에 포함된 수로부터 기 설정된 거리 이내에 위치하는 토큰을, 상기 자연어에 포함된 수에 관한 문맥 정보로 결정하는,자연어 처리 방법
10 10
제 5항에서,상기 타입-넘버 채널은, 상기 중간 출력 임베딩에 포함된 하나 이상의 토큰 중 상기 자연어에 포함된 수에 관한 수 토큰의 셀프 어텐션(self-attention)이 수행되는 경우, 상기 수 토큰으로부터 기 설정된 거리를 초과하여 위치하는 토큰에 대한 어텐션 스코어는 0으로 할당(zeroing)하여 최종 출력 임베딩을 생성하는, 자연어 처리 방법
11 11
제 5항에서,상기 타입-넘버 채널은, 상기 자연어에 포함되는 수의 수 인덱스를 키(key)로 하고, 상기 키와 대응되는 수로부터 기 설정된 크기의 윈도우 내에 존재하는 단어들 중 적어도 일부에 대한 단어 인덱스를 상기 키의 값(value)으로 할당하여 생성되는 사전을 기초로, 상기 자연어에 포함된 수에 관한 문맥 정보를 결정하는,자연어 처리 방법
12 12
제 7항 또는 제 10항에서,상기 디코더-넘버 채널은, 디코더가 상기 인코더의 최종 출력 임베딩에 대한 어텐션을 수행하는 경우, 상기 최종 출력 임베딩 중 상기 자연어에 포함된 수에 관한 숫자 임베딩에 대하여만 어텐션 하도록 제한하는, 자연어 처리 방법
13 13
제 12항에서,상기 디코더-넘버 채널은,상기 디코더가 상기 질의를 상기 인코더에 입력하여 획득되는 질의 임베딩에 추가적으로 어텐션 하도록 제한하는,자연어 처리 방법
14 14
제 7항 또는 제 10항에서,상기 인코더는,상기 최종 출력 임베딩 내에서 상기 자연어에 포함되는 수에 관한 수치 정보의 희석을 방지하기 위해, 상기 자연어에 포함되는 두 개의 수 간의 거리와, 상기 두 개의 수 각각에 대응되는 상기 최종 출력 임베딩 내 두 개의 숫자 임베딩 간의 거리 사이의 로스(loss)가 최소화되는 방향으로 학습되는, 자연어 처리 방법
15 15
컴퓨팅 장치에 의해 수행되는 자연어 처리 방법으로서, 수를 포함하는 자연어를 입력 받는 단계, 상기 자연어에 기초하여 임베딩을 생성하는 단계, 상기 임베딩에 어텐션 마스크를 적용하여, 상기 수에 관한 상기 자연어 내의 엔티티 정보 및 상기 수에 관한 상기 자연어 내의 유형 정보 중 적어도 일부의 정보가 가중화 된 숫자 임베딩을 생성하는 단계, 및상기 숫자 임베딩에 기초하여, 상기 자연어와 연관된 질의의 정답을 생성하는 단계를 포함하는, 자연어 처리 방법
16 16
제 15항에서,상기 임베딩을 생성하는 단계는, 상기 자연어에 포함되는 자연어로 표현되는 수를, 하나 이상의 숫자로 표현되는 수치로 변환하는 단계, 상기 변환된 자연어를 토크나이저를 통해 토큰화 하고 입력 임베딩을 생성하는 단계, 및상기 입력 임베딩을 하나 이상의 레이어를 포함하는 인코더에 입력하여, 중간 출력 임베딩을 획득하는 단계를 포함하는,자연어 처리 방법
17 17
제 15항에서,상기 어텐션 마스크는, 하나 이상의 채널을 포함하고,상기 하나 이상의 채널은,엔티티-넘버(entity-number) 채널, 타입-넘버(type-number) 채널, 및 디코더-넘버(decoder-number) 채널 중 적어도 하나를 포함하는,자연어 처리 방법
18 18
제 17항에서,상기 엔티티-넘버 채널은, 상기 자연어에 포함된 수와 대응되는 문장에 위치하는 엔티티를, 상기 수에 관한 상기 자연어 내의 엔티티 정보로 결정하고, 상기 엔티티 정보가 가중화 된 상기 숫자 임베딩을 생성하는, 자연어 처리 방법
19 19
제 17항에서,상기 타입-넘버 채널은, 상기 자연어에 포함된 수로부터 기 설정된 거리 이내에 위치하는 토큰을, 상기 수에 관한 상기 자연어 내의 유형 정보로 결정하고, 상기 유형 정보가 가중화 된 상기 숫자 임베딩을 생성하는,자연어 처리 방법
20 20
제 17항에서,상기 디코더-넘버 채널은, 디코더가 상기 질의의 정답을 생성하기 위해 인코더의 출력 임베딩에 대한 어텐션을 수행하는 경우, 상기 출력 임베딩 중 상기 숫자 임베딩 및 상기 질의에 관한 질의 임베딩에 대하여만 어텐션 하도록 제한하는, 자연어 처리 방법
지정국 정보가 없습니다
패밀리정보가 없습니다
순번, 연구부처, 주관기관, 연구사업, 연구과제의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 국가R&D 연구정보 정보 표입니다.
순번 연구부처 주관기관 연구사업 연구과제
1 과학기술정보통신부 한국과학기술원 정보통신.방송 연구개발사업 (N01211039)(통합EZ)문맥/수치 임베딩 기반 수학 추론 기술 개발(2021년도)