맞춤기술찾기

이전대상기술

관계성 학습을 이용한 자연어 처리 시스템 및 방법

  • 기술번호 : KST2022009610
  • 담당센터 : 대전기술혁신센터
  • 전화번호 : 042-610-2279
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 본 기술은 관계성 학습을 이용한 자연어 처리 시스템 및 방법이 개시된다. 이러한 본 기술에 대한 구체적인 구현 예는 수집된 다수의 말뭉치에 대한 각 문장 벡터를 토대로 구조 벡터를 생성하여 생성된 다수의 구조 벡터를 입력된 말뭉치와 매칭시켜 학습 모델을 구축하고, 입력된 말뭉치에 대해 구축된 학습 모델을 기반 학습 수행하여 입력된 말뭉치와 유사한 문장 구조를 가지는 다수의 유사 구조 벡터를 추정하고 추정된 유사 구조 벡터 및 문장 벡터의 거리 함수를 토대로 정답 문장구조 태그열을 생성함에 따라 입력된 문장의 문법구조를 반영하여 입력된 문장을 인코딩할 수 있고, 이에 자연스러운 대화를 진행할 수 있다.
Int. CL G06F 40/211 (2020.01.01) G06F 40/284 (2020.01.01) G06F 40/268 (2020.01.01) G06F 40/14 (2020.01.01) G06N 20/00 (2019.01.01)
CPC G06F 40/211(2013.01) G06F 40/284(2013.01) G06F 40/268(2013.01) G06F 40/14(2013.01) G06N 20/00(2013.01)
출원번호/일자 1020210000530 (2021.01.04)
출원인 충남대학교산학협력단
등록번호/일자
공개번호/일자 10-2022-0098628 (2022.07.12) 문서열기
공고번호/일자
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 공개
심사진행상태 수리
심판사항
구분 국내출원/신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2021.01.04)
심사청구항수 12

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 충남대학교산학협력단 대한민국 대전광역시 유성구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 정상근 서울특별시 동작구
2 서혜인 대전광역시 유성구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 이은철 대한민국 서울특별시 송파구 법원로**길 **, A동 *층 ***호(문정동, 에이치비지니스파크)(*T국제특허법률사무소)
2 김재문 대한민국 서울특별시 송파구 법원로**길 **, A동 *층 ***호 (문정동, 에이치비지니스파크)(*T국제특허법률사무소)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
최종권리자 정보가 없습니다
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2021.01.04 수리 (Accepted) 1-1-2021-0005761-06
2 [명세서등 보정]보정서
[Amendment to Description, etc.] Amendment
2021.01.05 보정승인간주 (Regarded as an acceptance of amendment) 1-1-2021-0007359-01
3 특허고객번호 정보변경(경정)신고서·정정신고서
2021.10.05 수리 (Accepted) 4-1-2021-5261638-12
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
수집된 말뭉치를 문법구조 모델링 및 전처리를 통해 문장 형태로 표현하고, 문장 형태의 의존 구문을 선학습 BERT를 통해 토큰으로 분리한 다음 각 토큰의 임베딩값으로 구조 벡터를 생성하여 학습 모델링하는 문법구조 리더기;입력된 말뭉치에 대해 선학습 BERT(Bidirectional Encoder Representations from Transformers) 언어모델의 토크나이저를 통해 토큰 분리한 다음 각 토큰의 임베딩값으로 문장 벡터를 생성하는 텍스트 리더기; 텍스트 리더기로부터 생성된 문장 벡터에 대한 상기 학습 모델링을 통해 학습 수행하여 유사 구조 벡터를 생성하는 문법구조 라이터기; 상기 문법구조 라이터기의 다수의 유사 구조 벡터 중 각 유사 구조 벡터와 텍스트 리더기의 문장 벡터에 대한 거리함수를 기반으로 정답 구조 벡터를 추정하는 학습부를 포함하는 것을 특징으로 하는 관계성 학습을 이용한 자연어 처리 시스템
2 2
제1항에 있어서, 상기 문법구조 리더기는수집된 다수의 문장에 대해 다수의 의존 구문 분석(dependency parsing) 및 전처리를 통해 각 단어 간의 의존 관계를 문장 형태로 표현하고 의존 구문의 문장 형태를 BERT 토크나이저를 통해 분리한 다음 각 토큰에 대해 임베딩값을 연산하여 의존 구문 벡터로 출력하는 의존 구조 리더모듈;수집된 다수의 문장에 대해 다수의 구 구조 구문 분석(phrase structure parsing)을 수행한 결과 생성된 구 구조 트리를 문장 형태로 표현한 다음 구 구조 문장 형태를 BERT 토크나이저를 통해 분리하고, 각 토큰에 대해 임베딩값을 연산하여 구 구조 벡터로 출력하는 구 구조 리더모듈; 및 다수의 문장에 대해 다수의 형태소 분석(part-of-speech tagging)을 수행하고, 각 형태소에 따른 품사 태그를 문장 형태로 표현한 다음 형태소 분석 문장 형태를 BERT 토크나이저를 통해 분리하고, 각 토큰에 대해 임베딩값을 연산하여 형태소 벡터로 출력하는 형태소 분석 리더모듈; 중 적어도 하나를 포함하는 것을 특징으로 하는 관계성 학습을 이용한 자연어 처리 시스템
3 3
제2항에 있어서, 상기 문법구조 리더기의 전처리는 입력된 텍스트 리더기의 문장 벡터에 대해 각 의존 구문 분석을 통해 의존 구문 트리를 생성하고, 생성된 각 트리에서 각 단어 간의 관계인 아크 라벨 arc label을 문장 형태의 의존 구문으로 변환하며, 변환된 의존 구문의 문장에 대해 선학습 BERT 언어모델에 전달하는 것을 특징으로 하는 관계성 학습을 이용한 자연어 처리 시스템
4 4
제3항에 있어서, 상기 텍스트 리더기는입력된 말뭉치를 순차적으로 분리하는 BERT 토크라이저; 및각 토큰에 대해 임베딩값을 연산하고 연산된 임베딩값을 문장 벡터로 출력하는 문장벡터 출력부를 도출되는 것을 특징으로 하는 관계성 학습을 이용한 자연어 처리 시스템
5 5
제4항에 있어서, 상기 학습부는, 입력된 상기 텍스트 리더기의 문장 벡터와 문장구조 라이트기의 유사 구조 벡터 간의 거리 비용을 도출하는 거리비용 도출모듈; 및도출된 거리 비용이 가장 작은 문장 벡터 및 유사 구조 벡터에 대해 문법구조 태그열을 생성하여 생성된 문법구조 태그열을 정답 문법구조 태그열로 출력하는 정답 문법구조 도출모듈; 을 포함하는 것을 특징으로 하는 관계성 학습을 이용한 자연어 처리 시스템
6 6
제5항에 있어서, 상기 학습부는,실측된 정답 문법구조 태그열과 생성된 정답 문법구조 태그열을 기반으로 학습 성능을 제어하는 학습 제어기를 더 포함하는 것을 특징으로 하는 관계성 학습을 이용한 자연어 처리 시스템
7 7
제6항에 있어서, 상기 학습 제어기는,실측된 정답 문법구조 태그열과 상기 생성된 정답 문법구조 태그열에 대한 상관 엔트로피로 생성 비용을 연산하는 생성 비용 연산모듈; 및연산된 생성 비용과 거리 비용의 합으로 손실 비용을 연산하는 손실 비용 연산모듈; 및상기 손실 비용으로 학습 성능을 제어하는 학습 성능 제어모듈을 포함하는 것을 특징으로 하는 관계성 학습을 이용한 자연어 처리 시스템
8 8
수집된 말뭉치를 문법구조 모델링을 통해 문장 형태로 표현하고, 문장 형태의 의존 구문을 전처리 후 선학습 BERT를 통해 토큰으로 분리한 다음 각 토큰의 임베딩값으로 구조 벡터를 생성하여 학습 모델링하는 문법구조 리딩 단계; 입력된 말뭉치에 대해 선학습 BERT(Bidirectional Encoder Representations from Transformers) 언어모델의 토크나이저를 통해 토큰 분리한 다음 각 토큰의 임베딩값으로 문장 벡터를 생성하는 텍스트 리더 단계; 생성된 문장 벡터에 대한 상기 학습 모델링을 통해 학습 수행하여 유사 구조 벡터를 생성하는 문법구조 라이팅 단계; 및 다수의 유사 구조 벡터 중 각 유사 구조 벡터와 텍스트 리더기의 문장 벡터에 대한 거리함수를 기반으로 정답 구조 벡터를 추정하는 학습단계를 포함하는 것을 특징으로 하는 관계성 학습을 이용한 자연어 처리 방법
9 9
제8항에 있어서, 상기 문법구조 리더기의 전처리는, 입력된 텍스트 리더기의 문장 벡터에 대해 각 의존 구문 분석을 통해 의존 구문 트리를 생성하고, 생성된 각 트리에서 각 단어 간의 관계인 아크 라벨 arc label을 문장 형태의 의존 구문으로 변환하며, 변환된 의존 구문의 문장에 대해 선학습 BERT 언어모델로 전달하는 것을 특징으로 하는 관계성 학습을 이용한 자연어 처리 방법
10 10
제8항에 있어서, 상기 학습 단계는, 입력된 상기 텍스트 리더기의 문장 벡터와 문장구조 라이트기의 유사 구조 벡터 간의 거리 비용을 도출하는 단계; 및도출된 거리 비용이 가장 작은 문장 벡터 및 유사 구조 벡터에 대해 문법구조 태그열을 생성하여 생성된 문법구조 태그열을 정답 문법구조 태그열로 출력하는 단계를 포함하는 것을 특징으로 하는 관계성 학습을 이용한 자연어 처리 방법
11 11
제10항에 있어서, 상기 학습 단계는,실측된 정답 문법구조 태그열과 상기 생성된 정답 문법구조 태그열에 대한 상관 엔트로피로 생성 비용을 연산하는 단계; 연산된 생성 비용과 거리 비용의 합으로 손실 비용을 연산하는 단계; 및상기 손실 비용으로 학습 성능을 제어하는 단계를 더 포함하는 것을 특징으로 하는 관계성 학습을 이용한 자연어 처리 방법
12 12
제8항 내지 제11항 중 어느 한 항의 관계성 학습을 이용한 자연어 처리 방법을 실행하기 위한 프로그램이 기록되고 컴퓨터에서 판단 가능한 기록매체
지정국 정보가 없습니다
패밀리정보가 없습니다
순번, 연구부처, 주관기관, 연구사업, 연구과제의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 국가R&D 연구정보 정보 표입니다.
순번 연구부처 주관기관 연구사업 연구과제
1 과학기술정보통신부 충남대학교 개인기초연구(과기정통부)(R&D) 설명 가능한 딥러닝 자연어 처리 기술 개발