맞춤기술찾기

이전대상기술

문서 유사도 측정 모델 생성 방법 및 이를 이용한 문서 유사도 측정 방법

  • 기술번호 : KST2022008247
  • 담당센터 : 서울동부기술혁신센터
  • 전화번호 : 02-2155-3662
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 문서 유사도 측정 모델 생성 방법 및 이를 이용한 문서 유사도 측정 방법이 개시된다. 문서 유사도 측정 모델 생성 방법은 표본 데이터에서 문서 내 핵심 문장을 재배열하는 단계, 상기 문서 내 문장구조 및 문장 사이 관계에 대한 추가 학습하는 단계, 기 구축된 데이터와 문장 유사도를 비교하여 파인 튜닝(fine tuning)하여, 기초 학습 모델을 생성하는 단계, 상기 기초 학습 모델을 이용하여, 레이블링 되지 않은 문서 데이터에 대해서 레이블링을 부여하는 준 지도 학습하는 단계, 및 상기 준 지도 학습 과정을 통해 구축된 훈련 데이터를 최대 토큰의 개수에 따라 단계를 나누어 순차적으로 학습하는 단계를 포함한다.
Int. CL G06K 9/62 (2022.01.01) G06N 20/00 (2019.01.01) G06K 9/00 (2022.01.01)
CPC G06K 9/6215(2013.01) G06N 20/00(2013.01) G06V 30/40(2013.01) G06V 30/10(2013.01)
출원번호/일자 1020200169614 (2020.12.07)
출원인 고려대학교 산학협력단
등록번호/일자
공개번호/일자 10-2022-0080472 (2022.06.14) 문서열기
공고번호/일자
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 공개
심사진행상태 수리
심판사항
구분 국내출원/신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2020.12.07)
심사청구항수 7

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 고려대학교 산학협력단 대한민국 서울특별시 성북구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 임희석 서울특별시 성북구
2 서재형 서울특별시 동대문구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 김홍석 대한민국 서울시 구로구 디지털로**길 **, ***호(구로동, 코오롱싸이언스밸리*차)(동진국제특허법률사무소)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
최종권리자 정보가 없습니다
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2020.12.07 수리 (Accepted) 1-1-2020-1323001-95
2 선행기술조사의뢰서
Request for Prior Art Search
2021.07.16 수리 (Accepted) 9-1-9999-9999999-89
3 선행기술조사보고서
Report of Prior Art Search
2021.09.09 발송처리완료 (Completion of Transmission) 9-6-2021-0172485-96
4 의견제출통지서
Notification of reason for refusal
2022.02.23 발송처리완료 (Completion of Transmission) 9-5-2022-0147937-12
5 [거절이유 등 통지에 따른 의견]의견서·답변서·소명서
2022.04.18 수리 (Accepted) 1-1-2022-0413113-89
6 [명세서등 보정]보정서
[Amendment to Description, etc.] Amendment
2022.04.18 보정승인간주 (Regarded as an acceptance of amendment) 1-1-2022-0413162-16
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
컴퓨팅 장치에 의해 수행되는 문서 유사도 측정 모델 생성 방법에 있어서,표본 데이터에서 문서 내 핵심 문장을 재배열하는 단계;상기 문서 내 문장구조 및 문장 사이 관계에 대한 추가 학습하는 단계;기 구축된 데이터와 문장 유사도를 비교하여 파인 튜닝(fine tuning)하여, 기초 학습 모델을 생성하는 단계;상기 기초 학습 모델을 이용하여, 레이블링 되지 않은 문서 데이터에 대해서 레이블링을 부여하는 준 지도 학습하는 단계; 및상기 준 지도 학습 과정을 통해 구축된 훈련 데이터를 최대 토큰의 개수에 따라 단계를 나누어 순차적으로 학습하는 단계를 포함하는 문서 유사도 측정 모델 생성 방법
2 2
제1항에 있어서,상기 표본 데이터에서 문서 내 핵심 문장을 재배열하는 것은 BM25 알고리즘을 이용하되,상기 BM25는 문서 사이에 빈번하게 등장하는 단어에 대해서 낮은 가중치를 부여하는 문서 역 빈도 식과 일 문서 내에 같은 단어가 자주 등장하는 경우 높은 가중치를 부여하는 단어 빈도 식에 대한 곱으로 이루어지는 문서 유사도 측정 모델 생성 방법
3 3
제1항에 있어서,상기 문장구조 및 문장 사이 관계에 대한 추가 학습하는 것은, GPT2을 기반으로 신조어 및 어감 학습을 포함하는 문서 유사도 측정 모델 생성 방법
4 4
제1항에 있어서,상기 기 구축된 데이터와 문장 유사도를 비교하여 파인 튜닝하는 것을 KorSTS 데이터를 기반으로 문장 유사도 비교를 통해 0 내지 5점 사이의 값으로 예측하는 문서 유사도 측정 모델 생성 방법
5 5
제1항에 있어서,상기 준 지도 학습에서 레이블링에 활용된 데이터는 새로운 훈련 데이터셋과 중복되지 않는 문서 유사도 측정 모델 생성 방법
6 6
제1항에 있어서,상기 준 지도 학습에서 본문과 제목으로 구성된 문서 쌍에 대한 새로운 유사도 점수를 부여하는 문서 유사도 측정 모델 생성 방법
7 7
제1항에 있어서,상기 훈련 데이터를 최대 토큰의 개수에 따라 단계를 나누어 순차적으로 학습하는 것은,최대 토큰 64길이의 1단계 학습하는 단계;최대 토큰 256길이의 2단계 학습하는 단계; 및최대 토큰 512길이의 3단계 학습하는 단계를 포함하는 문서 유사도 측정 모델 생성 방법
지정국 정보가 없습니다
패밀리정보가 없습니다
순번, 연구부처, 주관기관, 연구사업, 연구과제의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 국가R&D 연구정보 정보 표입니다.
순번 연구부처 주관기관 연구사업 연구과제
1 과학기술정보통신부 고려대학교산학협력단 차세대인공지능핵심원천기술개(R&D) 뉴럴-심볼릭(neural-symbolic) 모델의 지식 학습 및 추론 기술 개발