맞춤기술찾기

이전대상기술

컨벌루션 신경망 기반 영문 텍스트 정형화 방법

  • 기술번호 : KST2019014953
  • 담당센터 : 대구기술혁신센터
  • 전화번호 : 053-550-1450
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 본 발명은 컨벌루션 신경망 기반 영문 텍스트 정형화 방법에 관한 것으로, 영문 텍스트로 이루어진 문서의 집합을 미리 정의된 데이터 스키마를 가진 정형 데이터로 변환하는 컨벌루션 신경망 기반 영문 텍스트 정형화 방법에 있어서, a) 입력 텍스트를 전처리하여 입력 텍스트를 실수 벡터 형식으로 변환하는 단계와, b) 입력 텍스트로부터 후보 키워드를 추출하는 단계와, c) 각 후보 키워드를 포함하는 문장을 색인하는 단계와, d) 상기 후보 키워드에 대한 특징점을 추출하는 단계와, e) 추출한 특징점을 입력 데이터로 하여 키워드의 라벨을 예측하는 단계와, f) 상기 산출된 키워드 속성을 네거티브 샘플링 기반 신경망 학습처리를 수행하여 각 속성에 키워드를 매핑하는 단계를 포함한다.
Int. CL G06F 17/27 (2006.01.01) G06N 3/08 (2006.01.01)
CPC G06F 40/205(2013.01) G06F 40/205(2013.01) G06F 40/205(2013.01) G06F 40/205(2013.01)
출원번호/일자 1020170182571 (2017.12.28)
출원인 포항공과대학교 산학협력단
등록번호/일자 10-1999152-0000 (2019.07.05)
공개번호/일자 10-2019-0080234 (2019.07.08) 문서열기
공고번호/일자 (20190711) 문서열기
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 등록
심사진행상태 수리
심판사항
구분 신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2017.12.28)
심사청구항수 13

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 포항공과대학교 산학협력단 대한민국 경상북도 포항시 남구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 한욱신 경상북도 포항시 남구
2 김현지 울산광역시 동구
3 박용희 경상북도 포항시 남구
4 김경민 충청남도 천안시 동남구
5 소병훈 전라북도 전주시 덕진구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 특허법인이룸리온 대한민국 서울특별시 서초구 사평대로 ***, *층 (반포동)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
1 포항공과대학교 산학협력단 경상북도 포항시 남구
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2017.12.28 수리 (Accepted) 1-1-2017-1305106-75
2 의견제출통지서
Notification of reason for refusal
2019.01.15 발송처리완료 (Completion of Transmission) 9-5-2019-0037127-51
3 [명세서등 보정]보정서
[Amendment to Description, etc.] Amendment
2019.03.15 보정승인간주 (Regarded as an acceptance of amendment) 1-1-2019-0266027-52
4 최후의견제출통지서
Notification of reason for final refusal
2019.05.28 발송처리완료 (Completion of Transmission) 9-5-2019-0379234-60
5 [명세서등 보정]보정서
[Amendment to Description, etc.] Amendment
2019.05.29 보정승인 (Acceptance of amendment) 1-1-2019-0550905-64
6 등록결정서
Decision to grant
2019.06.28 발송처리완료 (Completion of Transmission) 9-5-2019-0463830-66
7 출원인정보변경(경정)신고서
Notification of change of applicant's information
2019.11.20 수리 (Accepted) 4-1-2019-5243581-27
8 출원인정보변경(경정)신고서
Notification of change of applicant's information
2019.11.22 수리 (Accepted) 4-1-2019-5245997-53
9 출원인정보변경(경정)신고서
Notification of change of applicant's information
2019.11.25 수리 (Accepted) 4-1-2019-5247115-68
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
컴퓨터를 이용하여 영문 텍스트로 이루어진 문서의 집합을 미리 정의된 데이터 스키마를 가진 정형 데이터로 변환하는 컨벌루션 신경망 기반 영문 텍스트 정형화 방법에 있어서,a) 입력 텍스트를 전처리하여 입력 텍스트를 실수 벡터 형식으로 변환하는 단계;b) 입력 텍스트로부터 후보 키워드를 추출하는 단계;c) 각 후보 키워드를 포함하는 문장을 색인하는 단계;d) 상기 후보 키워드에 대한 특징점을 추출하는 단계;e) 추출한 특징점을 입력 데이터로 하여 키워드의 라벨을 예측하는 단계; 및f) 상기 추출된 키워드 특징점을 네거티브 샘플링 기반 신경망 학습처리를 수행하여 각 속성에 키워드를 매핑하는 단계를 포함하는 컨벌루션 신경망 기반 영문 텍스트 정형화 방법
2 2
제1항에 있어서,상기 a) 단계는,비정형 데이터인 비정형 데이터인 영문 텍스트를 문장 단위로 분리한 뒤 문장 내의 각 단어를 식별하는 토큰화 단계; 및상기 식별된 각 단어를 벡터로 표현하고, 각 단어에 대한 품사 태깅 및 개체명 클래스를 통해 벡터화하는 임베딩 단계를 포함하는 컨벌루션 신경망 기반 영문 텍스트 정형화 방법
3 3
제1항에 있어서,상기 b) 단계는,최소 1에서 최대 kmax(k는 양의 정수) 크기를 가지는 윈도우(window)를 이용하여 텍스트의 모든 문장에 포함된 키워드를 추출하되, 키워드 시퀀스가 텍스트 내에 여러 번 등장하는 경우 중복 시퀀스를 제거하여 키워드 집합을 추출하는 것을 특징으로 하는 컨벌루션 신경망 기반 영문 텍스트 정형화 방법
4 4
제3항에 있어서,상기 c) 단계는,추출된 각 키워드를 포함하는 모든 문장의 집합을 상기 입력된 텍스트에서 추출하는 것을 특징으로 하는 컨벌루션 신경망 기반 영문 텍스트 정형화 방법
5 5
제4항에 있어서,상기 문장의 집합을 추출하는 과정은 상기 키워드 집합을 구하는 과정에서 각 키워드에 대해, 키워드를 포함하는 문장의 인덱스 정보를 함께 저장하고, 상기 문장의 인덱스 정보를 이용하여 문장의 집합을 추출하는 것을 특징으로 하는 컨벌루션 신경망 기반 영문 텍스트 정형화 방법
6 6
제1항에 있어서,상기 d) 단계는, 키워드를 단어 임베딩 및 태그 임베딩 벡터를 구한 후, 두 벡터에 어텐션 기법을 적용하여 임베딩 벡터를 산출하여, 키워드가 포함하는 단어의 개수에 관계없이 키워드의 임베딩 벡터의 크기가 일정하게 유지되도록 하는 단어 특징점 추출과정과, 상기 키워드의 단어 임베딩 벡터로 변환한 결과를 이용하여 각 문장 내의 키워드와의 상대위치를 구하여 문장 특징점을 구하는 문장 특징점 추출과정을 포함하는 컨벌루션 신경망 기반 영문 텍스트 정형화 방법
7 7
제1항에 있어서,상기 e) 단계는,상기 특징점을 소프트맥스 회귀(Softmax regression)의 입력 값으로 하여, 키워가 속하는 속성과 점수를 계산하는 것을 특징으로 하는 컨벌루션 신경망 기반 영문 텍스트 정형화 방법
8 8
제1항에 있어서,상기 f) 단계는,상기 추출된 키워드 중 정형 데이터에 저장된 값과 일치하지 않는 타겟 키워드의 경우 NA를 해당 키워드의 라벨로 설정하는 단계;상기 라벨이 정해진 키워드들 중에서 네거티브 샘플링을 통해 데이터 스키마의 속성을 라벨로 가진 키워드 개수와 NA를 라벨로 가진 키워드의 개수의 비율을 조절하는 단계; 및상기 설정된 타겟 키워드와 라벨을 입력받아 컨볼루션 신경망 기반 문장 특징점(sentence feature)/어텐션 신경망 기반 키워드 특징점(keyword feature)를 포함하는 신경망을 학습하는 단계를 포함하는 컨벌루션 신경망 기반 영문 텍스트 정형화 방법
9 9
삭제
10 10
제8항에 있어서,상기 신경망은,컨벌루션 신경망을 이용하여 계산한 타겟 키워드를 포함하는 문장의 벡터, 타겟 키워드의 임베딩 벡터, 타겟 키워드의 형태소 분석값/개체명 인식값의 임베딩 벡터, 문장 내 타겟 키워드 직전 단어의 형태소 분석값/개체명 인식값의 임베딩 벡터, 및 문장 내 타겟 키워드 직후 단어의 형태소 분석값/개체명 인식값의 임베딩 벡터를 특징점으로 포함하는 컨벌루션 신경망 기반 영문 텍스트 정형화 방법
11 11
삭제
12 12
제10항에 있어서,상기 특징점에서 타겟 키워드의 임베딩 벡터는,타겟 키워드가 2개 이상의 단어로 이루어진 경우 타겟 키워드 각 단어의 임베딩 벡터에 어텐션 신경망을 적용하여 계산되는 것을 특징으로 하는 컨벌루션 신경망 기반 영문 텍스트 정형화 방법
13 13
제10항에 있어서,상기 특징점에서 컨벌루션 신경망을 이용하여 문장의 벡터를 계산하는 과정은,문장 내의 각 단어를 임베딩 벡터로 변환한 값과 문장 내의 타겟 키워드에 대한 문장 내의 각 단어의 상대적인 위치를 임베딩 벡터로 변환한 값을 입력으로 받는 단일 레이어 컨볼루션 신경망을 이용하는 것을 특징으로 하는 컨벌루션 신경망 기반 영문 텍스트 정형화 방법
14 14
제10항에 있어서,상기 특징점에서 타겟 키워드 및 타겟 키워드 전후 단어의 형태소 분석값/개체명 인식값의 임베딩 벡터는 신경망 학습 과정에서 가변성을 갖는 것을 특징으로 하는 컨벌루션 신경망 기반 영문 텍스트 정형화 방법
15 15
제13항에 있어서,상기 컨벌루션 신경망의 입력값 중 단어의 상대적인 위치를 임베딩 벡터로 변환한 값은 신경망 학습과정에서 가변성을 갖는 것을 특징으로 하는 컨벌루션 신경망 기반 영문 텍스트 정형화 방법
지정국 정보가 없습니다
패밀리정보가 없습니다
순번, 연구부처, 주관기관, 연구사업, 연구과제의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 국가R&D 연구정보 정보 표입니다.
순번 연구부처 주관기관 연구사업 연구과제
1 과학기술정보통신부 포항공과대학교 산학협력단 IT명품인재양성사업 [후원금_산학수익]포스텍 미래 IT 융합연구원