맞춤기술찾기

이전대상기술

단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 방법 및 장치

  • 기술번호 : KST2020013953
  • 담당센터 : 경기기술혁신센터
  • 전화번호 : 031-8006-1570
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 본 발명은 단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 방법 및 장치에 관한 것으로, 본 발명의 일 실시예에 따른 단어 임베딩 방법은, 학습시킬 문장에서 미등록 단어(OOV: Out Of Vocabulary)를 미지의 토큰(unknown token)으로 대체하여 문장을 가공하는 단계, 상기 가공된 문장에서 상기 미등록 단어를 제외한 타겟 단어의 문자(Character)를 학습 대상인 문맥 문자 모델(Context Character Model)의 입력으로 입력하는 단계, 상기 문장에서 타겟 단어의 주변 단어에 대한 주변 문맥 벡터를 조합하여 상기 문맥 문자 모델의 초기 상태로 설정하는 단계; 및 상기 문맥 문자 모델로부터 산출된 순방향 은닉 상태(Forward hidden state) 및 역방향 은닉 상태(Backward hidden state)를 연결하여 생성된 상기 타겟 단어의 예측 임베딩(Predicted embedding)과 상기 타겟 단어의 실제 임베딩(Real embedding) 간의 오류가 최소가 되도록, 상기 문맥 문자 모델을 학습하는 단계를 포함한다.
Int. CL G06F 40/20 (2020.01.01) G06N 20/00 (2019.01.01)
CPC G06F 40/205(2013.01) G06F 40/205(2013.01) G06F 40/205(2013.01)
출원번호/일자 1020190038587 (2019.04.02)
출원인 성균관대학교산학협력단
등록번호/일자
공개번호/일자 10-2020-0116760 (2020.10.13) 문서열기
공고번호/일자
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 등록
심사진행상태 수리
심판사항
구분 신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2019.04.02)
심사청구항수 20

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 성균관대학교산학협력단 대한민국 경기도 수원시 장안구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 원민섭 경기도 수원시 영통구
2 이지형 서울특별시 중구
3 이상헌 경기도 수원시 장안구
4 신윤섭 경기도 화성
5 정동언 경기도 수원시 장안구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 인비전 특허법인 대한민국 서울특별시 강남구 테헤란로 **길**, *층(대치동, 동산빌딩)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
최종권리자 정보가 없습니다
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2019.04.02 수리 (Accepted) 1-1-2019-0338933-14
2 선행기술조사의뢰서
Request for Prior Art Search
2019.08.08 수리 (Accepted) 9-1-9999-9999999-89
3 선행기술조사보고서
Report of Prior Art Search
2019.09.06 수리 (Accepted) 9-1-2019-0041410-24
4 의견제출통지서
Notification of reason for refusal
2020.08.27 발송처리완료 (Completion of Transmission) 9-5-2020-0590763-64
5 [명세서등 보정]보정서
[Amendment to Description, etc.] Amendment
2020.10.26 보정승인간주 (Regarded as an acceptance of amendment) 1-1-2020-1136622-96
6 [거절이유 등 통지에 따른 의견]의견서·답변서·소명서
2020.10.26 수리 (Accepted) 1-1-2020-1136621-40
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
단어 임베딩 장치에 의해 수행되는 단어 임베딩 방법에 있어서, 학습시킬 문장에서 미등록 단어(OOV: Out Of Vocabulary)를 미지의 토큰(unknown token)으로 대체하여 문장을 가공하는 단계; 상기 가공된 문장에서 상기 미등록 단어를 제외한 타겟 단어의 문자(Character)를 학습 대상인 문맥 문자 모델(Context Character Model)의 입력으로 입력하는 단계; 상기 문장에서 타겟 단어의 주변 단어에 대한 주변 문맥 벡터를 조합하여 상기 문맥 문자 모델의 초기 상태로 설정하는 단계; 및 상기 문맥 문자 모델로부터 산출된 순방향 은닉 상태(Forward hidden state) 및 역방향 은닉 상태(Backward hidden state)를 연결하여 생성된 상기 타겟 단어의 예측 임베딩(Predicted embedding)과 상기 타겟 단어의 실제 임베딩(Real embedding) 간의 오류가 최소가 되도록, 상기 문맥 문자 모델을 학습하는 단계를 포함하는, 단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 방법
2 2
제1항에 있어서, 상기 학습시킬 문장에서 문장 부호 및 불용어(stopword)를 제거하는 단계를 더 포함하는, 단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 방법
3 3
제1항에 있어서, 상기 문맥 문자 모델은, 문자 기반의 양방향 장단기 메모리(Character-based Bidirectional Long Short-Term Memory) 구조를 가지는, 단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 방법
4 4
제1항에 있어서, 상기 초기 상태로 설정하는 단계는, 상기 주변 단어에 대한 주변 문맥 벡터의 평균을 계산하여 상기 문맥 문자 모델의 양방향에 대한 초기 상태로 설정하는, 단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 방법
5 5
제1항에 있어서, 상기 문맥 문자 모델을 학습하는 단계는, 상기 연결된 순방향 은닉 상태 및 역방향 은닉 상태를 밀집 레이어(Dense layer)를 거친 차원 축소를 통해 상기 타겟 단어의 예측 임베딩을 생성하는, 단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 방법
6 6
제1항에 있어서, 상기 문맥 문자 모델을 학습하는 단계는, 상기 타겟 단어의 예측 임베딩(Predicted embedding)과 상기 타겟 단어의 실제 임베딩(Real embedding) 간의 평균 제곱 오차(mean squared error)가 최소가 되도록, 상기 문맥 문자 모델을 학습하는, 단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 방법
7 7
단어 임베딩 장치에 의해 수행되는 단어 임베딩 방법에 있어서, 문장에서 사전에 학습되지 않은 미등록 단어(OOV: Out Of Vocabulary)의 문자(Character)를 기 학습된 문맥 문자 모델의 입력으로 입력하는 단계; 상기 문장에서 미등록 단어의 주변 단어에 대한 주변 문맥 벡터를 조합하여 상기 문맥 문자 모델의 초기 상태로 설정하는 단계; 및 상기 문맥 문자 모델로부터 산출된 순방향 은닉 상태(Forward hidden state) 및 역방향 은닉 상태(Backward hidden state)를 연결하여 미등록 단어의 임베딩을 예측하는 단계를 포함하는, 단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 방법
8 8
제7항에 있어서, 상기 문장에서 문장 부호 및 불용어(stopword)를 제거하는 단계를 더 포함하는, 단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 방법
9 9
제7항에 있어서, 상기 기 학습된 문맥 문자 모델은, 문자 기반의 양방향 장단기 메모리(Character-based Bidirectional Long Short-Term Memory) 구조를 가지는, 단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 방법
10 10
제7항에 있어서, 상기 초기 상태로 설정하는 단계는, 상기 주변 단어에 대한 주변 문맥 벡터의 평균을 계산하여 상기 문맥 문자 모델의 양방향에 대한 초기 상태로 설정하는, 단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 방법
11 11
제7항에 있어서, 상기 미등록 단어의 임베딩을 예측하는 단계는, 상기 연결된 순방향 은닉 상태 및 역방향 은닉 상태를 밀집 레이어(Dense layer)를 거친 차원 축소를 통해 상기 미등록 단어의 임베딩을 예측하는, 단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 방법
12 12
적어도 하나의 프로그램을 저장하는 메모리; 및 상기 메모리와 연결된 프로세서를 포함하고, 상기 프로세서는, 상기 적어도 하나의 프로그램을 실행함으로써, 학습시킬 문장에서 미등록 단어(OOV: Out Of Vocabulary)를 미지의 토큰(unknown token)으로 대체하여 문장을 가공하고, 상기 가공된 문장에서 상기 미등록 단어를 제외한 타겟 단어의 문자(Character)를 학습 대상인 문맥 문자 모델(Context Character Model)의 입력으로 입력하고, 상기 문장에서 타겟 단어의 주변 단어에 대한 주변 문맥 벡터를 조합하여 상기 문맥 문자 모델의 초기 상태로 설정하고, 상기 문맥 문자 모델로부터 산출된 순방향 은닉 상태(Forward hidden state) 및 역방향 은닉 상태(Backward hidden state)를 연결하여 생성된 상기 타겟 단어의 예측 임베딩(Predicted embedding)과 상기 타겟 단어의 실제 임베딩(Real embedding) 간의 오류가 최소가 되도록, 상기 문맥 문자 모델을 학습하는, 단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 장치
13 13
제12항에 있어서, 상기 프로세서는, 상기 학습시킬 문장에서 문장 부호 및 불용어(stopword)를 제거하는, 단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 장치
14 14
제12항에 있어서, 상기 문맥 문자 모델은, 문자 기반의 양방향 장단기 메모리(Character-based Bidirectional Long Short-Term Memory) 구조를 가지는, 단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 장치
15 15
제12항에 있어서, 상기 프로세서는, 상기 주변 단어에 대한 주변 문맥 벡터의 평균을 계산하여 상기 문맥 문자 모델의 양방향에 대한 초기 상태로 설정하는, 단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 장치
16 16
제12항에 있어서, 상기 프로세서는, 상기 연결된 순방향 은닉 상태 및 역방향 은닉 상태를 밀집 레이어(Dense layer)를 거친 차원 축소를 통해 상기 타겟 단어의 예측 임베딩을 생성하는, 단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 장치
17 17
제12항에 있어서, 상기 프로세서는, 상기 타겟 단어의 예측 임베딩(Predicted embedding)과 상기 타겟 단어의 실제 임베딩(Real embedding) 간의 평균 제곱 오차(mean squared error)가 최소가 되도록, 상기 문맥 문자 모델을 학습하는, 단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 장치
18 18
적어도 하나의 프로그램을 저장하는 메모리; 및 상기 메모리와 연결된 프로세서를 포함하고, 상기 프로세서는, 상기 적어도 하나의 프로그램을 실행함으로써, 문장에서 사전에 학습되지 않은 미등록 단어(OOV: Out Of Vocabulary)의 문자(Character)를 기 학습된 문맥 문자 모델의 입력으로 입력하고, 상기 문장에서 미등록 단어의 주변 단어에 대한 주변 문맥 벡터를 조합하여 상기 문맥 문자 모델의 초기 상태로 설정하고, 상기 문맥 문자 모델로부터 산출된 순방향 은닉 상태(Forward hidden state) 및 역방향 은닉 상태(Backward hidden state)를 연결하여 미등록 단어의 임베딩을 예측하는, 단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 장치
19 19
제18항에 있어서, 상기 프로세서는, 상기 문장에서 문장 부호 및 불용어(stopword)를 제거하는, 단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 장치
20 20
제18항에 있어서, 상기 기 학습된 문맥 문자 모델은, 문자 기반의 양방향 장단기 메모리(Character-based Bidirectional Long Short-Term Memory) 구조를 가지는, 단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 장치
21 21
제18항에 있어서, 상기 프로세서는, 상기 주변 단어에 대한 주변 문맥 벡터의 평균을 계산하여 상기 문맥 문자 모델의 양방향에 대한 초기 상태로 설정하는, 단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 장치
22 22
제18항에 있어서, 상기 프로세서는, 상기 연결된 순방향 은닉 상태 및 역방향 은닉 상태를 밀집 레이어(Dense layer)를 거친 차원 축소를 통해 상기 미등록 단어의 임베딩을 예측하는, 단어의 문맥 정보와 형태론적 정보를 고려한 단어 임베딩 장치
지정국 정보가 없습니다
패밀리정보가 없습니다
순번, 연구부처, 주관기관, 연구사업, 연구과제의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 국가R&D 연구정보 정보 표입니다.
순번 연구부처 주관기관 연구사업 연구과제
1 과학기술정보통신부 성균관대학교(자연과학캠퍼스) 차세대정보컴퓨팅기술개발사업 2/4 자가구성 기반 자율 기계학습 프레임워크 기초 원천 기술 개발
2 과학기술정보통신부 성균관대학교 산학협력단 SW중심대학지원사업 4/4 SW중심대학(성균관대)