맞춤기술찾기

이전대상기술

병렬말뭉치를 이용한 대체어 자동 추출 시스템 및 방법

  • 기술번호 : KST2014014499
  • 담당센터 : 서울서부기술혁신센터
  • 전화번호 : 02-6124-6930
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 본 발명은 병렬말뭉치를 이용한 대체어 자동 추출 시스템 및 방법에 관한 것으로, 각 단어별 특징 벡터를 구성하는데 있어 대역어 뭉치를 이용함으로써 자동 추출되는 유사어(대체어)의 품질을 향상시키는 병렬말뭉치를 이용한 대체어 자동 추출 시스템 및 방법에 관한 것이다. 대체어 자동 추출을 위한 문장을 수집하여 저장하는 문장 저장 DB(11)를 포함하는 문장 수집 모듈(10)과; 상기 문장 수집 모듈(10)의 데이터를 정제하고 색인어를 추출하는 전처리 모듈(20)과; 상기 전처리 모듈(20)에서 색인된 단어의 동시 출현 빈도를 계산하여 대역어 뭉치와 연관단어 뭉치를 추출하는 단어 간 상관성 분석 모듈(30)과; 상기 단어 간 상관성 분석 모듈(30)에서 계산된 대역어 뭉치가 저장되는 대역어 뭉치 DB(40)와; 상기 단어 간 상관성 분석 모듈(30)에서 계산된 연관단어 뭉치가 저장되는 연관단어 뭉치 DB(50)와; 상기 대역어 뭉치 DB(40) 및 연관단어 뭉치 DB(50)에서 최종 대체어를 추출하여 저장하는 대체어 DB(60)로 구성된다. 따라서, 본 발명은 단어 간의 대체 관계(유의어, 동의어, 이형어, 대역어 포함)를 병렬말뭉치로부터 자동으로 추출함으로써 수작업에 의한 대체어 사전 구축에 필요한 시간과 노력을 최소화할 수 있고, 수작업시 누락될 수 있는 대체 관계까지 추출 가능한 효과가 있다.
Int. CL G06F 17/27 (2006.01) G06F 17/26 (2006.01)
CPC G06F 17/2795(2013.01) G06F 17/2795(2013.01)
출원번호/일자 1020100065674 (2010.07.08)
출원인 숭실대학교산학협력단
등록번호/일자 10-1137010-0000 (2012.04.09)
공개번호/일자 10-2012-0005103 (2012.01.16) 문서열기
공고번호/일자 (20120419) 문서열기
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 등록
심사진행상태 수리
심판사항
구분 신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2010.07.08)
심사청구항수 9

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 숭실대학교산학협력단 대한민국 서울특별시 동작구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 이수원 대한민국 서울특별시 서초구
2 백종범 대한민국 경기도 용인시 기흥구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 송경근 대한민국 서울특별시 서초구 서초대로**길 ** (방배동) 기산빌딩 *층(엠앤케이홀딩스주식회사)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
1 주식회사 액션파워 서울특별시 서초구
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2010.07.08 수리 (Accepted) 1-1-2010-0440563-18
2 [대리인선임]대리인(대표자)에 관한 신고서
[Appointment of Agent] Report on Agent (Representative)
2011.01.04 수리 (Accepted) 1-1-2011-0004097-73
3 의견제출통지서
Notification of reason for refusal
2011.08.23 발송처리완료 (Completion of Transmission) 9-5-2011-0473530-66
4 [거절이유 등 통지에 따른 의견]의견(답변, 소명)서
[Opinion according to the Notification of Reasons for Refusal] Written Opinion(Written Reply, Written Substantiation)
2011.10.20 수리 (Accepted) 1-1-2011-0822801-85
5 [명세서등 보정]보정서
[Amendment to Description, etc.] Amendment
2011.10.20 보정승인간주 (Regarded as an acceptance of amendment) 1-1-2011-0822819-06
6 등록결정서
Decision to grant
2012.01.09 발송처리완료 (Completion of Transmission) 9-5-2012-0013727-21
7 출원인정보변경(경정)신고서
Notification of change of applicant's information
2016.08.04 수리 (Accepted) 4-1-2016-5110636-51
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
국문 및 영문 문장 쌍으로 이루어진 병렬말뭉치를 수집하는 문장 수집 모듈(10);상기 병렬말뭉치의 상기 국문 및 영문 문장에 동시에 출현한 한글-영어 단어 쌍의 빈도를 이용하여 검색어에 대한 대역어 뭉치를 추출하고, 상기 병렬말뭉치의 상기 국문 문장에 포함된 한글 단어를 이용하여 상기 검색어에 대한 연관단어 뭉치를 추출하는 단어 간 상관성 분석 모듈(30);상기 대역어 뭉치를 기초로 상기 검색어에 대한 대체어 목록을 추출하고, 상기 대역어 뭉치가 저장되는 대역어 뭉치 DB(40);상기 연관단어 뭉치를 기초로 상기 대체어 목록에서 연관단어를 필터링하여 상기 검색어에 대한 최종 대체어를 추출하고, 상기 연관단어 뭉치가 저장되는 연관단어 뭉치 DB(50); 및상기 최종 대체어가 저장되는 대체어 DB(60);를 포함하는 것을 특징으로 하는 병렬말뭉치를 이용한 대체어 자동 추출 시스템
2 2
제 1항에 있어서,상기 수집된 병렬말뭉치에서 불필요한 부분을 제거하고, 상기 제거된 병렬말뭉치에서 국문 및 영문 색인어를 추출하는 전처리 모듈(20)을 더 포함하며,상기 단어 간 상관성 분석 모듈(30)은 상기 국문 및 영문 색인어를 이용하여 상기 대역어 뭉치 및 상기 연관단어 뭉치를 추출하는 것을 특징으로 하는 병렬말뭉치를 이용한 대체어 자동 추출 시스템
3 3
제 1항에 있어서,상기 단어 간 상관성 분석 모듈(30)은,상기 병렬말뭉치의 상기 국문 및 영문 문장에 동시에 출현한 한글-영어 단어 쌍의 빈도를 이용하여 Jaccard 상관계수를 다음의 [수학식 A]에 의해 계산하고, 상기 Jaccard 상관계수 값을 기초로 상기 검색어에 대한 상기 대역어 뭉치를 추출하는 Jaccard 계산 모듈(33); 및상기 병렬말뭉치의 상기 국문 문장에 포함된 한글 단어를 이용하여 PMI(pointwise mutual information)를 다음의 [수학식 B]에 의해 계산하고, 상기 PMI 값을 기초로 상기 검색어에 대한 상기 연관단어 뭉치를 추출하는 PMI 계산 모듈(34);을 포함하는 것을 특징으로 하는 병렬말뭉치를 이용한 대체어 자동 추출 시스템:[수학식 A],상기 [수학식 A]에서, w1은 상기 국문 문장 내에 포함된 한글 단어를 나타내고, w2는 상기 영문 문장 내에 포함된 영어 단어를 나타내며,[수학식 B],상기 [수학식 B]에서, w1 및 w2는 상기 국문 문장에 포함된 한글 단어를 나타낸다
4 4
제 3항에 있어서,상기 대역어 뭉치 DB(40)는 상기 Jaccard 계산 모듈(33)에서 추출된 상기 대역어 뭉치를 단어의 특징벡터로 하여 상기 검색어와 조합 가능한 다른 단어 사이의 코사인 유사도(cosine similarity)를 계산하고, 상기 계산된 코사인 유사도 값을 기초로 상기 검색어에 대한 상기 대체어 목록을 추출하는 것을 특징으로 하는 병렬말뭉치를 이용한 대체어 자동 추출 시스템
5 5
제 3항에 있어서,상기 연관단어 뭉치 DB(50)는 상기 PMI 계산 모듈(34)에서 추출된 상기 연관단어 뭉치를 기초로 상기 검색어와 상기 대체어 목록에 포함된 단어 사이의 PMI 값이 0 또는 음수인 단어를 획득하고, 상기 획득된 단어를 상기 검색어에 대한 상기 최종 대체어로 추출하는 것을 특징으로 하는 병렬말뭉치를 이용한 대체어 자동 추출 시스템
6 6
국문 및 영문 문장 쌍으로 이루어진 병렬말뭉치를 수집하는 단계;상기 병렬말뭉치의 상기 국문 및 영문 문장에 동시에 출현한 한글-영어 단어 쌍의 빈도를 이용하여 검색어에 대한 대역어 뭉치를 추출하는 단계;상기 병렬말뭉치의 상기 국문 문장에 포함된 한글 단어를 이용하여 상기 검색어에 대한 연관단어 뭉치를 추출하는 단계;상기 추출된 대역어 뭉치를 단어의 특징벡터로 하여 상기 검색어와 조합 가능한 다른 단어 사이의 코사인 유사도(cosine similarity)를 산출하고, 상기 산출된 코사인 유사도 값을 기초로 상기 검색어에 대한 대체어 목록을 추출하는 단계; 및상기 연관단어 뭉치를 기초로 상기 대체어 목록에서 연관단어를 필터링하여 상기 검색어에 대한 최종 대체어를 추출하는 단계;를 포함하는 것을 특징으로 하는 병렬말뭉치를 이용한 대체어 자동 추출 방법
7 7
제 6항에 있어서,상기 대역어 뭉치 추출 단계는,상기 병렬말뭉치의 상기 국문 및 영문 문장에 동시에 출현한 한글-영어 단어 쌍의 빈도를 이용하여 Jaccard 상관계수를 다음의 [수학식 A]에 의해 계산하는 단계; 및상기 Jaccard 상관계수 값을 기초로 상기 검색어에 대한 상기 대역어 뭉치를 추출하는 단계;를 포함하는 것을 특징으로 하는 병렬말뭉치를 이용한 대체어 자동 추출 방법:[수학식 A],상기 [수학식 A]에서, w1은 상기 국문 문장 내에 포함된 한글 단어를 나타내고, w2는 상기 영문 문장 내에 포함된 영어 단어를 나타낸다
8 8
제 6항에 있어서,상기 연관단어 뭉치 추출 단계는,상기 병렬말뭉치의 상기 국문 문장에 포함된 한글 단어를 이용하여 PMI(pointwise mutual information)를 다음의 [수학식 B]에 의해 계산하는 단계; 및 상기 PMI 값을 기초로 상기 검색어에 대한 상기 연관단어 뭉치를 추출하는 단계;를 포함하는 것을 특징으로 하는 병렬말뭉치를 이용한 대체어 자동 추출 방법:[수학식 B],상기 [수학식 B]에서, w1 및 w2는 상기 국문 문장에 포함된 한글 단어를 나타낸다
9 9
제 8항에서,상기 최종 대체어 추출 단계는,상기 연관단어 뭉치를 기초로 상기 검색어와 상기 대체어 목록에 포함된 단어 사이의 PMI 값이 0 또는 음수인 단어를 획득하는 단계; 및상기 획득된 단어를 상기 검색어에 대한 상기 최종 대체어로 추출하는 단계;를 포함하는 것을 특징으로 하는 병렬말뭉치를 이용한 대체어 자동 추출 방법
지정국 정보가 없습니다
패밀리정보가 없습니다
국가 R&D 정보가 없습니다.