맞춤기술찾기

이전대상기술

형태적 중의성 동사 분석 장치, 방법 및 그 기록 매체 (Apparatus and Method for disambiguation of morphologically ambiguous Korean verbs, and Recording medium thereof)

  • 기술번호 : KST2014034328
  • 담당센터 : 서울서부기술혁신센터
  • 전화번호 : 02-6124-6930
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 형태적 중의성이 존재하는 동사 분석 장치, 방법 및 그 기록 매체가 개시된다. 본 발명의 일 실시 예에 따른 형태적 중의성이 있는 동사 분석 장치는 레이블이 부착되지 않은 가공되지 않은 말뭉치에서 기본형이 파악된 중의성이 없는 제1동사활용과 상기 제1동사활용에 관련된 문맥 특징을 포함하는 학습 데이터를 수집하는 기본 데이터 수집부; 및 상기 학습 데이터에 기반하여 기본형과 문맥 사이의 분류자를 학습하는 훈련 수행부; 및 상기 말뭉치에서 기본형이 중의적인 제2동사활용 주변의 문맥 특징을 추출하고, 상기 학습된 분류자에 기반하여 기본형을 파악하는 동사 분석부; 기존 학습 데이터로 유도된 분류자로는 판단하기 어려운 예제를 파악하는 어려운 사례 판단부; 어려운 사례에 대한 기본형 판단을 위한 웹카운트를 수집하는 통신부; 어려운 사례를 추가하고 재학습하는 추가 훈련부를 포함한다. 본 발명의 실시 예들에 의하면, 말뭉치의 인위적인 분류 작업을 필요로 하지 않으면서도 텍스트 분석의 정확도 및 효율을 향상시킬 수 있고, 데이터베이스 구축을 포함한 텍스트 분석의 전 과정을 자동화할 수 있다.
Int. CL G06F 17/21 (2006.01) G06F 17/40 (2006.01)
CPC G06F 17/2755(2013.01) G06F 17/2755(2013.01)
출원번호/일자 1020100086449 (2010.09.03)
출원인 서강대학교산학협력단
등록번호/일자 10-1126186-0000 (2012.03.06)
공개번호/일자 10-2012-0023387 (2012.03.13) 문서열기
공고번호/일자 (20120322) 문서열기
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 소멸
심사진행상태 수리
심판사항
구분 신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2010.09.03)
심사청구항수 14

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 서강대학교산학협력단 대한민국 서울특별시 마포구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 김선호 대한민국 서울특별시 양천구
2 윤준태 대한민국 서울특별시 양천구
3 박석 대한민국 서울특별시 종로구
4 서정연 대한민국 서울특별시 서초구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 특허법인충현 대한민국 서울특별시 서초구 동산로 **, *층(양재동, 베델회관)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
1 서강대학교산학협력단 서울특별시 마포구
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2010.09.03 수리 (Accepted) 1-1-2010-0573960-16
2 의견제출통지서
Notification of reason for refusal
2011.10.12 발송처리완료 (Completion of Transmission) 9-5-2011-0586571-44
3 [지정기간연장]기간연장(단축, 경과구제)신청서
[Designated Period Extension] Application of Period Extension(Reduction, Progress relief)
2011.12.12 수리 (Accepted) 1-1-2011-0985078-03
4 [명세서등 보정]보정서
[Amendment to Description, etc.] Amendment
2012.01.12 보정승인간주 (Regarded as an acceptance of amendment) 1-1-2012-0032312-31
5 [거절이유 등 통지에 따른 의견]의견(답변, 소명)서
[Opinion according to the Notification of Reasons for Refusal] Written Opinion(Written Reply, Written Substantiation)
2012.01.12 수리 (Accepted) 1-1-2012-0032310-40
6 등록결정서
Decision to grant
2012.02.13 발송처리완료 (Completion of Transmission) 9-5-2012-0083472-58
7 출원인정보변경(경정)신고서
Notification of change of applicant's information
2017.01.11 수리 (Accepted) 4-1-2017-5005781-67
8 출원인정보변경(경정)신고서
Notification of change of applicant's information
2019.01.22 수리 (Accepted) 4-1-2019-5014626-89
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
레이블이 부착되지 않은 가공되지 않은 말뭉치에서 기본형이 파악된 중의성이 없는 제1동사활용과 상기 제1동사활용에 관련된 문맥 특징을 포함하는 학습 데이터를 수집하는 기본 데이터 수집부; 및상기 말뭉치에서 기본형이 중의적인 제2동사활용과 가장 근접하게 위치하는 2개의 앞 어절들의 문맥 특징을 추출하고, 상기 추출한 문맥 특징과 상기 학습 데이터의 문맥 특징에 기반하여 상기 제2동사활용의 기본형을 상기 제1동사활용의 기본형과 매칭시키기 위한 분류자를 학습하는 훈련 수행부를 포함하는, 형태적 중의성 동사 분석 장치
2 2
제 1 항에 있어서,임의의 텍스트가 입력되면, 텍스트에서 각각의 동사의 앞에 존재하는 문맥 특징을 추출하고 상기 분류자를 이용하여 상기 각각의 동사의 기본형을 판단하는 동사 분석부를 더 포함하는 것을 특징으로 하는, 형태적 중의성 동사 분석 장치
3 3
제 1 항에 있어서,상기 훈련 수행부는형태적 중의성이 존재하는 어절에서, 각각의 기본형과 연관되는 문맥 정보의 조건부 문맥 확률을 기준으로 상기 제2동사활용의 기본형을 판단하는 것을 특징으로 하는, 형태적 중의성 동사 분석 장치
4 4
제 1 항에 있어서,상기 훈련 수행부에서 중의성 있는 동사의 기본형 예측 시 첫 번째로 높은 확률값으로 예측되는 제1기본형과 두 번째로 높은 확률값으로 예측되는 제2기본형에 대해, 상기 확률값의 차를 이용하여 분류의 확신도를 평가하고, 실험 데이터와 현재까지 수집된 학습 데이터 사이의 유사도를 계산한 후, 상기 확신도와 상기 유사도에 기반하여 학습 데이터를 추가할 지 여부를 결정하는 어려운 사례 판단부를 더 포함하는 것을 특징으로 하는, 형태적 중의성 동사 분석 장치
5 5
제 4 항에 있어서,상기 어려운 사례 판단부가 학습데이터를 추가할 것을 결정한 어려운 사례의 기본형 파악을 위해, 상기 어려운 사례와 가장 근접하게 위치하는 2개의 앞 어절들의 문맥 특징을 이용한 질의구를 검색 엔진에 전달한 후, 상기 검색 엔진으로부터 웹 카운트를 반환받는 통신부; 및상기 웹 카운트를 이용하여 상기 어려운 사례의 기본형을 추출하고 학습 데이터로 추가하는 방식으로 상기 분류자를 학습하는 추가 훈련 수행부를 더 포함하는 것을 특징으로 하는, 형태적 중의성 동사 분석 장치
6 6
레이블이 부착되지 않은 가공되지 않은 말뭉치에서 기본형을 파악할 수 있는 중의성이 없는 제1동사활용의 예제로부터 상기 기본형과 관련된 문맥 특징을 학습 데이터로 수집하는 단계;상기 말뭉치에서 기본형이 중의적인 제2동사활용의 문맥 특징을 추출하고, 상기 추출한 문맥 특징과 상기 학습 데이터의 문맥 특징에 기반하여 상기 제1동사활용의 기본형과 매칭시킴으로써 상기 제2동사활용의 기본형을 판단하는 단계; 및상기 기본형을 판단하는 과정에서 사용된 문맥 특징을 상기 제2동사활용의 기본형 추출을 위한 학습 데이터로서 추가하는 단계를 포함하는, 형태적 중의성 동사 분석 방법
7 7
제 6 항에 있어서,임의의 텍스트가 입력되면, 텍스트에서 기본형을 구하고자 하는 동사 활용의 앞에 등장하는 어절과 기본형과의 확률을 이용하여 상기 동사 활용의 기본형을 판단하는 단계를 더 포함하는 것을 특징으로 하는, 형태적 중의성 동사 분석 방법
8 8
제 7 항에 있어서,상기 동사 활용의 기본형을 판단하는 단계는상기 동사 활용 앞의 문맥들의 조사와 내용어들을 추출하여 기본형을 판단하는 단계를 포함하는 것을 특징으로 하는, 형태적 중의성 동사 분석 방법
9 9
제 8 항에 있어서,상기 동사 활용의 기본형을 판단하는 단계는상기 동사 활용의 앞에 가장 근접하게 위치하는 2개의 어절들을 기준으로 상기 동사 활용의 기본형을 판단하는 단계인 것을 특징으로 하는, 형태적 중의성 동사 분석 방법
10 10
제 6 항에 있어서,상기 제2동사활용의 기본형을 판단하는 단계는상기 동사 활용의 가능한 기본형들과 문맥 정보 사이의 조건부 문맥 확률을 이용한 나이브 베이지언 분류자를 이용하여 상기 제2동사활용의 기본형을 판단하는 단계인 것을 특징으로 하는, 형태적 중의성 동사 분석 방법
11 11
제 6 항에 있어서,상기 제2동사활용에 대해 첫 번째로 높은 확률값으로 예측되는 제1기본형과 두 번째로 높은 확률값으로 예측되는 제2기본형을 파악하고, 상기 첫 번째로 높은 확률값과 상기 두 번째로 높은 확률값의 차에 기반하여 상기 제2동사활용을 위한 학습 데이터의 추가 여부를 결정하는 단계를 더 포함하는 것을 특징으로 하는, 형태적 중의성 동사 분석 방법
12 12
제 6 항에 있어서,상기 제2동사활용의 기본형 파악을 위해 추가되는 학습 데이터와 현재까지 수집된 학습 데이터 사이의 유사도를 계산하고, 상기 유사도에 기반하여 상기 제2동사활용을 위한 학습 데이터의 추가 여부를 결정하는 단계를 더 포함하는 것을 특징으로 하는, 형태적 중의성 동사 분석 방법
13 13
제 12 항에 있어서,상기 학습 데이터의 추가 여부를 결정하는 단계에서 학습데이터를 추가할 것을 결정한 어려운 사례의 기본형 파악을 위해, 상기 어려운 사례와 가장 근접하게 위치하는 2개의 앞 어절들의 문맥 특징을 이용한 질의 구를 검색 엔진에 전달하는 단계; 및상기 검색 엔진으로부터 반환되는 웹 카운트를 이용하여 상기 어려운 사례의 기본형을 추출하고 학습 데이터로 추가하는 단계를 더 포함하는 것을 특징으로 하는, 형태적 중의성 동사 분석 방법
14 14
제 6 항 내지 제 13 항 중 어느 한 항의 방법을 수행하기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체
지정국 정보가 없습니다
패밀리정보가 없습니다
순번, 연구부처, 주관기관, 연구사업, 연구과제의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 국가R&D 연구정보 정보 표입니다.
순번 연구부처 주관기관 연구사업 연구과제
1 교육과학기술부 서강대학교 산학협력단 2단계 두뇌 한국(BK) 21 사업 PERVASIVE 컴퓨팅 기반의 의료시스템을 위한 S/W 인력 양성팀
2 교육과학기술부 서강대학교 산학협력단 기초 연구 지원 사업 여성 과학자 부문 자연어 처리를 이용한 바이오 텍스트 마이닝