맞춤기술찾기

이전대상기술

음절 정규화 표현 사전을 이용한 미등록어 분석 방법 및 미등록어를 포함한 문장의 형태소 분석방법

  • 기술번호 : KST2015187215
  • 담당센터 : 대구기술혁신센터
  • 전화번호 : 053-550-1450
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 본 발명은 자연어 처리방법에 관한 것으로서, 특히 한국어 음절 정규화 표현 사전을 이용하여 미등록어를 포함한 입력 문자열을 형태소 분석하는 방법에 관한 것이다.본 발명은 개방어에 속하는 한국어의 음절을 분석하여, 명사, 부사, 동사, 형용사의 음절을 정규화 표현으로 바꾸어 모든 형태소를 이 음절 정규화 표현으로 나타냄으로써 미등록어를 사전에 입력할 수 있게 한다. 특히, 동사, 형용사 불규칙 활용들에 대한 추정에 음절 정규화 표현을 이용함으로써 미등록어로 발생하는 동사, 형용사들의 원형을 정확히 복원할 수 있는 능력이 있으며, 등록 형태소와 같은 수준의 접속정보를 제공할 수 있어 이후 단계의 처리에 별도의 규칙이 없이도 등록어와 같은 처리를 할 수 있게 되어 시스템 구현에서 추정의 정확도를 유지하면서 시스템의 단순함을 달성할 수 있다.
Int. CL G06F 17/27 (2006.01)
CPC G06F 17/2755(2013.01) G06F 17/2755(2013.01)
출원번호/일자 1019990044751 (1999.10.15)
출원인 학교법인 포항공과대학교
등록번호/일자 10-0320348-0000 (2001.12.27)
공개번호/일자 10-2001-0037310 (2001.05.07) 문서열기
공고번호/일자 (20020110) 문서열기
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 소멸
심사진행상태 수리
심판사항
구분
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (1999.10.15)
심사청구항수 10

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 학교법인 포항공과대학교 대한민국 경상북도 포항시 남구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 이근배 대한민국 경상북도포항시남구
2 이원일 대한민국 경상북도포항시남구
3 차정원 대한민국 경상북도포항시남구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 이영필 대한민국 서울 강남구 언주로 **길 **, *층, **층, **층, **층(도곡동, 대림아크로텔)(리앤목특허법인)
2 이상용 대한민국 서울특별시 서초구 서초중앙로 **, *층(서초동, 준영빌딩)(특허법인필앤온지)
3 권석흠 대한민국 서울특별시 강남구 테헤란로 ***, 서림빌딩 **층 (역삼동)(유미특허법인)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
1 학교법인 포항공과대학교 대한민국 경북 포항시 남구
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 특허출원서
Patent Application
1999.10.15 수리 (Accepted) 1-1-1999-0130592-11
2 전자문서첨부서류제출서
Submission of Attachment to Electronic Document
1999.10.16 수리 (Accepted) 1-1-1999-5361900-82
3 출원인정보변경(경정)신고서
Notification of change of applicant's information
2000.01.31 수리 (Accepted) 4-1-2000-0012365-15
4 의견제출통지서
Notification of reason for refusal
2001.05.23 발송처리완료 (Completion of Transmission) 9-5-2001-0128593-83
5 의견서
Written Opinion
2001.07.18 수리 (Accepted) 1-1-2001-0176530-30
6 명세서 등 보정서
Amendment to Description, etc.
2001.07.18 보정승인 (Acceptance of amendment) 1-1-2001-0176531-86
7 등록결정서
Decision to grant
2001.12.07 발송처리완료 (Completion of Transmission) 9-5-2001-0345057-12
8 출원인정보변경(경정)신고서
Notification of change of applicant's information
2019.07.25 수리 (Accepted) 4-1-2019-5149263-30
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1

(a) 복원할 미등록어를 포함하는 문자열을 입력받는 단계;

(b) 한국어의 체언, 용언, 부사에 나타나는 모든 음절들을 음절 정규화 표현으로 나타낸 음절 정규화 표현 사전을 이용하여, 상기 미등록어의 원형를 복원하여 대응하는 접속정보 및 하나 이상의 형태소 후보들을 생성하는 단계;

(c) 상기 하나 이상의 형태소 후보들 중 과생성된 미등록어를 소정의 휴리스틱정보를 사용하여 여과하는 단계; 및

(d) 한국어 접속 테이블을 사용하여 상기 여과된 형태소 후보들 중 접속 가능성이 없는 형태소 후보들을 삭제하여 형태소 접속 그래프를 생성하는 단계를 포함함을 특징으로 하는 음절 정규화 표현사전을 이용한 미등록어 분석방법

2 2

제1항에 있어서, 상기 음절 정규화 표현 사전은

형태소의 품사와 형태소 원형의 음절 정규화 표현을 저장한 원형 필드;

형태소 이형태의 음절 정규화 표현을 저장한 이형태 필드; 및

상기 이형태 필드의 이형태에 대응하는 접속정보를 저장한 접속정보 필드를 포함하여 구성되고,

상기 이형태 필드를 키로 하여 미등록어의 음절 정규화 표현을 액세스하는 것을 특징으로 하는 음절 정규화 표현사전을 이용한 미등록어 분석방법

3 3

제1항에 있어서, 상기 (b) 단계는

(b1) 상기 음절 정규화 표현 사전의 이형태 필드에서 상기 미등록어에 대응하는 음절 정규화 표현을 검색하는 단계;

(b2) 검색된 이형태의 음절 정규화 표현과 원형의 음절 정규화 표현이 같으면, 상기 미등록어 자체를 형태소 후보의 원형으로 결정하고, 대응하는 접속정보를 형태소 후보의 접속정보로 결정하여, 형태소 후보를 생성하는 단계;

(b3) 검색된 이형태의 음절 정규화 표현과 원형의 음절 정규화 표현이 다르면, 상기 미등록어에서 상기 이형태의 음절 정규화 표현과 공통된 부분을 삭제하고, 상기 원형의 음절 정규화 표현에서 음절 정규화 표현 메터심볼을 제외한 부분을 합하여 상기 미등록어의 원형을 복원하고, 대응하는 접속정보를 형태소 후보의 접속정보로 결정하여, 형태소 후보를 생성하는 단계; 및

(b4) 상기 (b1) 단계 내지 상기 (b3) 단계를 반복하여 상기 미등록어에 대한 모든 형태소 후보들을 생성하는 단계를 포함함을 특징으로 하는 음절 정규화 표현사전을 이용한 미등록어 분석방법

4 4

미등록어를 포함한 입력 문자열을 형태소 분석하는 방법에 있어서,

(a) 상기 입력 문자열을 음소 단위로 분할하는 단계;

(b) 음소 단위로 분할된 입력 문자열을 차례로 입력받고, 형태소 사전을 이용하여 등록어의 후보 형태소를 추출하고, 음절 정규화 표현 사전을 이용하여 미등록어의 후보 형태소를 추출하는 단계;

(c) 한국어 접속 테이블을 이용하여, 상기 후보 형태소들 중 접속 가능성이 없는 후보 형태소를 제거하는 단계;

(d) 접속 가능성이 있는 후보 형태소의 어휘확률을 구하는 단계; 및

(e) 상기 (b) 단계 내지 상기 (d) 단계를 상기 입력 문자열의 마지막 음소가 처리될 때까지 반복하는 단계를 포함함을 특징으로 하는 미등록어를 포함한 입력 문자열의 형태소 분석방법

5 5

제4항에 있어서, 상기 (d) 단계에서 미등록어 후보 형태소의 어휘확률 6

음절 정규화 표현 사전 데이터베이스를 이용한 미등록어 분석 프로그램을 기록한 컴퓨터가 읽을 수 있는 기록매체에 있어서,

(a) 한국어의 체언, 용언, 부사에 나타나는 모든 음절들을 음절 정규화 표현으로 나타낸 음절 정규화 표현 사전 데이터베이스를 이용하여, 미등록어의 원형를 복원하고 대응하는 접속정보를 구하여 하나 이상의 형태소 후보들을 생성하는 모듈;

(b) 상기 하나 이상의 형태소 후보들 중 과생성된 미등록어를 소정의 휴리스틱을 사용하여 여과하는 모듈; 및

(c) 한국어 접속 테이블을 사용하여 여과된 형태소 후보들 중 접속 가능성이 없는 형태소 후보들을 삭제하는 모듈을 포함함을 특징으로 하는 음절 정규화 표현사전을 이용한 미등록어 분석 프로그램을 기록한 컴퓨터가 읽을 수 있는 기록매체

7 7

제6항에 있어서, 상기 음절 정규화 표현 사전 데이터베이스는

형태소의 품사와 형태소 원형의 음절 정규화 표현을 저장한 원형 필드;

형태소 이형태의 음절 정규화 표현을 저장한 이형태 필드; 및

상기 이형태 필드의 이형태에 대응하는 접속정보를 저장한 접속정보 필드를 포함하여 구성되고,

상기 이형태 필드를 키로 하여 미등록어의 음절 정규화 표현을 액세스하는 것을 특징으로 하는 음절 정규화 표현사전을 이용한 미등록어 분석 프로그램을 기록한 컴퓨터가 읽을 수 있는 기록매체

8 8

제6항에 있어서, 상기 (a) 모듈은

(a1) 상기 음절 정규화 표현 사전의 이형태 필드에서 상기 미등록어에 대응하는 음절 정규화 표현을 검색하는 모듈;

(a2) 검색된 이형태의 음절 정규화 표현과 원형의 음절 정규화 표현이 같으면, 상기 미등록어 자체를 형태소 후보의 원형으로 결정하고, 대응하는 접속정보를 형태소 후보의 접속정보로 결정하여, 형태소 후보를 생성하는 모듈;

(a3) 검색된 이형태의 음절 정규화 표현과 원형의 음절 정규화 표현이 다르면, 상기 미등록어에서 상기 이형태의 음절 정규화 표현과 공통된 부분을 삭제하고, 상기 원형의 음절 정규화 표현에서 음절 정규화 표현 메터심볼을 제외한 부분을 합하여 상기 미등록어의 원형을 복원하고, 대응하는 접속정보를 형태소 후보의 접속정보로 결정하여, 형태소 후보를 생성하는 모듈; 및

(a4) 상기 (a1) 모듈 내지 상기 (a3) 모듈을 반복하여 상기 미등록어에 대한 모든 형태소 후보들을 생성하는 모듈을 음절 정규화 표현사전을 이용한 미등록어 분석 프로그램을 기록한 컴퓨터가 읽을 수 있는 기록매체

9 9

미등록어를 포함한 입력 문자열을 형태소 분석하는 프로그램을 기록한 컴퓨터가 읽을 수 있는 기록매체에 있어서,

(a) 상기 입력 문자열을 음소 단위로 분할하는 모듈;

(b) 음소 단위로 분할된 입력 문자열을 차례로 입력받고, 형태소 사전을 이용하여 등록어의 후보 형태소를 추출하고, 음절 정규화 표현 사전을 이용하여 미등록어의 후보 형태소를 추출하는 모듈;

(c) 한국어 접속 테이블을 이용하여, 상기 후보 형태소들 중 접속 가능성이 없는 후보 형태소를 제거하는 모듈;

(d) 접속 가능성이 있는 후보 형태소의 어휘확률을 구하는 모듈; 및

(e) 상기 (b) 모듈 내지 상기 (d) 모듈을 상기 입력 문자열의 마지막 음소가 처리될 때까지 반복하는 모듈을 포함함을 특징으로 하는 형태소 분석 프로그램을 기록한 컴퓨터가 읽을 수 있는 기록매체

10 10

제9항에 있어서, 상기 (d) 모듈에서 미등록어 후보 형태소의 어휘확률
지정국 정보가 없습니다

패밀리정보가 없습니다
국가 R&D 정보가 없습니다.