맞춤기술찾기

이전대상기술

음절단위 조건확률을 이용한 한국어 자동 띄어쓰기 방법

  • 기술번호 : KST2015077226
  • 담당센터 : 대전기술혁신센터
  • 전화번호 : 042-610-2279
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 본 발명은, 음절단위 조건확률을 이용한 한국어 자동 띄어쓰기 방법과, 이를 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것으로, 어휘 지식 또는 발견적 교수법(heuristic)을 사용하지 않고 통계적인 방법을 사용하여 띄어쓰기가 일부 되어있는 문장 또는 띄어쓰기가 전혀 되어있지 않은 문장에 대해서 띄어쓰기를 처리할 수 있는 음절단위 조건확률을 이용한 한국어 자동 띄어쓰기 방법과, 이를 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하며, 표준 문장 코퍼스로부터 통계처리를 통하여 음절간 천이 확률을 설정하는 제 1 단계; 상기 설정된 확률에 의거하여 띄어쓰기 처리 대상 문장에 포함된 음절열에 대하여 첫 번째 음절부터 시작하여, 각 음절사이에 띄어쓰기를 하는 경우와 안하는 경우를 나누어 모든 경우의 조합에 의하여 누적 로그 확률을 순차적으로 계산하는 제 2 단계; 및 상기 제 2 단계의 계산된 결과에 의하여, 최대 누적 로그 확률에 해당하는 경로를 선택하여 백 포인터를 이용하여 입력된 음절의 띄어쓰기 최적패턴을 탐색하여 출력 스트링을 획득하는 제 3 단계를 수행한다.최적패턴, 상태 천이, 백 포인트, 최대 누적 로그 확률, 음절
Int. CL G06F 17/26 (2006.01)
CPC G06F 17/2294(2013.01) G06F 17/2294(2013.01)
출원번호/일자 1019990061893 (1999.12.24)
출원인 한국전자통신연구원
등록번호/일자 10-0327109-0000 (2002.02.21)
공개번호/일자 10-2001-0063799 (2001.07.09) 문서열기
공고번호/일자 (20020307) 문서열기
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 소멸
심사진행상태 수리
심판사항
구분
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (1999.12.24)
심사청구항수 8

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 한국전자통신연구원 대한민국 대전광역시 유성구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 권오욱 대한민국 대전광역시유성구
2 박준 대한민국 대전광역시유성구
3 황규웅 대한민국 대전광역시서구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 정지원 대한민국 서울특별시 서초구 반포대로**길**, ***호(서초동,서초빌리지프라자)(특허법인이노(제*분사무소))
2 최종식 대한민국 서울특별시 송파구 중대로 ***, ID타워 ***호 (가락동)(신성특허법인(유한))
3 신성특허법인(유한) 대한민국 서울특별시 송파구 중대로 ***, ID타워 ***호 (가락동)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
1 한국전자통신연구원 대전광역시 유성구
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 특허출원서
Patent Application
1999.12.24 수리 (Accepted) 1-1-1999-0180868-23
2 출원인정보변경(경정)신고서
Notification of change of applicant's information
2001.04.19 수리 (Accepted) 4-1-2001-0046046-20
3 의견제출통지서
Notification of reason for refusal
2001.07.19 발송처리완료 (Completion of Transmission) 9-5-2001-0190795-97
4 의견서
Written Opinion
2001.09.19 수리 (Accepted) 1-1-2001-0240511-19
5 명세서 등 보정서
Amendment to Description, etc.
2001.09.19 보정승인 (Acceptance of amendment) 1-1-2001-0240510-63
6 등록결정서
Decision to grant
2002.02.05 발송처리완료 (Completion of Transmission) 9-5-2002-0039895-35
7 출원인정보변경(경정)신고서
Notification of change of applicant's information
2002.08.08 수리 (Accepted) 4-1-2002-0065009-76
8 출원인정보변경(경정)신고서
Notification of change of applicant's information
2009.08.04 수리 (Accepted) 4-1-2009-5150899-36
9 출원인정보변경(경정)신고서
Notification of change of applicant's information
2015.02.02 수리 (Accepted) 4-1-2015-0006137-44
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1

한국어 자동 띄어쓰기 방법에 있어서,

표준 문장 코퍼스로부터 통계처리를 통하여 음절간 천이 확률을 설정하는 제 1 단계;

상기 설정된 확률에 의거하여 띄어쓰기 처리 대상 문장에 포함된 음절열에 대하여 첫 번째 음절부터 시작하여, 각 음절사이에 띄어쓰기를 하는 경우와 안하는 경우를 나누어 모든 경우의 조합에 의하여 누적 로그 확률을 순차적으로 계산하는 제 2 단계; 및

상기 제 2 단계의 계산된 결과에 의하여, 최대 누적 로그 확률에 해당하는 경로를 선택하여 백 포인터를 이용하여 입력된 음절의 띄어쓰기 최적패턴을 탐색하여 출력 스트링을 획득하는 제 3 단계

를 포함하는 음절단위 조건확률을 이용한 한국어 자동 띄어쓰기 방법

2 2

제 1항에 있어서,

상기 제 1 단계는,

같은 상태로 천이할 때는 공백이 발생하고, 다른 상태로 천이할 때에는 음절이 발생한다고 가정하는 제 4 단계;

시간이 0이고 상태가 0인 노드의 누적 로그 확률을 0으로 설정하고, 시간이 0 또는 상태가 0인 노드의 누적 로그 확률은 -∞로 설정하는 제 5 단계;

백 트랙킹을 위해 사용되는 백 포인터를 -1로 설정하는 제 6 단계; 및

최대 누적 확률은 0으로 설정하는 제 7단계

를 포함하는 음절단위 조건확률을 이용한 한국어 자동 띄어쓰기 방법

3 3

제 2 항에 있어서,

상기 백 포인터는,

현재 가설이 이전 어느 가설에서 추출되었는지를 알아내기 위해 사용되며, 이전 가설의 시간, 상태, 포인터를 저장하는 것을 특징으로 하는 음절단위 조건확률을 이용한 한국어 자동 띄어쓰기 방법

4 4

제 1항 또는 제 2항에 있어서,

상기 제 2 단계는,

제 1 시간(t)이고, 제 1 상태(s)인 노드(t,s)로의 천이가 가능한 제 2 상태(t-1)에서의 노드들에 저장된 모든 가설을 추출하는 제 8 단계;

제 2 상태(s-1)에서 추출된 가설에 음절A[s]를 추가하고, 백 포인터에는 상기 제 2 상태(s-1)를 저장하는 제 9 단계;

상기 제 8 단계에서 추출된 가설들에 대하여 새롭게 추가된 음절의 조건 로그 확률을 누적 로그 확률에 추가하고, 띄어쓰기 성능 향상을 위해 단어 길이에 따른 로그 확률을 누적 로그확률에 추가하는 제 10 단계;

상기 제 10 단계 수행후, 추출된 가장 나중의 n-1개 음절이 동일한 가설들 중 누적 로그확률이 높은 가설만 남긴 후 나머지는 제거하는 제 11 단계; 및

상기 제 8 단계에서 추출된 각 가설중 최대 누적 로그 확률과 누적 로그 확률의 차이가 미리 주어진 빔 크기보다 큰 가설을 제거하고, 제 1 시간(t)에서의 모든 가설 중에서 최대 누적 로그확률을 계산하는 제 12 단계

를 포함하는 음절단위 조건확률을 이용한 한국어 자동 띄어쓰기 방법

5 5

제 4 항에 있어서,

상태 s에서 추출된 가설들에는 공백을 추가한 후, 백 포인터에는 상기 제 1 상태(s)를 저장하고, 제 3 상태(s-2)에서 추출된 가설들에는 음절A[s]가 공백인 경우만으로 제한되며, 만일 두개의 공백문자가 연속으로 발생하는 가설을 제거하는 제 13단계

를 더 포함하는 음절단위 조건확률을 이용한 한국어 자동 띄어쓰기 방법

6 6

제 4항에 있어서,

상기 제 12 단계는,

상기 최대 누적 로그확률은 제 3 시간(t+1)에서 누적 로그확률이 낮은 가설들을 제거하는데 사용되는 것을 특징으로 하는 음절단위 조건확률을 이용한 한국어 자동 띄어쓰기 방법

7 7

제 4 항에 있어서,

상기 제 3 단계는,

상태가 S의 음절로 구성된 입력문장의 마지막 음절이 입력된 상태에서 띄어쓰기가 전혀 없는 경우에 해당하는 가장 빨리 도달할 수 있는 소정시간(S)과 매 음절간에 띄어쓰기가 되는 경우의 마지막 음절이 입력된 상태의 시간(T) 사이에 있는 노드에 저장된 가설들 중 정규 누적 로그 확률이 최대인 제 1 가설(h) 및 그 때의 시간(t)을 계산하는 제 14 단계;

상기 제 1 가설(h)로부터 백 포인터를 이용하여 상기 제 1 가설의 이전 가설인 제 2 가설(h')을 탐색하는 제 15 단계;

상기 제 2 가설(h')에서 제 1 가설(h)로의 상태변화 결과에 따라 입력음절 또는 공백을 출력 스트링의 앞에 삽입하는 제 16 단계; 및

상기 정규 누적 로그 확률이 최대인 제 1 가설(h)의 시간(t)을 상기 제 2 가설(h')가 속한 노드의 시간으로 설정하는 제 17 단계

를 포함하는 음절단위 조건확률을 이용한 한국어 자동 띄어쓰기 방법

8 8

마이크로 프로세서를 구비한, 음절단위 조건확률을 이용한 한국어 자동 띄어쓰기 시스템에,

표준 문장 코퍼스로부터 통계처리를 통하여 음절간 천이 확률을 설정하는 제 1 기능;

상기 설정된 확률에 의거하여 띄어쓰기 처리 대상 문장에 포함된 음절열에 대하여 첫 번째 음절부터 시작하여, 각 음절사이에 띄어쓰기를 하는 경우와 안하는 경우를 나누어 모든 경우의 조합에 의하여 누적 로그 확률을 순차적으로 계산하는 제 2 기능; 및

상기 제 2 기능의 계산된 결과에 의하여, 최대 누적 로그 확률에 해당하는 경로를 선택하여 백 포인터를 이용하여 입력된 음절의 띄어쓰기 최적패턴을 탐색하여 출력 스트링을 획득하는 제 3 기능

을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체

지정국 정보가 없습니다
패밀리정보가 없습니다
국가 R&D 정보가 없습니다.