맞춤기술찾기

이전대상기술

어절 엔-그램을 이용한 띄어쓰기와 철자 교정장치 및 방법

  • 기술번호 : KST2015094780
  • 담당센터 : 대전기술혁신센터
  • 전화번호 : 042-610-2279
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 본 발명은 어절 엔-그램(n-gram)을 이용한 띄어쓰기와 철자 교정장치 및 방법에 관한 것으로, 어절 n-gram을 저장하는 어절 n-gram DB; 정제되어 오류가 없는 언어 자료를 입력받아 어절 n-gram을 추출하고, 추출된 어절 n-gram을 어절 n-gram DB에 저장하는 어절 n-gram 구축부; 검증해야 할 대상 언어 자료를 제공받아 언어 자료에 포함된 각 어절을 하나의 심볼로 매핑 처리한 구조로 변경하며, 변경된 어절에 대하여 어절 n-gram DB를 검색하여 동일한 어절이 존재하는지를 검색하는 어절 n-gram 검색 및 검증부; 어절 n-gram 검색 및 검증부에 의해 검증이 되지 않은 어절에 대하여 띄어쓰기와 붙여쓰기 오류 및 오타를 수정하는 띄어쓰기 및 붙여쓰기 오류/오타 수정부; 띄어쓰기 및 붙여쓰기 오류/오타 수정부에 의해 수정된 어절에 대하여 형태소 태깅을 수행하여 확률값이 제일 높은 값을 선택하여 적용하는 통계 기반 품사 태깅 시스템; 대상 언어 자료에 대하여 띄어쓰기 및 붙여쓰기 오류/오타 수정부 및 통계 기반 품사 태깅 시스템에 의해 처리되는 과정을 거치면서 수정이 완료된 대상 언어 자료를 출력하는 수정 문장 출력부를 구비한다. 따라서, 입력된 대상 언어 자료에 대하여 띄어쓰기 오류와 철자 오류를 자동으로 정정할 수 있는 효과가 있다.
Int. CL G06F 17/27 (2006.01)
CPC G06F 17/273(2013.01) G06F 17/273(2013.01)
출원번호/일자 1020030023563 (2003.04.15)
출원인 한국전자통신연구원
등록번호/일자 10-0509917-0000 (2005.08.17)
공개번호/일자 10-2004-0089774 (2004.10.22) 문서열기
공고번호/일자 (20050825) 문서열기
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 소멸
심사진행상태 수리
심판사항
구분
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2003.04.15)
심사청구항수 11

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 한국전자통신연구원 대한민국 대전광역시 유성구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 김정세 대한민국 대전광역시유성구
2 김상훈 대한민국 대전광역시유성구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 장성구 대한민국 서울특별시 서초구 마방로 ** (양재동, 동원F&B빌딩)(제일특허법인(유))
2 김원준 대한민국 서울특별시 서초구 마방로 ** (양재동, 동원F&B빌딩)(제일특허법인(유))

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
1 한국전자통신연구원 대한민국 대전 유성구
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 특허출원서
Patent Application
2003.04.15 수리 (Accepted) 1-1-2003-0132017-89
2 선행기술조사의뢰서
Request for Prior Art Search
2004.12.15 수리 (Accepted) 9-1-9999-9999999-89
3 선행기술조사보고서
Report of Prior Art Search
2005.01.18 수리 (Accepted) 9-1-2005-0002784-31
4 의견제출통지서
Notification of reason for refusal
2005.02.22 발송처리완료 (Completion of Transmission) 9-5-2005-0076761-42
5 의견서
Written Opinion
2005.04.22 수리 (Accepted) 1-1-2005-0209790-06
6 등록결정서
Decision to grant
2005.08.05 발송처리완료 (Completion of Transmission) 9-5-2005-0382348-43
7 출원인정보변경(경정)신고서
Notification of change of applicant's information
2009.08.04 수리 (Accepted) 4-1-2009-5150899-36
8 출원인정보변경(경정)신고서
Notification of change of applicant's information
2015.02.02 수리 (Accepted) 4-1-2015-0006137-44
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
어절 엔-그램(n-gram)을 이용한 띄어쓰기와 철자 교정장치에 있어서, 어절 n-gram을 저장하는 어절 n-gram DB; 정제되어 오류가 없는 언어 자료를 입력받아 어절 n-gram을 추출하고, 상기 추출된 어절 n-gram을 상기 어절 n-gram DB에 저장하는 어절 n-gram 구축부; 검증해야 할 대상 언어 자료를 제공받아 상기 언어 자료에 포함된 각 어절을 하나의 심볼로 매핑 처리한 구조로 변경하며, 상기 변경된 어절에 대하여 상기 어절 n-gram DB를 검색하여 동일한 어절이 존재하는지를 검색하는 어절 n-gram 검색 및 검증부; 상기 어절 n-gram 검색 및 검증부에 의해 검증이 되지 않은 어절에 대하여 띄어쓰기와 붙여쓰기 오류 및 오타를 수정하는 띄어쓰기 및 붙여쓰기 오류/오타 수정부; 상기 띄어쓰기 및 붙여쓰기 오류/오타 수정부에 의해 수정된 어절에 대하여 형태소 태깅을 수행하여 확률값이 제일 높은 값을 선택하여 적용하는 통계 기반 품사 태깅 시스템; 상기 대상 언어 자료에 대하여 띄어쓰기 및 붙여쓰기 오류/오타 수정부 및 상기 통계 기반 품사 태깅 시스템에 의해 처리되는 과정을 거치면서 수정이 완료된 대상 언어 자료를 출력하는 수정 문장 출력부; 를 포함하는 것을 특징으로 하는 어절 엔-그램을 이용한 띄어쓰기와 철자 교정장치
2 2
제 1 항에 있어서, 상기 어절 n-gram 검색 및 검증부에 의해 검증이 되지 않은 어절을 띄어쓰기 붙여쓰기 정의규칙에 따라 수정하는 규칙에 의한 수정기를 더 포함하는 것을 특징으로 하는 어절 엔-그램을 이용한 띄어쓰기와 철자 교정장치
3 3
제 1 항에 있어서, 상기 어절 n-gram 검색 및 검증부에 의해 검증이 되지 않은 어절에 대하여 상기 어절을 앞뒤 어절과 함께 붙이거나, 상기 어절을 잘라서 다수의 어절 리스트를 만들고, 상기 다수의 어절 리스트에 포함된 어절들이 상기 어절 n-gram DB에 존재하는지는 확인하여 후보 어절 리스트를 생성하는 어절 n-gram에 의한 수정기를 더 포함하는 것을 특징으로 하는 어절 엔-그램을 이용한 띄어쓰기와 철자 교정장치
4 4
제 2 항 또는 제 3 항에 있어서, 상기 규칙에 의한 수정기 및 어절 n-gram에 의한 수정기를 거치면서 아직 검증이 되지 않은 어절 리스트들에 포함된 어절들에 대해서 상기 어절 각각을 음절별로 나눈 후, 다시 여러 어절을 조합하여 상기 통계 기반 품사 태깅 시스템에 제공하여 형태소 태깅을 하여 확률값이 제일 높은 어절 조합을 선택하는 태거에 의한 수정기를 더 포함하는 것을 특징으로 하는 어절 엔-그램을 이용한 띄어쓰기와 철자 교정장치
5 5
제 1 항에 있어서, 상기 띄어쓰기 및 붙여쓰기 오류 수정에 의해서도 검증이 되지 않은 어절 리스트들에 포함된 어절들에 대해서 상기 어절 n-gram DB에서 1-gram만 활용하여 앞부분 몇 개 음소가 같거나, 뒷부분 몇 개의 음소가 같은 어절들을 포함하는 리스트를 작성하며, 상기 리스트중에서 음절의 수가 같은 어절을 우선으로 하며, 음절수가 동일하지 않을 경우, 상기 음절수와 제일 가까운 어절을 선택하여 어절 리스트를 만드는 알고리듬에 의한 수정기를 더 포함하는 것을 특징으로 하는 어절 엔-그램을 이용한 띄어쓰기와 철자 교정장치
6 6
어절 엔-그램을 이용한 띄어쓰기와 철자 교정방법에 있어서, 정제되어 오류가 없는 언어 자료를 입력받아 어절 n-gram을 추출하여 어절 n-gram DB에 저장하는 단계; 검증해야 할 대상 언어 자료를 제공받아 상기 언어 자료에 포함된 각 어절을 하나의 심볼로 매핑 처리한 구조로 변경하며, 상기 변경된 어절에 대하여 상기 어절 n-gram DB를 검색하여 동일한 어절이 존재하는지를 검색하는 단계; 상기 검색 단계에서 동일한 어절이 존재하지 않을 경우, 상기 동일하지 않은 어절에 대하여 띄어쓰기와 붙여쓰기 오류 및 오타를 수정한 결과에 대하여 형태소 태깅을 수행하여 확률값이 제일 높은 값을 선택하여 적용하는 띄어쓰기 및 붙여쓰기 오류 수정 단계; 상기 검증해야 할 대상 언어 자료에 대하여 수정이 완료된 대상 언어 자료를 출력하는 단계; 를 포함하는 것을 특징으로 하는 어절 엔-그램을 이용한 띄어쓰기와 철자 교정방법
7 7
제 6 항에 있어서, 상기 검색 단계에서 동일한 어절이 존재할 경우, 상기 입력된 대상 언어 자료를 출력하는 단계를 더 포함하는 것을 특징으로 하는 어절 엔-그램을 이용한 띄어쓰기와 철자 교정방법
8 8
제 6 항에 있어서, 상기 띄어쓰기 및 붙여쓰기 오류 수정 단계에 의해서도 검증이 되지 않은 어절 리스트들에 대해서 오타 수정 규칙을 이용하여 오타를 수정하는 오타 수정 단계를 더 포함하는 것을 특징으로 하는 어절 엔-그램을 이용한 띄어쓰기와 철자 교정방법
9 9
제 8 항에 있어서, 상기 오타 수정 단계는 검증되지 않은 어절 리스트들이 발생될 경우, 상기 발생된 어절 리스트를 수정하기 위해 어절 n-gram DB에서 1-gram만 활용하여 앞부분 몇 개 음소가 같거나, 뒷부분 몇 개의 음소가 동일한 어절들을 포함하는 리스트를 작성하며, 상기 작성된 리스트중에서 음절의 수가 같은 어절을 우선으로 하며, 음절수가 동일하지 않을 경우, 상기 음절수와 제일 가까운 어절을 선택하여 어절 리스트를 만드는 것을 특징으로 하는 어절 엔-그램을 이용한 띄어쓰기와 철자 교정방법
10 10
제 9 항에 있어서, 상기 만들어진 리스트중에서 음절수가 같거나 음절수가 가까운 어절에 대해서 음소의 수가 제일 가까운 리스트를 선택하는 것을 특징으로 하는 어절 엔-그램을 이용한 띄어쓰기와 철자 교정방법
11 11
제 10 항에 있어서, 상기 선택된 리스트가 다수 개 존재할 경우, 앞뒤 한 어절씩을 연결하여 어절 n-gram 검색기에서 어절 3-gram이나 2-gram에서 제일 좋은 값을 선택하며, 상기 어절 3-gram이나 2-gram에 없거나 빈도가 동일할 경우, 앞 뒤 2∼3 어절을 연결하여 형태소 태깅을 수행하여 확률값이 제일 높은 하나를 선택하는 것을 특징으로 하는 어절 엔-그램을 이용한 띄어쓰기와 철자 교정방법
12 11
제 10 항에 있어서, 상기 선택된 리스트가 다수 개 존재할 경우, 앞뒤 한 어절씩을 연결하여 어절 n-gram 검색기에서 어절 3-gram이나 2-gram에서 제일 좋은 값을 선택하며, 상기 어절 3-gram이나 2-gram에 없거나 빈도가 동일할 경우, 앞 뒤 2∼3 어절을 연결하여 형태소 태깅을 수행하여 확률값이 제일 높은 하나를 선택하는 것을 특징으로 하는 어절 엔-그램을 이용한 띄어쓰기와 철자 교정방법
지정국 정보가 없습니다
패밀리정보가 없습니다
국가 R&D 정보가 없습니다.