요약 | 본 발명은 자동 색인을 위한 한국어 형태소 분석 시스템 및 그 방법 및 방법을 실행하기 위한 프로그램이 기록되어 있는 것을 특징으로 하는 컴퓨터에서 판독가능한 기록 매체를 제공하기 위한 것으로, 사전 데이터베이스를 관리하여 분석 사전을 관리하는 사전 관리부와; 상기 사전 관리부에서의 분석 사전 관리 결과를 전달받고, 체언 분석, 용언 문석, 수사 분석, 미등록 분석, 독립언 분석, 유형별 형태소 분석 중에서 하나 이상의 분석을 모듈화하여 형태소 분석을 수행하는 형태소 분석부와; 상기 형태소 분석부에서의 형태소 분석 결과를 전달받고 색인을 제공하는 색인 제공부;를 포함하여 구성함으로서, 어절분석 속도의 최대화, 형태소 분석기의 모듈화 및 구조화가 가능하도록 대용량의 데이터에 대한 자동 색인을 효율적으로 수행할 수 있게 되는 것이다.자동 색인, 한국어 형태소 분석, 색인 제공, 사전, 모듈화 |
---|---|
Int. CL | G06F 17/22 (2006.01) |
CPC | G06F 17/2755(2013.01) G06F 17/2755(2013.01) |
출원번호/일자 | 1020070068704 (2007.07.09) |
출원인 | 한국과학기술정보연구원 |
등록번호/일자 | 10-0835706-0000 (2008.05.30) |
공개번호/일자 | |
공고번호/일자 | (20080605) 문서열기 |
국제출원번호/일자 | |
국제공개번호/일자 | |
우선권정보 | |
법적상태 | 등록 |
심사진행상태 | 수리 |
심판사항 | |
구분 | |
원출원번호/일자 | |
관련 출원번호 | |
심사청구여부/일자 | Y (2007.07.09) |
심사청구항수 | 33 |
번호 | 이름 | 국적 | 주소 |
---|---|---|---|
1 | 한국과학기술정보연구원 | 대한민국 | 대전광역시 유성구 |
번호 | 이름 | 국적 | 주소 |
---|---|---|---|
1 | 최성필 | 대한민국 | 대전 유성구 |
2 | 조민희 | 대한민국 | 울산 동구 |
3 | 서정현 | 대한민국 | 대전 서구 |
4 | 김진숙 | 대한민국 | 대전 유성구 |
5 | 최윤수 | 대한민국 | 대전 서구 |
6 | 진두석 | 대한민국 | 대전 유성구 |
7 | 이민호 | 대한민국 | 대전 유성구 |
8 | 김광영 | 대한민국 | 충남 천안시 |
9 | 정창후 | 대한민국 | 대전 유성구 |
10 | 윤화묵 | 대한민국 | 대전 유성구 |
번호 | 이름 | 국적 | 주소 |
---|---|---|---|
1 | 특허법인(유)화우 | 대한민국 | 서울특별시 강남구 테헤란로***길 **, *층 (대치동, 삼호빌딩) |
번호 | 이름 | 국적 | 주소 |
---|---|---|---|
1 | 김정중 | 서울특별시 송파구 |
번호 | 서류명 | 접수/발송일자 | 처리상태 | 접수/발송번호 |
---|---|---|---|---|
1 | [특허출원]특허출원서 [Patent Application] Patent Application |
2007.07.09 | 수리 (Accepted) | 1-1-2007-0498812-92 |
2 | 등록결정서 Decision to grant |
2008.05.28 | 발송처리완료 (Completion of Transmission) | 9-5-2008-0288389-35 |
3 | 출원인정보변경(경정)신고서 Notification of change of applicant's information |
2009.12.23 | 수리 (Accepted) | 4-1-2009-5253238-15 |
번호 | 청구항 |
---|---|
1 |
1 사전 데이터베이스를 관리하여 분석 사전을 관리하는 사전 관리부와;상기 사전 관리부에서의 분석 사전 관리 결과를 전달받고, 체언 분석, 용언 문석, 수사 분석, 미등록 분석, 독립언 분석, 유형별 형태소 분석 중에서 하나 이상의 분석을 모듈화하여 형태소 분석을 수행하는 형태소 분석부와;상기 형태소 분석부에서의 형태소 분석 결과를 전달받고 색인을 제공하는 색인 제공부;를 포함하여 구성되는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 시스템 |
2 |
2 청구항 1에 있어서,상기 사전 관리부는,품사 사전, 어미와 조사를 포함한 기능성 사전, 형식형태소 사전 중에서 하나 이상의 사전을 분석 사전으로 하여 관리하는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 시스템 |
3 |
3 청구항 1에 있어서,상기 사전 관리부는,사전 파일 이미지를 생성하고, 사전 탐색과 삽입과 삭제와 변경을 수행하는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 시스템 |
4 |
4 청구항 1에 있어서,상기 사전 관리부는,일반 사전 탐색, 조사 사전 탐색, 어미 사전 탐색을 포함하여 수행하는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 시스템 |
5 |
5 청구항 1에 있어서,상기 형태소 분석부는,명사 상당어구 분석과 복합명사 분석을 수행하는 체언 분석 모듈과;동사, 형용사 분석과 어미 분석을 수행하는 용언 분석 모듈과;수사제약규칙 검사와 수사구조 분석을 수행하는 수사 분석 모듈과;형식형태소 사전 검사와 실-형 경계바이그램 검사를 수행하는 미등록어 분석 모듈과;독립어, 관형사를 분석하는 독립언 분석 모듈과;특정 위치별 분석, 한 단어 분석, 버퍼 분석을 수행하는 유형별 형태소 분석부;를 포함하여 구성되는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 시스템 |
6 |
6 청구항 5에 있어서,상기 체언 분석 모듈은,조사사전 탐색 및 제약 조건 검사, 접미사 분석, 용언화 접사 처리, "이다" 처리, 복합명사 처리를 수행하는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 시스템 |
7 |
7 청구항 5에 있어서,상기 체언 분석 모듈은,체언류 품사를 탐색하는 사전 탐색부와;상기 사전 탐색부의 결과를 전달받고, 접미사 사전 탐색을 수행하며, '과', '뿐', '만'에 대한 특수처리를 수행하는 접미사 분석 모듈과;상기 접미사 분석 모듈의 결과를 전달받고, '이', '였', '다' 패턴에 대한 특수 처리를 수행하는 '이다' 분석 모듈과;상기 접미사 분석 모듈의 결과를 전달받고, 축약형 특수처리와 불규칙 처리를 수행하는 동-형 접사 분석 모듈과;상기 접미사 분석 모듈, 상기 '이다' 분석 모듈, 상기 동-형 접사 분석 모듈의 결과를 전달받고, 조사 사전 탐색과 조사 제약조건 검사를 수행하는 조사 분석 모듈과;상기 '이다' 분석 모듈, 상기 동-형 접사 분석 모듈의 결과를 전달받고, 문맥 이동을 수행하는 어미 분석 모듈과;상기 접미사 분석 모듈, 상기 '이다' 분석 모듈, 상기 동-형 접사 분석 모듈, 상기 조사 분석 모듈, 상기 어미 분석 모듈의 결과를 전달받고, 요소명사 판별을 수행하고, 접미사, '이다', 동/형접사, 조사 분석을 수행하는 복합명사 분석 모듈;을 포함하여 구성되는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 시스템 |
8 |
8 청구항 7에 있어서,상기 복합명사 분석 모듈은,접미사가 붙은 명사는 복합명사의 요소명사가 될 수 없다는 가정1과 한 글자로 구성된 명사는 복합명사의 부분 명사가 될 수 없다는 가정2를 가지고 복합명사에 대한 분석을 수행하는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 시스템 |
9 |
9 청구항 7에 있어서,상기 복합명사 분석 모듈은,남은 분석 어절의 모든 위치에서 사전 탐색을 수행하여 2음절 이상의 명사를 추출하고, 추출된 2음절 이상의 명사에 대한 현재 분석 어절에서의 위치와 함께 사전 정보를 하나의 vertex로 구성하고, 이렇게 구성된 vertex에 각각의 명사 위치와 길이를 검사하여 연결된 명사 리스트를 생성하고, 이를 매트릭스에 저장하는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 시스템 |
10 |
10 청구항 5에 있어서,상기 용언 분석 모듈은,"아/어" 생략 변이체 처리, 매개모음 "으" 삽입 처리, "ㅏ/ㅐ" 변이체 원형 복원 처리, 불규칙 활용꼴 처리, 어미 분석을 수행하는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 시스템 |
11 |
11 청구항 5에 있어서,상기 용언 분석 모듈은,용언류 품사를 탐색하는 사전 탐색부와;상기 사전 탐색부의 결과를 전달받고, '으' 처리와 생략된 '아' 처리를 수행하는 매개모음 분석부와;상기 사전 탐색부의 결과를 전달받고, 각 불규칙에 대한 변형 및 복원을 수행하는 불규칙 용언 특수 처리부와;상기 매개모음 분석부와 상기 불규칙 용언 특수 처리부의 결과를 전달받고, 결합형 보조용언 사전 탐색과 제약 조건 검사와 보조용언의 불규칙 변이 처리를 수행하는 보조용언 분석부와;상기 보조용언 분석부의 결과를 전달받고, 보조용언으로 시작하는 형식형태소를 분석하는 보조용언 모드에서의 용언 분석을 수행하는 보조용언 모드 분석부와;상기 보조용언 분석부의 결과를 전달받고, 선어말 어미에서부터 형식형태소가 시작하는 일반 모드에서 용언 분석을 수행하는 일반 모드 분석부;를 포함하여 구성되는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 시스템 |
12 |
12 청구항 11에 있어서,상기 보조용언 모드 분석부 또는 상기 일반 모드 분석부는 각각,상기 보조용언 분석부의 결과를 전달받아 선어말어미 사전 탐색과 제약 조건 검사와 매개모음 분석을 수행하는 선어말 어미 분석부와;상기 선어말 어미 분석부의 결과를 전달받고 'ㅁ', '음', '기' 패턴을 조사하는 명사형 전성어미 검사부와;상기 명사형 전성어미 검사부의 검사 결과에 따라 'ㅁ', '음', '기' 패턴이 검출되면 문맥 이동을 수행하는 조사 사전 탐색부와;상기 명사형 전성어미 검사부의 검사 결과에 따라 'ㅁ', '음', '기' 패턴이 검출되지 않으면 어미 사전을 탐색을 수행하는 어미 사전 탐색부;를 포함하여 구성되는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 시스템 |
13 |
13 청구항 5에 있어서,상기 수사 분석 모듈은,수사패턴 검사, 단위 명사 분석, 후미어 형태소 분석을 수행하는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 시스템 |
14 |
14 청구항 5에 있어서,상기 미등록어 분석 모듈은,고빈도 조사 검사, 형식 형태소 패턴 검사를 수행하는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 시스템 |
15 |
15 청구항 1 내지 청구항 14 중 어느 하나의 항에 있어서,상기 색인 제공부는,상용조합형, UTF-8, UCS-2, UCS-4, 완성형에 대한 유니코드 변환을 수행하는 유니코드 변환부와;색인어 위치 및 종류를 지정하고, 결과 버퍼를 관리하는 결과 처리부와;한글-한자 상호 변환을 수행하는 한글-한자 변환부와;입력 어절의 분리를 위해 한글 및 영어, 일본어 탐지를 수행하고, 문장부호화 단위기호의 특수처리를 수행하는 어절 분리 관리부와;불용어 사전의 삽입/삭제와 검색을 수행하는 섹션별 불용어 관리부와;영어 스태밍 기능을 수행하는 영어 스태밍 모듈;을 포함하여 구성되는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 시스템 |
16 |
16 청구항 15에 있어서,상기 색인 제공부는,문서에서 섹션의 내용 또는 값 전체를 하나의 색인어로 추출하는 INDEX_AS_IS, 문서에서 섹션의 내용 전체를 색인어로 추출하고 동시에 한글 텍스트의 각 어절에 대해 형태소 해석을 수행함으로써 명사, 조사, 접미사, 동사, 형용사 등의 최소 형태소 단위를 구분한 후 섹션의 내용을 대표할 수 있는 단순 명사를 색인어로 추출하는 INDEX_AS_IS_MA, 숫자로 구성된 기본 섹션에 대하여 색인어를 추출하는 INDEX_AS_NUMERIC, 기본 섹션에서 영어인 경우에는 한 음절씩, 한글인 경우에는 두 음절씩을 추출하여 색인어를 생성하는 INDEX_BY_CHAR, 한글 텍스트의 각 어절에 대해 형태소 해석을 수행함으로써 명사, 조사, 접미사, 동사, 형용사 등의 최소 형태소 단위를 구분한 후 섹션의 내용을 대표할 수 있는 단순 명사를 색인어로 추출하고 영어의 경우에는 규칙적인 복수형 및 동사의 시제 변화 등을 처리하여 어간을 추출하는 INDEX_BY_MA, 섹션내의 어절 또는 단어들 중에서 색인어를 선정하는 INDEX_BY_TOKEN 중에서 하나 이상의 색인 유형을 제공하는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 시스템 |
17 |
17 사전 데이터베이스를 관리하여 분석 사전을 관리하는 제 1 단계와;상기 제 1 단계에서의 분석 사전 관리 결과를 전달받고, 체언 분석, 용언 문석, 수사 분석, 미등록 분석, 독립언 분석, 유형별 형태소 분석 중에서 하나 이상의 분석을 모듈화하여 형태소 분석을 수행하는 제 2 단계와;상기 제 2 단계에서의 형태소 분석 결과를 전달받고 색인을 제공하는 제 3 단계;를 포함하여 수행하는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 방법 |
18 |
18 청구항 17에 있어서,상기 제 1 단계는,품사 사전, 어미와 조사를 포함한 기능성 사전, 형식형태소 사전 중에서 하나 이상의 사전을 분석 사전으로 하여 관리하는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 방법 |
19 |
19 청구항 17에 있어서,상기 제 1 단계는,사전 파일 이미지를 생성하고, 사전 탐색과 삽입과 삭제와 변경을 수행하는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 방법 |
20 |
20 청구항 17에 있어서,상기 제 1 단계는,일반 사전 탐색, 조사 사전 탐색, 어미 사전 탐색을 포함하여 수행하는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 방법 |
21 |
21 청구항 17에 있어서,상기 제 2 단계는,명사 상당어구 분석과 복합명사 분석을 수행하는 체언 분석 단계와;동사, 형용사 분석과 어미 분석을 수행하는 용언 분석 단계와;수사제약규칙 검사와 수사구조 분석을 수행하는 수사 분석 단계와;형식형태소 사전 검사와 실-형 경계바이그램 검사를 수행하는 미등록어 분석 단계와;독립어, 관형사를 분석하는 독립언 분석 단계와;특정 위치별 분석, 한 단어 분석, 버퍼 분석을 수행하는 유형별 형태소 단계;를 포함하여 수행하는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 방법 |
22 |
22 청구항 21에 있어서,상기 체언 분석 단계는, 조사사전 탐색 및 제약 조건 검사, 접미사 분석, 용화 접사 처리, "이다" 처리, 복합명사 처리를 수행하는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 방법 |
23 |
23 청구항 21에 있어서,상기 체언 분석 단계는,체언류 품사를 탐색하는 사전 탐색 단계와;상기 사전 탐색 단계의 결과를 전달받고, 접미사 사전 탐색을 수행하며, '과', '뿐', '만'에 대한 특수처리를 수행하는 접미사 분석 단계와;상기 접미사 분석 단계의 결과를 전달받고, '이', '였', '다' 패턴에 대한 특수 처리를 수행하는 '이다' 분석 단계와;상기 접미사 분석 단계의 결과를 전달받고, 축약형 특수처리와 불규칙 처리를 수행하는 동-형 접사 분석 단계와;상기 접미사 분석 단계, 상기 '이다' 분석 단계, 상기 동-형 접사 분석 단계의 결과를 전달받고, 조사 사전 탐색과 조사 제약조건 검사를 수행하는 조사 분석 단계와;상기 '이다' 분석 단계, 상기 동-형 접사 분석 단계의 결과를 전달받고, 문맥 이동을 수행하는 어미 분석 단계와;상기 접미사 분석 단계, 상기 '이다' 분석 단계, 상기 동-형 접사 분석 단계, 상기 조사 분석 단계, 상기 어미 분석 단계의 결과를 전달받고, 요소명사 판별을 수행하고, 접미사, '이다', 동/형접사, 조사 분석을 수행하는 복합명사 분석 단계;를 포함하여 수행하는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 방법 |
24 |
24 청구항 23에 있어서,상기 복합명사 분석 단계는,접미사가 붙은 명사는 복합명사의 요소명사가 될 수 없다는 가정1과 한 글자로 구성된 명사는 복합명사의 부분 명사가 될 수 없다는 가정2를 가지고 복합명사에 대한 분석을 수행하는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 방법 |
25 |
25 청구항 23에 있어서,상기 복합명사 분석 단계는,남은 분석 어절의 모든 위치에서 사전 탐색을 수행하여 2음절 이상의 명사를 추출하고, 추출된 2음절 이상의 명사에 대한 현재 분석 어절에서의 위치와 함께 사전 정보를 하나의 vertex로 구성하고, 이렇게 구성된 vertex에 각각의 명사 위치와 길이를 검사하여 연결된 명사 리스트를 생성하고, 이를 매트릭스에 저장하는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 방법 |
26 |
26 청구항 21에 있어서,상기 용언 분석 단계는,"아/어" 생략 변이체 처리, 매개모음 "으" 삽입 처리, "ㅏ/ㅐ" 변이체 원형 복원 처리, 불규칙 활용꼴 처리, 어미 분석을 수행하는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 방법 |
27 |
27 청구항 21에 있어서,상기 용언 분석 단계는,용언류 품사를 탐색하는 사전 탐색 단계와;상기 사전 탐색 단계의 결과를 전달받고, '으' 처리와 생략된 '아' 처리를 수행하는 매개모음 분석 단계와;상기 사전 탐색 단계의 결과를 전달받고, 각 불규칙에 대한 변형 및 복원을 수행하는 불규칙 용언 특수 처리 단계와;상기 매개모음 분석 단계와 상기 불규칙 용언 특수 처리 단계의 결과를 전달받고, 결합형 보조용언 사전 탐색과 제약 조건 검사와 보조용언의 불규칙 변이 처리를 수행하는 보조용언 분석 단계와;상기 보조용언 분석 단계의 결과를 전달받고, 보조용언으로 시작하는 형식형태소를 분석하는 보조용언 모드에서의 용언 분석을 수행하는 보조용언 모드 분석 단계와;상기 보조용언 분석 단계의 결과를 전달받고, 선어말 어미에서부터 형식형태소가 시작하는 일반 모드에서 용언 분석을 수행하는 일반 모드 분석 단계;를 포함하여 수행하는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 방법 |
28 |
28 청구항 27에 있어서,상기 보조용언 모드 분석 단계 또는 상기 일반 모드 분석 단계는 각각,상기 보조용언 분석 단계의 결과를 전달받아 선어말어미 사전 탐색과 제약 조건 검사와 매개모음 분석을 수행하는 선어말 어미 분석 단계와;상기 선어말 어미 분석 단계의 결과를 전달받고 'ㅁ', '음', '기' 패턴을 조사하는 명사형 전성어미 검사 단계와;상기 명사형 전성어미 검사부의 검사 결과에 따라 'ㅁ', '음', '기' 패턴이 검출되면 문맥 이동을 수행하는 조사 사전 탐색 단계와;상기 명사형 전성어미 검사 단계의 검사 결과에 따라 'ㅁ', '음', '기' 패턴이 검출되지 않으면 어미 사전을 탐색을 수행하는 어미 사전 탐색 단계;를 포함하여 수행하는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 방법 |
29 |
29 청구항 21에 있어서,상기 수사 분석 단계는,수사패턴 검사, 단위 명사 분석, 후미어 형태소 분석을 수행하는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 방법 |
30 |
30 청구항 21에 있어서,상기 미등록어 분석 단계는,고빈도 조사 검사, 형식 형태소 패턴 검사를 수행하는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 방법 |
31 |
31 청구항 17에 있어서,상기 제 3 단계는,상용조합형, UTF-8, UCS-2, UCS-4, 완성형에 대한 유니코드 변환을 수행하는 유니코드 변환 단계와;색인어 위치 및 종류를 지정하고, 결과 버퍼를 관리하는 결과 처리 단계와;한글-한자 상호 변환을 수행하는 한글-한자 변환 단계와;입력 어절의 분리를 위해 한글 및 영어, 일본어 탐지를 수행하고, 문장부호화 단위기호의 특수처리를 수행하는 어절 분리 관리 단계와;불용어 사전의 삽입/삭제와 검색을 수행하는 섹션별 불용어 관리 단계와;영어 스태밍 기능을 수행하는 영어 스태밍 단계;를 포함하여 수행하는 것을 특징으로 하는 자동 색인을 위한 한국어 형태소 분석 방법 |
32 |
32 청구항 17에 있어서,상기 제 3 단계는,문서에서 섹션의 내용 또는 값 전체를 하나의 색인어로 추출하는 INDEX_AS_IS, 문서에서 섹션의 내용 전체를 색인어로 추출하고 동시에 한글 텍스트의 각 어절에 대해 형태소 해석을 수행함으로써 명사, 조사, 접미사, 동사, 형용사 등의 최소 형태소 단위를 구분한 후 섹션의 내용을 대표할 수 있는 단순 명사를 색인어로 추출하는 INDEX_AS_IS_MA, 숫자로 구성된 기본 섹션에 대하여 색인어를 추출하는 INDEX_AS_NUMERIC, 기본 섹션에서 영어인 경우에는 한 음절씩, 한글인 경우에는 두 음절씩을 추출하여 색인어를 생성하는 INDEX_BY_CHAR, 한글 텍스트의 각 어절에 대해 형태소 해석을 수행함으로써 명사, 조사, 접미사, 동사, 형용사 등의 최소 형태소 단위를 구분한 후 섹션의 내용을 대표할 수 있는 단순 명사를 색인어로 추출하고 영어의 경우에는 규칙적인 복수형 및 동사의 시제 변화 등을 처리하여 어간을 추출하는 INDEX_BY_MA, 섹션내의 어절 또는 단어들 중에서 색인어를 선정하는 INDEX_BY_TOKEN 중에서 하나 이상의 색인 유형을 제공하는 것을 특징으로 한다 |
33 |
33 청구항 17 내지 청구항 32 중 어느 하나의 항에 의한 자동 색인을 위한 한국어 형태소 분석 방법을 실행하기 위한 프로그램이 기록되어 있는 것을 특징으로 하는 컴퓨터에서 판독가능한 기록 매체 |
지정국 정보가 없습니다 |
---|
패밀리정보가 없습니다 |
---|
국가 R&D 정보가 없습니다. |
---|
공개전문 정보가 없습니다 |
---|
특허 등록번호 | 10-0835706-0000 |
---|
표시번호 | 사항 |
---|---|
1 |
출원 연월일 : 20070709 출원 번호 : 1020070068704 공고 연월일 : 20080605 공고 번호 : 특허결정(심결)연월일 : 20080528 청구범위의 항수 : 1 유별 : G06F 17/22 발명의 명칭 : 자동 색인을 위한 한국어 형태소 분석 시스템 및 그 방법 존속기간(예정)만료일 : |
순위번호 | 사항 |
---|---|
1 |
(권리자) 한국과학기술정보연구원 대전광역시 유성구... |
2 |
(권리자) 김정중 서울특별시 송파구... |
2 |
(의무자) 한국과학기술정보연구원 대전광역시 유성구... |
제 1 - 3 년분 | 금 액 | 775,500 원 | 2008년 06월 02일 | 납입 |
제 4 년분 | 금 액 | 766,000 원 | 2011년 05월 31일 | 납입 |
제 5 년분 | 금 액 | 766,000 원 | 2012년 03월 27일 | 납입 |
제 6 년분 | 금 액 | 766,000 원 | 2013년 04월 10일 | 납입 |
제 7 년분 | 금 액 | 1,354,000 원 | 2014년 04월 08일 | 납입 |
제 8 년분 | 금 액 | 1,435,240 원 | 2015년 07월 07일 | 납입 |
제 9 년분 | 금 액 | 1,354,000 원 | 2016년 04월 06일 | 납입 |
제 10 년분 | 금 액 | 2,055,000 원 | 2017년 03월 27일 | 납입 |
제 11 년분 | 금 액 | 1,212,450 원 | 2018년 11월 27일 | 납입 |
제 12 년분 | 금 액 | 2,055,000 원 | 2019년 05월 29일 | 납입 |
제 13 년분 | 금 액 | 2,305,500 원 | 2020년 07월 30일 | 납입 |
번호 | 서류명 | 접수/발송일자 | 처리상태 | 접수/발송번호 |
---|---|---|---|---|
1 | [특허출원]특허출원서 | 2007.07.09 | 수리 (Accepted) | 1-1-2007-0498812-92 |
2 | 등록결정서 | 2008.05.28 | 발송처리완료 (Completion of Transmission) | 9-5-2008-0288389-35 |
3 | 출원인정보변경(경정)신고서 | 2009.12.23 | 수리 (Accepted) | 4-1-2009-5253238-15 |
기술번호 | KST2014063001 |
---|---|
자료제공기관 | 미래기술마당 |
기술공급기관 | 기술보증기금(신탁) |
기술명 | 한글형태소 분석엔진 및 최적화기술 |
기술개요 |
본 발명은 자동 색인을 위한 한국어 형태소 분석 시스템 및 그 방법 및 방법을 실행하기 위한 프로그램이 기록되어 있는 것을 특징으로 하는 컴퓨터에서 판독가능한 기록 매체를 제공하기 위한 것으로, 사전 데이터베이스를 관리하여 분석 사전을 관리하는 사전 관리부와; 상기 사전 관리부에서의 분석 사전 관리 결과를 전달받고, 체언 분석, 용언 문석, 수사 분석, 미등록 분석, 독립언 분석, 유형별 형태소 분석 중에서 하나 이상의 분석을 모듈화하여 형태소 분석을 수행하는 형태소 분석부와; 상기 형태소 분석부에서의 형태소 분석 결과를 전달받고 색인을 제공하는 색인 제공부;를 포함하여 구성함으로서, 어절분석 속도의 최대화, 형태소 분석기의 모듈화 및 구조화가 가능하도록 대용량의 데이터에 대한 자동 색인을 효율적으로 수행할 수 있게 되는 것이다.자동 색인, 한국어 형태소 분석, 색인 제공, 사전, 모듈화 |
개발상태 | 유사환경 테스트 |
기술의 우수성 |
가. 기술의 우위성 1) 본‘한글형태소 분석엔진 및 최적화기술’기술은 290만 개의 한글형태소 사전 및 기분석 사전을 관리하고 있으며, 분석 정확도가 높다는 장점이 있음 - 또한, 신조어 및 전문어에 대한 오분석을 최소화하기 위해 사용자 기분석 사전을 관리하고 있어 실시간으로 사전엔트리를 변경하고 분석 결과를 수정할 수 있음 2) 본 기술은 어절분석 속도의 최대화, 형태소 분석기의 모듈화 및 구조화가 가능하도록 대용량의 데이터에 대한 자동 색인을 효율적으로 수행하고자 한국어 어절 생성 규칙을 적용한 형태소 분석 자료구조 및 알고리즘을 개발하고, 이를 쉽게 변경하고 관리할 수 있는 시스템 구조로 구현하였으며, 분석 속도를 높이기 위한 다양한 최적화 알고리즘을 효과적으로 적용하였음 나. 기술의 경쟁력 1) 일반적으로 최근 들어 다양한 형태소 분석 시스템이 개발되어 활용되고 있으며, 실제로 많은 분야에 적용하기 위하여 독특한 자료구조와 알고리즘이 적용되고 있음 2) 자연어처리 시스템, 특히 한국어 처리 시스템의 가장 중요한 요소는 언어의 유연한 확장성이나 생성 현상, 혹은 신조어나 고유명사, 전문용어들에 대한 시스템의 유연성과 확장성임 3) 형태소 분석 시스템은 우선, 시스템 개발자 측면에서는 어절 분석 요소들이 전체 시스템의 성능에 직접적인 영향을 주기 때문에 좀 더 쉽고 효율적인 방법으로 분석 시스템 자체를 변경하고 성능향상을 도모할 수 있어야 함 - 또한 시스템 관리자 측면에서 형태소 분석 시스템은 사전 엔트리를 보다 효율적으로 관리하고 사용자 정의 사전에 대한 다양한 처리를 기반으로 새로운 언어 현상에 능동적으로 대처할 수 있어야 함 4) 대부분의 종래 시스템들은 구조의 복잡성, 혹은 어절 생성 현상에 부적절한 알고리즘이나 자료구조로 인해 변경이나 업데이트가 불가능한 문제점이 있었으며, 이에 본 기술에서는 어절분석 속도의 최대화, 형태소 분석기의 모듈화 및 구조화가 가능하도록 대용량의 데이터에 대한 자동 색인을 효율적으로 수행할 수 있는 자동 색인을 위한 한국어 형태소 분석 시스템 및 그 방법 및 방법을 실행하기 위한 프로그램이 기록되어 있는 것이 특징임 5) 본 기술에 의해 구현되는 컴퓨터에서 판독가능한 기록 매체는 어절분석 속도의 최대화, 형태소 분석기의 모듈화 및 구조화가 가능하도록 대용량의 데이터에 대한 자동색인을 효율적으로 수행할 수 있는 효과가 있을 것으로 기대됨 |
응용분야 |
1) 기술의 적용 및 응용분야 - ‘한글형태소 분석엔진 및 최적화기술’은 대용량의 문서를 학습시킬 수 있는 분류기를 구축 및 관리하는 기술로 대용량 DB를 처리 및 분석하는 산업 및 분야에 적용할 수 있으며, 산업 및 시장측면으로 접근하였을 때, 빅데이터 분야에 적용이 가능함 - 본 기술은 개발자 측면에서 쉽게 시스템 자체를 변경하고, 확장할 수 있도록 모듈화 구조화 되어 있으며, 신조어 및 전문어에 대한 사전 엔트리를 즉시 반영할 수 있는 사용자 사전 관리기를 지원하고 있어 빠른 시간 내에 시스템을 쉽게 변경할 수 있으므로 대용량 데이터 처리, 특히 한국어 정보처리 분야에 상당한 효율성을 가져다 줄 것으로 판단됨 - 최근‘빅데이터’의 관심 및 관련기술의 수요가 증가함에 따라 빅데이터 산업의 성장에 주요한 기반기술로 쓰일 가능성이 높으며, 특히 빅데이터 분류 및 생성, 관리의 효율성을 증대시킬 수 있는 주요기술로 판단됨 |
시장규모 및 동향 |
가. 국내 시장규모 및 전망 1) 데이터 사용의 급증에 따라 빅데이터 관련 시장도 빠른 성장이 예상되는데, 빅데이터는 이전에 없던 새로운 상품을 판매하는 것이 아니라 기존과 유사한 장비에 신기술을 적용해 대용량 데이터를 수집, 저장, 분석하고 이를 서비스 형태로 제공하는 일련의 과정을 포괄하므로 독립된 시장으로 구분하기 어려운 측면이 있음 - 다만, 컨설팅기관 등 업계에서는 빅데이터 이용 활성화로 인해 추가적으로 증가하는 장비, 기술, 소프트웨어 및 분석 서비스의 거래를 ‘빅데이터 관련 시장’으로 구분하여 규모나 성장성을 예측하고 있음 2) IDC(2012)의 경우, 빅데이터 관련 세부 시장을 ① 스토리지, 서버, 네트워크 등 물리적 하드웨어(인프라), ② 데이터 수집/분석/처리를 위한 소프트웨어, ③ 교육, 컨설팅 등 빅데이터를 활용한 응용서비스 제공으로 구분하고, 빅데이터 이용 증가로 인해 신규 성장이 예상되는 분야를 아래와 같이 구분한 바 있음 3) 한국은 세계최고의 ICT기술력과 인프라를 보유하고 많은 데이터를 생산하고 있으나, 아직은 빅데이터 이용에 대한 관심이 형성되는 수준임 - 다만, 다수의 기업이 관심을 가지고 사업을 시도하고 있다는 점에서 성장 가능성은 높게 평가되고 있음 4) 현재까지 국내 빅데이터 시장을 예측한 기관은 한국과학기술정보연구원(KISTI)이 유일한데, KISTI 전망치에 따르면, 한국의 전체 시장규모가 2015년 2억 6천3백만 달러, 2020년 9억 달러로 성장하여 국내 IT시장에서 빅데이터 분야가 차지하는 비중은 2013년 0.6%에서 2020년에는 2.6%까지 증가할 것으로 전망한 바 있음 5) 2013년 현재 KISTI의 빅데이터 시장전망은 IDC 세부 시장 구분을 그대로 적용하고 있어 세부 시장별 비중을 비교해 볼 수 있음 6) KISTI의 세부 시장별 성장 전망은 전망 기간에 따라 차이가 있는데, 2015년까지의 단기 전망에서는 서비스 → 스토리지 → 서버 → 네트워킹 → 소프트웨어 순으로 시장규모가 형성되다가, 2016~2020년까지의 중장기에는 서비스 → 스토리지 → 소프트웨어 → 네트워킹 → 서버 순으로 소프트웨어 비중은 급증하고, 서버 비중은 급감할 것으로 전망하였음 - 이러한 세부시장 전망은 소프트웨어 시장규모를 높은 순위에 두었던 IDC, Gartner 등의 전 세계 시장 전망과 차이가 있는데, 이러한 결과는 상대적으로 소프트웨어 부문이 취약한 우리나라 현실을 반영한 결과로 볼 수 있음 나. 국외 시장규모 및 전망 1) 빅데이터 시장은 기관별로 분석대상 세부 시장에 차이가 있어 직접 비교는 어려우나, 향후 5~6년간 빅데이터 관련 시장이 급속히 성장할 것으로 전망한다는 점에서는 의견을 같이 하는데, 이러한 낙관적 전망은 이 기간 동안 데이터 사용량이 지속적으로 증가함에 따라 부수적으로 생성되는 데이터를 수집, 저장, 분석하는 빅데이터 관련 거래도 증가할 것이라는 예상에 근거함 2) 기관별 전망치를 살펴보면, 우선, IDC(2011)는 빅데이터 관련 시장 규모가 2011년 47억 달러에서 2015년 169억 달러까지 성장할 것으로 전망하였는데, 특히 IDC는 100TB 이상 데이터 수집, 초고속 스트리밍을 통한 데이터 수신, 매년 60% 이상의 데이터 생산 증가 등 빅데이터 특징으로 인하여 기존 스토리지, 서버, 네트워크, 소프트웨어, 분석서비스 시장에 이전과 다른 성장 모멘텀이 등장할 것으로 전망함 3) 세부 시장규모는 2015년 기준으로 서비스, 소프트웨어, 스토리지, 서버, 네트워크 순이며, 2011년에서 2015년까지 평균 성장률은 스토리지 61.4%, 네트워킹 42.4%, 서비스 39.5%, SW 34.2%, 서버 27.3%로 예측하였다. 스토리지, 네트워킹 등 하드웨어 기반이 뒷받침된 후 빅데이터 서비스가 단계적으로 활성화될 전망임 4) Gartner(2012)는 빅데이터 관련 IT 시장 지출규모를 통해 빅데이터 시장규모를 전망하였는데, Gartner의 IT서비스 지출 전망치에는 관련 기업용 SW 개발 지출, 소셜미디어 분석 지출, 내외부 빅데이터 전문인력 고용 등이 포함되었음 - Gartner는 전 세계 빅데이터 IT시장 지출 규모가 2011년 270억 달러에서 2016년 540억 달러로 5년간 약 2배 증가할 것으로 전망하였음 5) 마지막으로 가장 최근 빅데이터 시장 전망을 발표한 Wikibon(2013. 2)은 2011년 72억 달러 시장이었던 빅데이터 시장이 2017년 478억 달러까지 성장 할 것이라고 전망하였음 6) 앞선 바와 같이, 빅데이터 관련 세부 시장 중에서 매출 비중이나 성장률 측면에서 서비스 부문이 가장 중요한 비중을 차지하고 있음 다. 시장경쟁상황 1) 빅데이터 시장 선점을 위해 주요 SI 및 솔루션 업체의 기술 및 솔루션 개발 노력이 지속적으로 진행되어 왔으며, 2011년까지는 기술개발을 위한 관련 업체 인수.합병 및 제휴가 활발히 진행, 2012년부터는 관련 솔루션과 서비스가 본격적으로 출시되고 있음 라. 시장진입가능성 1) 국내 빅데이터 시장은 2012년 초부터 컴퓨팅 분야 다국적기업인 한국IBM, 한국HP 및 한국오라클 등을 중심으로 본격적으로 개화되었는데, 이들 3사는 공통적으로 국내 기업들의 빅데이터 이슈에 적극적인 대응을 강조하면서 수요를 촉발하고 있으며, 이에 분석능력, 컨설팅, 어플라이언스 및 검색 등 각 사의 강점에 따른 접근방법을 제시하고 있음 2) 빅데이터 분석 솔루션 도입 시 이러한 마케팅 전략을 충분히 고려한 뒤 적합한 솔루션을 선택하는 것이 중요하며, 빅데이터 시장에 진입하고자 하는 업체의 경우에도 이러한 Market Player의 마케팅 전략에 대응할 수 있는 비즈니스 모델 발굴이 중요함 3) 컴퓨팅 분야 글로벌 메이저 기업들이 모두 2012년 초부터 빅데이터 분석기술을 화두로 내세우고 시장 창출에 주력하고 있으며, 이에 따라 먼저 내세울만한 레퍼런 스를 확보하고 효과를 제시하는 기업이 초기 빅데이터 시장 선점 기회를 확보할 수 있을 것으로 보임 4) 이는 빅데이터가 차세대 ICT 산업을 견인할 핵심동력으로 주목받는 가장 주된 요인이 기존의 데이터 처리 기술과 차별화된 대용량 데이터의 새로운 분석과 추론을 통해 새로운 서비스를 개발할 수 있는 가능성을 제공하고 있기 때문인 것으로 판단됨 |
희망거래유형 | |
사업화적용실적 | |
도입시고려사항 |
과제고유번호 | 1355047997 |
---|---|
세부과제번호 | K-07-L01-C02 |
연구과제명 | 차세대정보유통기술개발연구 |
성과구분 | 출원 |
부처명 | 교육과학기술부 |
연구관리전문기관명 | 과학기술부 |
연구주관기관명 | 한국과학기술정보연구원 |
성과제출연도 | 2007 |
연구기간 | 200701~200712 |
기여율 | 1 |
연구개발단계명 | 응용연구 |
6T분류명 | IT(정보기술) |
과제고유번호 | 1345067503 |
---|---|
세부과제번호 | K-08-L01-C02 |
연구과제명 | 시맨틱정보서비스기술개발 |
성과구분 | 등록 |
부처명 | 교육과학기술부 |
연구관리전문기관명 | 교육과학기술부 |
연구주관기관명 | 한국과학기술정보연구원 |
성과제출연도 | 2008 |
연구기간 | 200101~200812 |
기여율 | 1 |
연구개발단계명 | 응용연구 |
6T분류명 | IT(정보기술) |
[1020080127511] | DBMS 기반의 RDF 트리플 저장부에서의 뷰를 이용한 효율적인 추론 시스템 및 방법 | 새창보기 |
---|---|---|
[1020080127509] | 메모리 및 DBMS 기반의 하이브리드 Rete 추론 시스템 및 방법 | 새창보기 |
[1020080127507] | 인자지정(PARAMETERIZED)SPARQL 질의어를 이용한 DBMS 기반의 시맨틱웹 질의 시스템 | 새창보기 |
[1020080113565] | 문맥의 의미적 연관관계 추출 방법 및 그 장치와 그 프로그램 소스를 저장한 기록 매체 | 새창보기 |
[1020080113564] | 동사기반패턴을 이용한 대용량 문헌정보 내에서의 기술용어간 관계추출 시스템 | 새창보기 |
[1020080105464] | 검색 결과가 보장된 질의어 유형별 자동완성 시스템 및 방법 및 프로그램을 기록한 기록매체 | 새창보기 |
[1020080090787] | 데이터베이스의 개체유형을 이용한 자동 완성 검색 시스템 및 방법 및 프로그램 소스를 기록한 기록매체 | 새창보기 |
[1020080068781] | 어휘망을 이용한 질의어 자동 입력 시스템 및 그 방법과 그방법에 대한 컴퓨터 프로그램을 저장한 기록매체 | 새창보기 |
[1020080068780] | 제목, 저자, 초록정보를 이용한 질의어 자동 입력 시스템및 검색결과 제공 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체 | 새창보기 |
[1020080044142] | 토픽정보를 이용한 질의어 자동 입력 시스템 및 그 방법과그 방법에 대한 컴퓨터 프로그램을 저장한 기록매체 | 새창보기 |
[1020080044141] | 어휘망을 이용한 질의어 확장 시스템 및 그 방법과 그방법에 대한 컴퓨터 프로그램을 저장한 기록매체 | 새창보기 |
[1020080040596] | 과학기술문헌 지식기술 자동추출 기술 | 새창보기 |
[1020080040595] | 대용량 데이터베이스의 의미기반 기술용어 발굴 장치 | 새창보기 |
[1020080032741] | 다중 개체 중심적 통합 검색 시스템 및 방법 | 새창보기 |
[1020080032329] | 웹 서비스 연계 관리 시스템 및 방법 | 새창보기 |
[1020070134020] | 기 분석 데이터를 이용한 한국어 형태소 분석 시스템 및방법 | 새창보기 |
[1020070133017] | 사용자 맞춤형 연구 정보 제공 방법 및 시스템 | 새창보기 |
[1020070113566] | 데이터베이스와 정보검색 통합을 위한 문서단위 동적색인관리 특성을 갖는 정보검색 시스템 및 그 방법 | 새창보기 |
[1020070090100] | 히스토리 기반 인스턴스 등록 시스템 및 그 방법 | 새창보기 |
[1020070076312] | URI 데이터베이스를 이용한 통합 검색 시스템 및 방법 | 새창보기 |
[1020070068704] | 한글형태소 분석엔진 및 최적화기술 | 새창보기 |
[1020070045754] | RDF 트리플 기반 확장 클래스-속성 관리 시스템 및 그방법 | 새창보기 |
[1020070030279] | 다중 분류체계를 이용한 통제어 및 분야명 자동 할당시스템 및 그 방법 | 새창보기 |
[1020060118759] | 정보 검색 시스템에서의 주제 또는 분야 할당 장치 및 그방법 | 새창보기 |
[1020060114957] | 온톨로지 인스턴스의 sameAS 관리 시스템 및 그 방법 | 새창보기 |
[1020060081788] | 유알아이 기반 성과 정보 관리 시스템 및 그 방법 | 새창보기 |
[1020060081785] | DBMS 기반 지식 확장 및 추론 서비스 시스템 및 그방법 | 새창보기 |
[1020060051969] | 온톨로지 기반 참고문헌 분석을 통한 연구자 성과정보 구축및 서비스 시스템과 그 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체 | 새창보기 |
[KST2014029160][기술보증기금(신탁)] | 디지탈 카메라에서 디지털 데이터를 보안성의 피디에프 파일로 압축 저장하는 장치 및 그 방법 | 새창보기 |
---|---|---|
[KST2014013346][기술보증기금(신탁)] | 삼차원 시공간을 이용한 멀티미디어 프레젠테이션 공동저작 시스템 및 방법 | 새창보기 |
심판사항 정보가 없습니다 |
---|