맞춤기술찾기

이전대상기술

중국어 미등록어 자동 추출 방법 및 장치

  • 기술번호 : KST2015083375
  • 담당센터 : 대전기술혁신센터
  • 전화번호 : 042-610-2279
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 본 발명은 중국어 미등록어 자동 추출 기술에 관한 것으로, 중국어 문장이 포함된 웹문서를 입력받으면, 입력된 웹문서의 html 태그를 제거하고, 웹문서 내의 문장별로 메타 태그와 일반 태그 처리 방식으로 분류하며, 형태소 분석을 진행하여 분석결과를 출력하고, 분석 결과를 이용하여 어근 중심의 미등록어를 추출하는 방식과, 단음절 토큰을 중심으로 미등록어를 추출하는 방식과, 4음절로 된 동사 미등록어를 추출하는 방식과, 단음절 토큰의 단어 가능 여부를 판단하여 단어 가능 미등록어를 추출하는 방식과, 메타 태그 정보에 포함된 단어를 이용하여 미등록어를 추출하는 방식 중 적어도 하나의 방식을 이용하여 미등록어를 추출하는 것을 특징으로 한다. 본 발명에 의하면, 중국어 미등록어 추출방식을 통하여 쉽고 빠르게 중국어 분석용 사전을 구축 할 수 있으며, 특히 신조어, 미등록 용언에 대한 사전 보강은 실제 웹문서 번역시스템에 있어서 정확도를 크게 향상 시킬 수 있다.중국어, 어근, 단음절, 메타 태그 정보
Int. CL G06F 17/27 (2006.01) G06F 17/30 (2006.01)
CPC G06F 17/2863(2013.01) G06F 17/2863(2013.01) G06F 17/2863(2013.01) G06F 17/2863(2013.01) G06F 17/2863(2013.01) G06F 17/2863(2013.01)
출원번호/일자 1020070129360 (2007.12.12)
출원인 한국전자통신연구원
등록번호/일자 10-0886687-0000 (2009.02.25)
공개번호/일자
공고번호/일자 (20090304) 문서열기
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 등록
심사진행상태 수리
심판사항
구분
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2007.12.12)
심사청구항수 8

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 한국전자통신연구원 대한민국 대전광역시 유성구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 윤창호 대한민국 대전 유성구
2 권오욱 대한민국 대전 서구
3 오영순 대한민국 경기 수원시 영통구
4 노윤형 대한민국 대전 유성구
5 최승권 대한민국 대전 유성구
6 서영애 대한민국 대전 유성구
7 이기영 대한민국 대전 서구
8 양성일 대한민국 대전 유성구
9 김창현 대한민국 대전 유성구
10 김영길 대한민국 대전 중구
11 김운 대한민국 대전 유성구
12 황영숙 대한민국 대전 유성구
13 박은진 대한민국 대전 유성구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 장성구 대한민국 서울특별시 서초구 마방로 ** (양재동, 동원F&B빌딩)(제일특허법인(유))
2 김원준 대한민국 서울특별시 서초구 마방로 ** (양재동, 동원F&B빌딩)(제일특허법인(유))

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
1 대한민국(산업통상자원부장관) 세종특별자치시 한누리대
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2007.12.12 수리 (Accepted) 1-1-2007-0894659-80
2 선행기술조사의뢰서
Request for Prior Art Search
2008.07.08 수리 (Accepted) 9-1-9999-9999999-89
3 선행기술조사보고서
Report of Prior Art Search
2008.08.12 수리 (Accepted) 9-1-2008-0052696-31
4 등록결정서
Decision to grant
2009.02.24 발송처리완료 (Completion of Transmission) 9-5-2009-0083755-81
5 출원인정보변경(경정)신고서
Notification of change of applicant's information
2009.08.04 수리 (Accepted) 4-1-2009-5150899-36
6 출원인정보변경(경정)신고서
Notification of change of applicant's information
2015.02.02 수리 (Accepted) 4-1-2015-0006137-44
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
중국어 문장이 포함된 웹문서를 입력받으면, 상기 입력된 웹문서의 html 태그를 제거하는 과정과,상기 웹문서 내의 문장별로 메타 태그와 일반 태그 처리 방식으로 분류하는 과정과,형태소 분석을 진행하여 분석결과를 출력하는 과정과,상기 분석 결과를 이용하여 어근 중심의 미등록어를 추출하는 방식과, 단음절 토큰을 중심으로 미등록어를 추출하는 방식과, 4음절로 된 동사 미등록어를 추출하는 방식과, 상기 단음절 토큰의 단어 가능 여부를 판단하여 단어 가능 미등록어를 추출하는 방식과, 상기 메타 태그 정보에 포함된 단어를 이용하여 미등록어를 추출하는 방식 중 적어도 하나의 방식을 이용하여 미등록어를 추출하는 과정을 포함하는 중국어 미등록어 자동 추출 방법
2 2
제 1항에 있어서, 상기 분석 결과를 이용하여 어근사전을 구축하고, 어근을 중심으로 미등록어를 추출하는 과정과,단음절 나열에 대해서 빈도를 구하고, 기 설정된 빈도수를 초과하는 경우 미등록어로 추출하는 과정과,동사로 태깅된 동사열에 대해서 빈도를 구하여 4음절 미등록어의 동사를 추출하는 과정을 포함하는 것을 특징으로 하는 중국어 미등록어 자동 추출 방법
3 3
제 1항에 있어서, 상기 방법은,학습코퍼스를 이용하여 단음절 토큰의 단독 단어 가능여부를 판단하는 과정과,상기 단음절 단어로 불가능한 토큰에 대해서 좌우 문맥 정보를 이용하여 확장을 통하여 미등록어를 추출하는 과정을 포함하는 것을 특징으로 하는 중국어 미등록어 자동 추출 방법
4 4
제 1항에 있어서, 상기 방법은,상기 메타 태그 정보에 포함된 단어를 토큰 길이별로 분류하는 과정과,상기 토큰 길이가 1이며, 기 설정된 빈도수를 초과하는 단어를 미등록어로 추출하는 과정과,상기 토큰 길이가 2 이상이며, 형태소 분석결과 명사인 경우, 미등록어로 추출하는 과정을 포함하는 것을 특징으로 하는 중국어 미등록어 자동 추출 방법
5 5
중국어 문장이 포함된 웹문서를 입력받으면, 상기 입력된 웹문서의 html 태그를 제거하는 제거부와,상기 웹문서 내의 문장별로 메타 태그와 일반 태그 처리 방식으로 분류하는 태그 분류부와,형태소 분석을 진행하여 분석결과를 출력하는 형태소 분석부와,상기 분석 결과를 이용하여 어근 중심의 미등록어를 추출하는 어근 중심 추출 모듈과, 단음절 토큰을 중심으로 미등록어를 추출하는 단음절 중심 추출 모듈과, 4음절로 된 동사 미등록어를 추출하는 동사 중심 추출 모듈을 포함하는 일반 태그를 이용한 추출 방식부와,상기 단음절 토큰의 단어 가능 여부를 판단하여 단어 가능 미등록어를 추출하는 단음절 토큰의 단어 가능 여부를 이용한 추출 방식부와,상기 메타 태그 정보에 포함된 단어를 이용하여 미등록어를 추출하는 메타 태그를 이용한 추출 방식부를 포함하는 중국어 미등록어 자동 추출 시스템
6 6
제 5항에 있어서,상기 일반 태그를 이용한 추출 방식부는,상기 형태소 분석 결과를 이용하여 어근사전을 구축하고, 어근을 중심으로 미등록어를 추출하고, 단음절 나열에 대해서 빈도를 구하고, 기 설정된 빈도수를 초과하는 경우 미등록어로 추출하고,동사로 태깅된 동사열에 대해서 빈도를 구하여 4음절 미등록어의 동사를 추출하는 것을 특징으로 하는 중국어 미등록어 자동 추출 시스템
7 7
제 5항에 있어서,상기 단음절 토큰의 단어 가능 여부를 이용한 추출 방식부는,학습코퍼스를 이용하여 단음절 토큰의 단독 단어 가능여부를 판단하고, 상기 단음절 단어로 불가능한 토큰에 대해서 좌우 문맥 정보를 이용한 확장을 통하여 미등록어를 추출하는 것을 특징으로 하는 중국어 미등록어 자동 추출 시스템
8 8
제 5항에 있어서,상기 메타 태그를 이용한 추출 방식부는,상기 메타 태그 정보에 포함된 단어를 토큰 길이별로 분류하여, 상기 토큰 길이가 1인 경우에 기 설정된 빈도수를 초과하는 단어를 미등록어로 추출하고,상기 토큰 길이가 2 이상이며, 형태소 분석결과 명사인 경우, 미등록어로 추출하는 것을 특징으로 하는 중국어 미등록어 자동 추출 시스템
지정국 정보가 없습니다
패밀리정보가 없습니다
순번, 연구부처, 주관기관, 연구사업, 연구과제의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 국가R&D 연구정보 정보 표입니다.
순번 연구부처 주관기관 연구사업 연구과제
1 정보통신부 한국전자통신연구원 IT성장동력기술개발사업 응용 특화 한중영 자동번역 기술개발