맞춤기술찾기

이전대상기술

대역어 추출 장치 및 그 방법

  • 기술번호 : KST2015084566
  • 담당센터 : 대전기술혁신센터
  • 전화번호 : 042-610-2279
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 본 발명은 대역어 추출 기법에 관한 것으로, 이를 위하여 본 발명은, 빈도가 높은 순서대로 전문 번역가가 직접 대역어를 포함하는 해당 대역쌍을 입력하거나, 혹은 병렬 말뭉치를 이용하여 대역어를 추정하는 종래 방법과는 달리, 수집된 웹 뉴스를 이용하여 괄호 기반 및 인용 기호 기반으로 문장 분리, 불용어 제거, 좌우 단어쌍 추출 및 정렬, LCS 알고리즘을 통해 단어 경계 추출을 수행하고, 대역어를 기준으로 정렬된 단어쌍의 출현 빈도에 따라 한영 대역쌍을 추출함으로써, 추출된 한영 대역쌍을 대역 사전에 효과적으로 반영할 수 있어 신조어 또는 외래어에 대한 대역 사전을 쉽게 구축할 수 있는 것이다. 자동 번역 시스템, 대역 사전
Int. CL G06F 17/40 (2006.01)
CPC G06F 17/3089(2013.01) G06F 17/3089(2013.01)
출원번호/일자 1020080130781 (2008.12.22)
출원인 한국전자통신연구원
등록번호/일자
공개번호/일자 10-2010-0072388 (2010.07.01) 문서열기
공고번호/일자
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 취하
심사진행상태 수리
심판사항
구분 신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 N
심사청구항수 12

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 한국전자통신연구원 대한민국 대전광역시 유성구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 박은진 대한민국 대전광역시 유성구
2 김영길 대한민국 대전광역시 중구
3 최승권 대한민국 대전광역시 유성구
4 김창현 대한민국 대전광역시 유성구
5 서영애 대한민국 대전광역시 유성구
6 양성일 대한민국 대전광역시 유성구
7 이기영 대한민국 대전광역시 서구
8 권오욱 대한민국 대전광역시 서구
9 노윤형 대한민국 대전광역시 유성구
10 윤창호 대한민국 대전광역시 유성구
11 김운 대한민국 대전광역시 유성구
12 박상규 대한민국 대전광역시 유성구
13 오영순 대한민국 대전광역시 유성구
14 황금하 대한민국 대전광역시 유성구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 제일특허법인(유) 대한민국 서울특별시 서초구 마방로 ** (양재동, 동원F&B빌딩)
2 김원준 대한민국 서울특별시 서초구 마방로 ** (양재동, 동원F&B빌딩)(제일특허법인(유))

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
최종권리자 정보가 없습니다
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2008.12.22 수리 (Accepted) 1-1-2008-0876478-35
2 출원인정보변경(경정)신고서
Notification of change of applicant's information
2009.08.04 수리 (Accepted) 4-1-2009-5150899-36
3 출원인정보변경(경정)신고서
Notification of change of applicant's information
2015.02.02 수리 (Accepted) 4-1-2015-0006137-44
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
실시간으로 RSS(really simple syndication) 뉴스 리스트를 수집하여 그에 대응하는 웹 뉴스를 추출하는 웹 뉴스 수집부와, 상기 추출된 웹 뉴스에서 괄호 및 인용 기호를 기반으로 문장을 분리하고, LCS(longest common substring) 알고리즘을 통해 상기 괄호에 대응하는 단어 경계를 추출한 후에, 상기 추출된 단어 경계에 따라 대역쌍을 추출하는 대역어 추출부 를 포함하는 대역어 추출 장치
2 2
제 1 항에 있어서, 상기 웹 뉴스 수집부는, 상기 RSS 뉴스 리스트를 수집하는 RSS 크롤러와, 상기 수집된 RSS 뉴스 리스트에서 웹 뉴스 URL 목록을 추출하는 링크 파서기와, 상기 추출된 웹 뉴스 URL 목록에서 상기 웹 뉴스를 수집하는 뉴스 크롤러와, 상기 수집된 웹 뉴스에서 HTML 태그를 제거하는 HTML 파서기 를 포함하는 대역어 추출 장치
3 3
제 2 항에 있어서, 상기 RSS 뉴스 리스트는, 기 설정된 시간 간격으로 갱신되고, 중복될 경우 제거하는 대역어 추출 장치
4 4
제 1 항에 있어서, 상기 대역어 추출부는, 상기 추출된 웹 뉴스 기사에서 중복 기사를 제거하고, 상기 문장을 분리한 후에, 상기 괄호 내의 불용어를 제거하며, 상기 괄호 내 좌우 단어쌍을 추출 및 정렬하고, 상기 추출된 단어 경계에 따라 상기 괄호 내의 대역어를 기준으로 정렬하고, 그 출현 빈도에 따라 상기 대역쌍을 추출하는 용어 추출기와, 상기 추출된 대역쌍이 용어 사전 데이터베이스 및 대역 사전 데이터베이스에 존재하는지의 여부에 따라 상기 대역쌍을 선택 삭제하는 신규 단어 필터와, 상기 대역쌍이 존재하지 않은 경우, 상기 대역쌍에 대한 오류 검사를 수행한 후에, 상기 대역 사전 데이터베이스에 반영하는 신규 용어 감수기 를 포함하는 대역어 추출 장치
5 5
제 4 항에 있어서, 상기 용어 추출기는, 웹 주소, 도량형 단위, 통계 비율 및 한글-한글 단어쌍을 포함하는 상기 불용어를 제거하는 대역어 추출 장치
6 6
제 4 항에 있어서, 상기 신규 단어 필터는, 상기 대역쌍이 상기 용어 사전 데이터베이스 또는 대역 사전 데이터베이스에 존재할 경우 상기 대역쌍을 삭제하는 대역어 추출 장치
7 7
실시간으로 RSS(really simple syndication) 뉴스 리스트를 수집하여 그에 대응하는 웹 뉴스를 추출하는 단계와, 상기 추출된 웹 뉴스에서 괄호 및 인용 기호 기반으로 문장을 분리하는 단계와, 상기 분리된 문장에 대해 LCS(longest common substring) 알고리즘을 이용하여 단어 경계를 추출하는 단계와, 상기 추출된 단어 경계에 따라 상기 괄호 내의 대역어를 기준으로 대역쌍을 추출하는 단계와, 상기 추출된 대역쌍에 대한 필터링을 수행한 후에, 대역 사전에 반영하는 단계 를 포함하는 대역어 추출 방법
8 8
제 7 항에 있어서, 상기 웹 뉴스를 추출하는 단계는, 상기 RSS 뉴스 리스트를 수집하는 단계와, 수집된 상기 RSS 뉴스 리스트에서 웹 뉴스 URL 목록을 추출하는 단계와, 상기 추출된 웹 뉴스 URL 목록에서 상기 웹 뉴스를 수집하는 단계와, 상기 수집된 웹 뉴스에서 HTML 태그를 제거하는 단계 를 포함하는 대역어 추출 방법
9 9
제 7 항에 있어서, 상기 단어 경계를 추출하는 단계는, 상기 분리된 문장에서 상기 괄호 내의 불용어를 제거하는 단계와, 상기 괄호 내 좌우 단어쌍을 추출 및 정렬하는 단계와, 상기 괄호에 따른 상기 단어 경계를 추출하는 단계 를 포함하는 대역어 추출 방법
10 10
제 7 항에 있어서, 상기 대역쌍을 추출하는 단계는, 상기 추출된 단어 경계에 따라 상기 괄호 내의 대역어를 기준으로 정렬하는 단계와, 상기 대역어를 기준으로 정렬한 후에, 그 출현 빈도에 따라 상기 대역쌍을 추출하는 단계 를 포함하는 대역어 추출 방법
11 11
제 7 항에 있어서, 상기 대역 사전에 반영하는 단계는, 상기 추출된 대역쌍이 용어 사전 및 대역 사전에 존재하는지의 여부에 따라 상기 대역쌍을 선택 삭제하는 단계와, 상기 대역쌍이 존재하지 않은 경우, 상기 대역쌍에 대한 오류 검사를 수행한 후에, 상기 대역 사전에 반영하는 단계 를 포함하는 대역어 추출 방법
12 12
제 11 항에 있어서, 상기 대역쌍을 선택 삭제하는 단계는, 상기 대역쌍이 상기 용어 사전 또는 대역 사전에 존재할 경우 상기 대역쌍을 삭제하는 대역어 추출 방법
지정국 정보가 없습니다
패밀리정보가 없습니다
순번, 연구부처, 주관기관, 연구사업, 연구과제의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 국가R&D 연구정보 정보 표입니다.
순번 연구부처 주관기관 연구사업 연구과제
1 지식경제부 및 정보통신연구진흥원 한국전자통신연구원 IT성장동력기술개발사업 응용 특화 한중영 자동번역 기술개발