맞춤기술찾기

이전대상기술

PDF 파일을 대상으로 하는 자동 번역 방법

  • 기술번호 : KST2015086374
  • 담당센터 : 대전기술혁신센터
  • 전화번호 : 042-610-2279
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 본 발명은 PDF 파일을 대상으로 하는 자동 번역 방법에 관한 것이다. 본 발명에 따르면, 자동 번역 장치는 입력되는 원시언어 PDF 파일로부터 이미지 변환을 통해 원시언어 텍스트 및 비텍스트를 추출하며, 추출된 원시언어 텍스트를 텍스트 정보로부터 추출한 원시언어 텍스트를 이용해 교정한다. 또한, 추출된 원시언어 텍스트 중에서 비텍스트 등에 의해 문맥적으로 분리된 부분을 복원하고, 원시언어 PDF 파일의 문맥적 흐름에 맞도록 추출된 텍스트 및 비텍스트를 재정렬하여 원시언어 XML/HTML 파일을 생성한다. 이후, 원시언어 XML/HTML 파일의 태그로부터 원시언어 텍스트를 분리한 뒤, 원시언어 PDF 파일에 해당하는 기술 분야에 특화된 번역 지식 및 변환 엔진을 이용하여 목적언어 텍스트를 생성한다. 이렇게 번역된 목적언어 텍스트는 원시언어 텍스트 대신 XML/HTML 파일에 삽입되고, 이에 따라 생성된 목적언어 XML/HTML 파일은 다시 목적언어 PDF 파일로 변환되어 출력된다. 자동 번역, PDF, 기술 도메인, 기술 논문
Int. CL G06F 17/28 (2006.01)
CPC
출원번호/일자 1020070075581 (2007.07.27)
출원인 한국전자통신연구원
등록번호/일자 10-0912502-0000 (2009.08.10)
공개번호/일자 10-2009-0011712 (2009.02.02) 문서열기
공고번호/일자 (20090817) 문서열기
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 등록
심사진행상태 수리
심판사항
구분
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2007.07.27)
심사청구항수 17

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 한국전자통신연구원 대한민국 대전광역시 유성구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 권오욱 대한민국 대전 서구
2 최승권 대한민국 대전 유성구
3 이기영 대한민국 대전 서구
4 노윤형 대한민국 대전 유성구
5 김영길 대한민국 대전 중구
6 김창현 대한민국 대전 유성구
7 서영애 대한민국 대전 유성구
8 양성일 대한민국 대전 유성구
9 황영숙 대한민국 대전 유성구
10 윤창호 중국 대전 유성구
11 박은진 대한민국 부산 부산진구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 유미특허법인 대한민국 서울특별시 강남구 테헤란로 ***, 서림빌딩 **층 (역삼동)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
1 한국전자통신연구원 대한민국 대전광역시 유성구
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2007.07.27 수리 (Accepted) 1-1-2007-0548473-13
2 선행기술조사의뢰서
Request for Prior Art Search
2008.05.07 수리 (Accepted) 9-1-9999-9999999-89
3 선행기술조사보고서
Report of Prior Art Search
2008.06.13 수리 (Accepted) 9-1-2008-0037574-73
4 의견제출통지서
Notification of reason for refusal
2009.04.30 발송처리완료 (Completion of Transmission) 9-5-2009-0184423-29
5 [명세서등 보정]보정서
[Amendment to Description, etc.] Amendment
2009.06.30 보정승인간주 (Regarded as an acceptance of amendment) 1-1-2009-0400497-52
6 [거절이유 등 통지에 따른 의견]의견(답변, 소명)서
[Opinion according to the Notification of Reasons for Refusal] Written Opinion(Written Reply, Written Substantiation)
2009.06.30 수리 (Accepted) 1-1-2009-0400496-17
7 등록결정서
Decision to grant
2009.07.23 발송처리완료 (Completion of Transmission) 9-5-2009-0307073-49
8 출원인정보변경(경정)신고서
Notification of change of applicant's information
2009.08.04 수리 (Accepted) 4-1-2009-5150899-36
9 출원인정보변경(경정)신고서
Notification of change of applicant's information
2015.02.02 수리 (Accepted) 4-1-2015-0006137-44
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
자동 번역 장치에서 원시언어 PDF 파일을 자동 번역하는 방법에 있어서, 상기 원시언어 PDF 파일로부터 원시언어 텍스트를 추출하는 단계; 상기 원시언어 텍스트 중에서 문맥적으로 분리된 본문 문단을 결합하여 상기 원시언어 텍스트를 복원하는 단계; 및 복원된 원시언어 텍스트를 적어도 하나의 문장으로 분류하는 단계; 상기 적어도 하나의 문장에 대한 형태소 분석을 통해 원시언어 구문트리를 생성하는 단계; 상기 원시언어 PDF 파일에 해당하는 기술 분야의 번역 지식 및 변환 패턴을 이용하여 상기 원시언어 구문트리를 목적언어 구문트리로 변환하는 단계; 상기 적어도 하나의 문장에 포함된 원시언어 어휘를 목적언어 어휘로 변환하는 단계; 및 상기 목적언어 구문트리를 기반으로 상기 목적언어 어휘를 나열하여 목적언어 텍스트를 생성하는 단계 를 포함하는 자동 번역 방법
2 2
제 1항에 있어서, 상기 추출하는 단계는, 상기 원시언어 PDF 파일을 이미지 변환하는 단계; 상기 이미지 변환된 원시언어 PDF 파일로부터 제1 원시언어 텍스트를 추출하는 단계; 상기 원시언어 PDF 파일이 텍스트 전자문서 파일인 경우, 상기 원시언어 PDF 파일로부터 제2 원시언어 텍스트를 추출하는 단계; 및 상기 원시언어 PDF 파일이 텍스트 전자문서 파일인 경우, 상기 제1 원시언어 텍스트 및 상기 제2 원시언어 텍스트의 비교를 통해 오류를 교정하여 상기 원시언어 텍스트를 출력하는 단계 를 포함하는 자동 번역 방법
3 3
제 2항에 있어서, 상기 출력하는 단계는, 상기 오류가 문자 중복 오류인 경우 상기 제1 원시언어 텍스트를 상기 원시언어 텍스트로 선택하는 단계; 및 상기 오류가 문자 중복 오류가 아닌 경우 상기 제2 원시언어 텍스트를 상기 원시언어 텍스트로 선택하는 단계 를 포함하는 자동 번역 방법
4 4
제 1항에 있어서, 상기 복원하는 단계는, 상기 원시언어 텍스트를 분석하여 적어도 하나의 텍스트 문단으로 분류하는 단계; 상기 적어도 하나의 텍스트 문단을 적어도 하나의 본문 문단 및 적어도 하나의 비본문 문단으로 분류하는 단계; 상기 원시언어 PDF 파일 내에 수식이 존재하는 경우, 상기 수식을 상기 적어도 하나의 본문 문단 중 상기 수식의 바로 앞 본문 문단과 결합하는 단계; 상기 수식과 결합된 본문 문단을 포함하는 모든 본문 문단에 대하여 문맥적으로 분리되었는지 여부를 판단하는 단계; 문맥적으로 분리된 본문 문단이 있는 경우, 상기 문맥적으로 분리된 본문 문단을 결합하는 단계; 및 상기 결합된 본문 문단을 재정렬하여 상기 원시언어 텍스트를 복원하는 단계 를 포함하는 자동 번역 방법
5 5
제 4항에 있어서, 상기 적어도 하나의 본문 문단 및 적어도 하나의 비본문 문단으로 분류하는 단계는, 상기 적어도 하나의 텍스트 문단 중 머리글, 바닥글, 각주 또는 캡션에 해당하는 텍스트 문단을 상기 적어도 하나의 비본문 문단으로 분류하는 단계 를 포함하고, 상기 적어도 하나의 비본문 문단으로 분류하는 단계는, 상기 원시언어 PDF 파일의 페이지 레이아웃을 벗어나는 위쪽의 텍스트 문단을 상기 머리글로 판단하는 단계; 상기 원시언어 PDF 파일의 페이지 레이아웃을 벗어나는 아래쪽의 텍스트 문단을 상기 바닥글로 판단하는 단계; 상기 바닥글 바로 위에 임의의 라인 줄로 구분되며, 페이지 내의 맨 아래 위치하고 문자열 시작 글자가 위 첨자인 텍스트 문단을 상기 각주로 판단하는 단계; 및 그림이나 표의 바로 아래나 바로 위에 위치하고 그림이나 표를 지정하는 문자열로 시작하는 텍스트 문단을 상기 캡션으로 판단하는 단계 를 포함하는 자동 번역 방법
6 6
제 4항에 있어서, 상기 판단하는 단계는, 상기 적어도 하나의 본문 문단에 대하여 폰트 정보 및 문단 정보에 기초해 문맥적으로 분리되지 않은 본문 문단을 선택하는 단계; 상기 적어도 하나의 본문 문단 중에서 상기 문맥적으로 분리되지 않은 본문 문단을 제외한 나머지 본문 문단에 대하여 문단 검사를 통해 문단의 시작 및 끝 정보를 추출하는 단계; 및 상기 시작 및 끝 정보에 기초해 상기 문맥적으로 분리된 본문 문단을 선택하는 단계 를 포함하는 자동 번역 방법
7 7
삭제
8 8
제 1항에 있어서, 상기 복원된 원시언어 텍스트를 재정렬하여 원시언어 마크업 언어 파일을 생성하는 단계; 및 상기 목적언어 텍스트를 상기 복원된 원시언어 텍스트 대신 상기 원시언어 마크업 언어 파일에 삽입하여 목적언어 마크업 언어 파일을 생성하는 단계 를 더 포함하는 자동 번역 방법
9 9
제 1항 내지 제 6항 중 어느 한 항 또는 제 8항에 기재된 방법을 실행하는 프로그램을 기록한 컴퓨터로 판독 가능한 기록매체
10 10
자동 번역 장치에서 원시언어 PDF 파일을 자동 번역하는 방법에 있어서, 상기 원시언어 PDF 파일의 인쇄정보를 이용하여 상기 원시언어 PDF 파일을 이미지 변환하는 단계; 상기 이미지 변환된 결과로부터 제1 원시언어 텍스트를 추출하는 단계; 상기 원시언어 PDF 파일이 텍스트 전자문서 파일인 경우, 상기 원시언어 PDF 파일의 텍스트 정보로부터 제2 원시언어 텍스트를 추출하는 단계; 상기 원시언어 PDF 파일이 텍스트 전자문서 파일인 경우, 상기 제1 원시언어 텍스트와 상기 제2 원시언어 텍스트를 비교하여 상기 제1 원시언어 텍스트를 교정하는 단계; 및 상기 제1 원시언어 텍스트를 목적언어 텍스트로 번역하는 단계 를 포함하는 자동 번역 방법
11 11
제 10항에 있어서, 상기 교정하는 단계는, 상기 제1 원시언어 텍스트 및 상기 제2 원시언어 텍스트의 비교 결과 다른 문자가 발생한 경우, 상기 제2 원시언어 텍스트의 문자에 중복 오류가 발생한 경우가 아니면, 상기 제1 원시언어 텍스트의 문자를 상기 제2 원시언어 텍스트의 문자로 교정하는 단계 를 포함하는 자동 번역 방법
12 12
제 10항에 있어서, 상기 번역하는 단계는, 상기 제1 원시언어 텍스트 중에서 비텍스트, 바닥글, 머리글, 각주 및 캡션 중 적어도 하나에 의해 분리된 문단을 결합하여 상기 제1 원시언어 텍스트를 복원하는 단계; 및 상기 원시언어 PDF 파일에 해당하는 기술 분야에 특화된 번역 지식 및 변환 패턴을 이용해 상기 제1 원시언어 텍스트를 상기 목적언어 텍스트로 변환하는 단계 를 포함하는 자동 번역 방법
13 13
자동 번역 장치에서 원시언어 PDF 파일을 자동 번역하는 방법에 있어서, 상기 원시언어 PDF 파일로부터 원시언어 텍스트 및 비텍스트를 추출하는 단계; 상기 원시언어 텍스트 중에서 문맥적으로 분리된 문단을 결합하여 상기 원시언어 텍스트를 복원하는 단계; 복원한 상기 원시언어 텍스트 및 상기 비텍스트를 상기 원시언어 PDF 파일의 문맥적 흐름에 기초해 재정렬하여 원시언어 마크업 언어 파일을 생성하는 단계; 및 상기 복원한 원시언어 텍스트를 목적언어 텍스트로 번역하여 목적언어 마크업 언어 파일을 생성하는 단계 를 포함하는 자동 번역 방법
14 14
제 13항에 있어서, 상기 목적언어 마크업 언어 파일을 목적언어 전자문서 파일로 변환하는 단계 를 더 포함하는 자동 번역 방법
15 15
제 13항에 있어서, 상기 추출하는 단계는, 이미지 변환을 통해 상기 원시언어 PDF 파일로부터 상기 원시언어 텍스트를 추출하는 단계; 상기 원시언어 PDF 파일이 텍스트 전자문서 파일인 경우, 상기 원시언어 PDF 파일에 포함된 텍스트 정보로부터 추출한 텍스트를 상기 원시언어 텍스트와 비교하여, 상기 텍스트 정보로부터 추출한 텍스트의 문자 중복 오류를 제외한 오류가 발생한 경우 상기 원시언어 텍스트를 교정하는 단계 를 포함하는 자동 번역 방법
16 16
제 13항에 있어서, 상기 복원하는 단계는, 상기 원시언어 텍스트를 분석하여 적어도 하나의 텍스트 문단으로 분류하는 단계; 상기 적어도 하나의 텍스트 문단을 적어도 하나의 본문 문단 및 적어도 하나의 비본문 문단으로 분류하는 단계; 상기 적어도 하나의 본문 문단 중 상기 비텍스트 및 상기 적어도 하나의 비본문 문단 중 적어도 하나에 의해 분리된 본문 문단을 결합하는 단계; 및 결합된 본문 문단 재정렬하여 상기 원시언어 텍스트를 복원하는 단계 를 포함하는 자동 번역 방법
17 17
제 13항에 있어서, 상기 목적언어 마크업 언어 파일을 생성하는 단계는, 상기 원시언어 마크업 언어 파일의 태그로부터 상기 원시언어 텍스트를 분리하는 단계; 상기 원시언어 텍스트를 상기 목적언어 텍스트로 번역하는 단계; 및 상기 원시언어 텍스트 대신 상기 목적언어 텍스트를 상기 원시언어 마크업 언어 파일의 태그에 삽입하여 상기 목적언어 마크업 언어 파일을 생성하는 단계 를 포함하는 자동 번역 방법
18 18
제 13항에 있어서, 상기 목적언어 텍스트로 번역하는 단계는, 상기 원시언어 PDF 파일에 해당하는 기술 분야에 특화된 변환 패턴을 이용해 상기 원시언어 텍스트를 목적언어 구문트리로 변환하는 단계; 상기 원시언어 PDF 파일에 해당하는 기술 분야에 특화된 번역 사전을 이용해 상기 원시언어 텍스트의 어휘를 목적언어 어휘로 변환하는 단계; 및 상기 목적언어 어휘를 상기 목적언어 구문트리에 기초해 나열하여 상기 목적언어 텍스트를 생성하는 단계 를 포함하는 자동 번역 방법
지정국 정보가 없습니다
순번, 패밀리번호, 국가코드, 국가명, 종류의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 패밀리정보 - 패밀리정보 표입니다.
순번 패밀리번호 국가코드 국가명 종류
1 US08108202 US 미국 FAMILY
2 US20090030671 US 미국 FAMILY

DOCDB 패밀리 정보

순번, 패밀리번호, 국가코드, 국가명, 종류의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 패밀리정보 - DOCDB 패밀리 정보 표입니다.
순번 패밀리번호 국가코드 국가명 종류
1 US2009030671 US 미국 DOCDBFAMILY
2 US8108202 US 미국 DOCDBFAMILY
순번, 연구부처, 주관기관, 연구사업, 연구과제의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 국가R&D 연구정보 정보 표입니다.
순번 연구부처 주관기관 연구사업 연구과제
1 정보통신부 한국전자통신연구원 IT신성장동력핵심기술개발사업 응용 특화 한중영 자동번역 기술개발