맞춤기술찾기

이전대상기술

다중-언어 코퍼스를 이용하여 기계번역 하는 방법 및 이를 구현한 시스템

  • 기술번호 : KST2021003200
  • 담당센터 : 서울서부기술혁신센터
  • 전화번호 : 02-6124-6930
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 기계번역 시스템이 언어를 기계번역 하는 방법으로서, 기계번역 모듈을 학습시키기 위한 특정 소스 언어와 특정 타깃 언어를 입력 받으면, 복수의 소스 언어들과 복수의 타깃 언어들로 작성된 다중-언어 병렬 코퍼스 후보군 중, 소스 언어가 수신한 특정 소스 언어이거나 타깃 언어가 수신한 특정 타깃 언어인 복수의 후보 병렬 코퍼스들을 선택한다. 복수의 후보 병렬 코퍼스들에 포함된 문장들 중, 각 소스 문장이 번역된 타깃 언어에 해당하는 태그를 각 소스 문장에 삽입하고, 태그가 삽입된 소스 문장과 소스 문장이 번역된 타깃 문장을 포함하는 학습 데이터를 이용하여 각 소스 문장이 삽입된 태그에 따라 타깃 문장으로 번역되도록 저자원 기계번역 모듈을 학습시킨다.
Int. CL G06F 40/58 (2020.01.01) G06F 40/205 (2020.01.01)
CPC
출원번호/일자 1020200071529 (2020.06.12)
출원인 서강대학교산학협력단
등록번호/일자
공개번호/일자 10-2021-0035721 (2021.04.01) 문서열기
공고번호/일자
국제출원번호/일자
국제공개번호/일자
우선권정보 대한민국  |   1020190117587   |   2019.09.24
법적상태 공개
심사진행상태 수리
심판사항
구분
원출원번호/일자
관련 출원번호
심사청구여부/일자 N
심사청구항수 12

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 서강대학교산학협력단 대한민국 서울특별시 마포구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 서정연 서울특별시 서초구
2 허광호 서울특별시 마포구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 유미특허법인 대한민국 서울특별시 강남구 테헤란로 ***, 서림빌딩 **층 (역삼동)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
최종권리자 정보가 없습니다
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2020.06.12 수리 (Accepted) 1-1-2020-0606249-81
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
기계번역 시스템이 임의의 문장을 기계번역 하는 방법으로서,기계번역 모듈을 학습시키기 위한 특정 소스 언어와 특정 타깃 언어를 입력 받는 단계,복수의 소스 언어들과 복수의 타깃 언어들로 작성된 다중-언어 병렬 코퍼스 후보군 중, 소스 언어가 상기 수신한 특정 소스 언어이거나 타깃 언어가 상기 수신한 특정 타깃 언어인 복수의 후보 병렬 코퍼스들을 선택하는 단계,상기 복수의 후보 병렬 코퍼스들에 포함된 문장들 중, 각 소스 문장이 번역된 타깃 언어에 해당하는 태그를 각 소스 문장에 삽입하고, 태그가 삽입된 소스 문장과 상기 소스 문장이 번역된 타깃 문장을 포함하는 학습 데이터를 생성하는 단계, 그리고상기 학습 데이터를 이용하여 각 소스 문장이 삽입된 태그에 따라 상기 타깃 문장으로 번역되도록 저자원 기계번역 모듈을 학습시키는 단계를 포함하는, 기계번역 방법
2 2
제1항에 있어서,상기 후보 병렬 코퍼스들을 선택하는 단계는,상기 복수의 다중-언어 병렬 코퍼스 후보군 중 소스 언어가 상기 특정 소스 언어에 해당하는 다중-언어 병렬 코퍼스들과, 타깃 언어가 상기 특정 타깃 언어에 해당하는 다중-언어 병렬 코퍼스들을 상기 후보 병렬 코퍼스들로 선택하는, 기계번역 방법
3 3
제2항에 있어서,상기 학습 데이터를 생성하는 단계는,상기 후보 병렬 코퍼스들에 포함된 소스 문장들에서 단어들을 분리하는 단계를 더 포함하는, 기계번역 방법
4 4
제3항에 있어서,상기 단어들을 분리하는 단계 이후에,상기 분리된 단어들을 하위 단어 인코딩하는 단계를 포함하고,상기 하위 단어 인코딩은 BPE(Byte Pair Encoding) 알고리즘을 이용하여 인코딩하는, 기계번역 방법
5 5
제1항에 있어서,상기 학습 데이터를 생성하는 단계는,상기 후보 병렬 코퍼스들에 포함된 문장들을 병합하는 단계를 더 포함하는, 기계번역 방법
6 6
제1항에 있어서,상기 기계번역 모듈은,상기 소스 문장을 의미 벡터로 변환하도록 학습된 인코더와,상기 의미 벡터를 이용하여 상기 타깃 언어로 작성된 문장을 생성하도록 학습된 디코더를 포함하는, 기계번역 방법
7 7
제1항에 있어서,상기 기계번역 모듈을 학습시키는 단계 이후에,상기 특정 소스 언어로 작성된 임의의 문장과, 상기 문장을 번역할 상기 특정 타깃 언어에 대한 언어 정보를 수신하는 단계, 그리고상기 임의의 문장을 학습된 기계번역 모듈을 이용하여 상기 번역할 타깃 언어로 작성된 문장으로 번역하는 단계를 포함하는, 기계번역 방법
8 8
제7항에 있어서,상기 언어 정보를 수신하는 단계는,상기 특정 소스 언어에 대한 언어 정보도 추가로 수신하는, 기계번역 방법
9 9
문장을 기계 번역하는 시스템으로서,복수의 다중-언어 병렬 코퍼스들이 저장되어 있는 스토리지,외부로부터 특정 소스 언어 정보와 특정 타깃 언어 정보를 수신하는 인터페이스, 그리고프로세서를 포함하고,상기 프로세서는,상기 수신한 특정 소스 언어 정보와 특정 타깃 언어 정보를 토대로 상기 복수의 다중-언어 병렬 코퍼스들 중 후보 병렬 코퍼스를 추출하고, 추출한 후보 병렬 코퍼스를 구성하는 소스 문장들 각각에 각 소스 문장이 번역된 타깃 언어의 태그를 삽입하고, 태그가 삽입된 각 소스 문장과 상기 각 소스 문장이 번역된 타깃 문장들을 이용하여 기계번역 모듈을 학습시키고, 학습된 기계번역 모듈에 상기 수신한 소스 언어 정보에 대응하는 소스 언어로 작성된 소스 문장을 입력하여 상기 타깃 언어 정보에 대응하는 타깃 언어로 번역하는, 기계번역 시스템
10 10
제9항에 있어서,상기 프로세서는,상기 복수의 다중-언어 병렬 코퍼스 후보군들 중 소스 언어가 상기 수신한 소스 언어에 해당하는 다중-언어 병렬 코퍼스들과, 타깃 언어가 상기 수신한 타깃 언어에 해당하는 다중-언어 병렬 코퍼스들을 상기 후보 병렬 코퍼스들로 선택하는, 기계번역 시스템
11 11
제10항에 있어서,상기 프로세서는,상기 후보 병렬 코퍼스들에 포함된 소스 문장들에서 단어들을 분리하고, 상기 분리된 단어들을 하위 단어 인코딩하는, 기계번역 시스템
12 12
제11항에 있어서,상기 프로세서는,상기 후보 병렬 코퍼스들에 포함된 문장들을 병합하는, 기계번역 시스템
지정국 정보가 없습니다
패밀리정보가 없습니다
순번, 연구부처, 주관기관, 연구사업, 연구과제의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 국가R&D 연구정보 정보 표입니다.
순번 연구부처 주관기관 연구사업 연구과제
1 과학기술정보통신부 전자부품연구원 정보통신·방송 연구개발 (지능정보-총괄/1세부) 자율지능 디지털 동반자 프레임워크 및 응용 연구개발