1 |
1
도메인 및 주제에 따라 텍스트 데이터를 수집하는 도메인 선별 텍스트 수집부;수집된 텍스트 데이터를 이용하여 단락을 선정하고, 질문 및 정답을 생성할 수 있는지 여부를 판단하는 단락 선정부; 및선별된 단락에서 질문과 정답을 생성하는 질문 및 정답 생성부를 포함하는 기계 독해 학습 데이터 자동 생성 장치
|
2 |
2
제1항에 있어서, 상기 도메인 선별 텍스트 수집부는 딥러닝 학습에 사용된 데이터 분포 분석 결과 및 사용자의 질의 로그 분석 결과 중 적어도 어느 하나를 이용하여 판단된 추가 학습 필요 도메인에 관한 원시 텍스트 데이터를 수집하는 것인 기계 독해 학습 데이터 자동 생성 장치
|
3 |
3
제1항에 있어서, 상기 도메인 선별 텍스트 수집부는 상기 수집된 텍스트 데이터를 도메인에 따라 분류하는 것인 기계 독해 학습 데이터 자동 생성 장치
|
4 |
4
제1항에 있어서, 상기 단락 선정부는 수집된 텍스트에서 문서의 특성에 따라 구조적으로 단락을 구분하거나, 상기 텍스트를 개별 문장으로 분리 후 결합하여 단락을 구성하는 것인 기계 독해 학습 데이터 자동 생성 장치
|
5 |
5
제1항에 있어서, 상기 단락 선정부는 정보성 및 완성도 중 적어도 어느 하나를 확인하여 질문 및 정답을 생성할 수 있는지 여부를 판단하는 것인 기계 독해 학습 데이터 자동 생성 장치
|
6 |
6
제5항에 있어서, 상기 단락 선정부는 단락 내 사용된 어휘의 품사들의 종류를 고려하여 상기 정보성을 확인하는 것인 기계 독해 학습 데이터 자동 생성 장치
|
7 |
7
제6항에 있어서, 상기 단락 선정부는 내용어에 속하는 품사와 기능어 품사의 비율을 고려하여 상기 정보성을 확인하는 것인 기계 독해 학습 데이터 자동 생성 장치
|
8 |
8
제6항에 있어서, 상기 단락 선정부는 의존 구문 분석 결과를 이용하여 상기 완성도를 확인하는 것인 기계 독해 학습 데이터 자동 생성 장치
|
9 |
9
제8항에 있어서, 상기 단락 선정부는 주어, 목적어, 동사를 포함하는 주요 성분의 포함 정도를 고려하여 상기 완성도를 확인하는 것인 기계 독해 학습 데이터 자동 생성 장치
|
10 |
10
제1항에 있어서, 상기 질문 및 정답 생성부는 의미역 인식을 활용하여 질문 및 정답을 생성하는 것인 기계 독해 학습 데이터 자동 생성 장치
|
11 |
11
제10항에 있어서, 상기 질문 및 정답 생성부는 특정 의미역을 공백으로 두고 평서문을 의문문으로 변경하여 상기 질문을 생성하고, 공백으로 변경한 상기 특정 의미역을 상기 정답으로 사용하여, 상기 질문 및 정답을 자동 생성하는 것인 기계 독해 학습 데이터 자동 생성 장치
|
12 |
12
제11항에 있어서, 상기 질문 및 정답 생성부는 의미역 표지에 관한 레이블을 이용하여 상기 질문 및 정답을 자동 생성하는 것인 기계 독해 학습 데이터 자동 생성 장치
|
13 |
13
제1항에 있어서, 상기 생성된 질문 및 정답을 저장 및 관리하는 데이터 관리부를 더 포함하고, 상기 데이터 관리부는 질의응답 시스템에 사용 중인 모델을 학습한 데이터에 대한 카테고리 별 분류 결과를 제공하는 것인 기계 독해 학습 데이터 자동 생성 장치
|
14 |
14
(a) 텍스트 데이터를 선별하여 수집하는 단계; (b) 상기 수집된 텍스트 데이터를 이용하여 단락을 선정하고, 충분한 정보가 들어 있는지 여부, 오타 또는 불완전 문장이 있는지 여부를 확인하여 상기 단락을 선별하는 단계; 및(c) 상기 선별된 단락을 이용하여 의미 분석을 통해 질문 및 정답 쌍을 자동으로 추출하는 단계를 포함하는 기계 독해 학습 데이터 자동 생성 방법
|
15 |
15
제14항에 있어서, 상기 (b) 단계는 길이 적정성, 정보성 및 완성도를 확인하여 상기 단락을 선별하되, 상기 단락 내 품사들의 비율을 고려하여 상기 정보성을 확인하고, 의존 구문 분석 결과를 이용하여 상기 완성도를 확인하는 것인 기계 독해 학습 데이터 자동 생성 방법
|
16 |
16
제14항에 있어서, 상기 (c) 단계는 의미역 표지에 관한 레이블을 참조하여 특정 의미역을 공백으로 두고 의문문을 생성하고, 상기 특정 의미역을 상기 정답으로 생성하여, 상기 질문 및 정답을 자동 추출하는 것인 기계 독해 학습 데이터 자동 생성 방법
|
17 |
17
웹 기반으로 텍스트를 수집하는 입력부; 상기 텍스트를 이용하여 기계 독해 학습 데이터를 생성하는 프로그램이 저장된 메모리; 및상기 프로그램을 실행시키는 프로세서를 포함하고, 상기 프로세서는 수집된 상기 텍스트를 이용하여 질문 및 정답의 생성 가능 여부를 판단하고, 선별된 텍스트를 이용하여 질문 및 정답을 자동 생성하는 것인 기계 독해 학습 데이터 자동 생성 시스템
|
18 |
18
제17항에 있어서, 상기 입력부는 딥러닝 학습에 사용된 데이터 분석 결과 및 사용자의 질의 로그 분석 결과 중 적어도 어느 하나를 이용하여 분석된 추가 학습 필요 도메인에 관한 상기 텍스트를 수집하는 것인 기계 독해 학습 데이터 자동 생성 시스템
|
19 |
19
제17항에 있어서, 상기 프로세서는 상기 텍스트에서 구조적으로 단락을 구분하거나, 개별 문장으로 분리 후 결합하여 단락을 선정하고, 상기 단락의 정보성 및 완성도를 확인하여 상기 질문 및 정답의 생성 가능 여부를 판단하는 것인 기계 독해 학습 데이터 자동 생성 시스템
|
20 |
20
제19항에 있어서, 상기 프로세서는 상기 단락 내 사용된 어휘의 품사들의 종류를 고려하여 상기 정보성을 확인하고, 의존 구문 분석 결과를 이용하여 상기 완성도를 확인하며, 의미역 인식을 활용하여 상기 질문 및 정답을 자동 생성하는 것인 기계 독해 학습 데이터 자동 생성 시스템
|