1 |
1
평문과 HTML 태그, 표나 리스트를 포함하는 웹 문서를 대상으로 하는 하이브리드 구조의 기계독해를 위하여,주어진 문서를 토큰화한 후 웹 문서의 구조는 유지하면서 불필요한 HTML 태그를 제거하거나 간소화하는 데이터 전처리부;문서의 평문과 비평문을 구분하여 각각으로부터 정답후보를 추출하는 정답후보 추출부;정답후보에서 최종 정답을 추출하기 위해 정답후보를 순위화하는 정답후보 순위화 처리부;를 포함하는 것을 특징으로 하는 테이블 중심의 웹 문서를 위한 기계독해 시스템
|
2 |
2
제 1 항에 있어서, 상기 정답후보 순위화 처리부는,서술형/단답형 정답 분류를 통해 단답형으로 분류되는 경우 긴 답변을 짧은 답변으로 변환하는 것을 특징으로 하는 테이블 중심의 웹 문서를 위한 기계독해 시스템
|
3 |
3
제 1 항에 있어서, 문서의 구조는 유지하면서 불필요한 태그를 제거하기 위해,003c#p003e#, 003c#ul003e#, 003c#table003e# 태그 안에 존재하는 텍스트 외에 나머지 텍스트들은 제거하고 003c#p003e#, 003c#ul003e#, 003c#table003e# 태그와 관련된 태그들을 토큰 사전에 추가하는 것을 특징으로 하는 테이블 중심의 웹 문서를 위한 기계독해 시스템
|
4 |
4
제 1 항에 있어서, 표의 경우 모든 정보를 토큰화하여 입력으로 사용할 경우 너무 긴 입력을 생성하기 때문에,표의 내용을 대표하는 003c#th003e# 태그 외에 나머지는 제거하고, 학습데이터에서 실제 정답의 시작과 끝을 각각 해당 테이블 태그의 003c#table003e#과 003c#/table003e#로 재설정하는 것을 특징으로 하는 테이블 중심의 웹 문서를 위한 기계독해 시스템
|
5 |
5
제 1 항에 있어서, 상기 정답후보 추출부는,정답이 포함되지 않은 입력은 [CLS]를 정답의 시작과 끝으로 가리키도록 라벨을 설정하고, 평문과 비평문의 정답후보 추출은 정답을 예측하는 FFNN(feed-forward neural network) 2개를 이용하여 처리하는 것을 특징으로 하는 테이블 중심의 웹 문서를 위한 기계독해 시스템
|
6 |
6
제 5 항에 있어서, 첫 번째 FFNN은 답변이 003c#p003e# 태그 내에 존재하거나 문단 전체가 답이 되는 평문 정답만 예측하고, 두 번째 FFNN은 표나 리스트와 같은 비평문 정답을 예측하도록 하는 것을 특징으로 하는 테이블 중심의 웹 문서를 위한 기계독해 시스템
|
7 |
7
제 6 항에 있어서, 비평문 정답이 포함된 경우에는 첫 번째 FFNN이 [CLS]를 정답의 시작과 끝을 예측하도록 하고,반대로 평문 정답의 경우에는 두 번째 FFNN이 [CLS]를 정답의 시작과 끝을 예측하도록 하는 것을 특징으로 하는 테이블 중심의 웹 문서를 위한 기계독해 시스템
|
8 |
8
기계독해 시스템의 정답후보 순위화 처리부가 정답후보를 후처리를 하는 방법에 있어서,(A)각각의 출력함수에서 출력된 정답 중 정답 선택모형에 의해 정답일 확률이 높은 각 상위 2개의 평문 정답과 테이블이나 리스트 정답을 추출하여 정답 후보를 구성하는 단계;(B)서술형/단답형 정답 분류기에서 BERT 모델을 이용하여 질문을 입력으로 받고 해당 질문에 대한 답이 서술형일 확률과 단답형일 확률을 출력하는 단계;(C)빈도수 기반 정답 추출기에서 토큰화된 테이블 헤드와 테이블 데이터를 입력된 질문 토큰을 비교하여 일치하는 토큰의 개수가 많은 테이블 헤드와 테이블 데이터를 선택하여 최종 정답을 추출하는 단계;(D)일치하는 토큰이 없다면 신경망 기반 정답 추출기를 통해서 정답을 추출하는 단계;를 포함하는 것을 특징으로 하는 테이블 중심의 웹 문서를 위한 기계독해 방법
|
9 |
9
제 8 항에 있어서, 상기 (A)단계에서,정답후보 표의 경우 데이터 전처리 과정으로 인해 정답이 표 일부일지라도 테이블 태그 전체가 정답으로 출력되도록 하는 것을 특징으로 하는 테이블 중심의 웹 문서를 위한 기계독해 방법
|
10 |
10
제 8 항에 있어서, 상기 (D)단계에서,신경망 기반 정답 추출기는 BERT 모델에 정답과 테이블 정보가 [SEP]로 구분된 입력을 주고 해당 테이블 헤드 혹은 테이블 정보가 해당 질문에 대한 정답을 포함하고 있을 확률을 출력하도록 하고,학습 데이터는 KorQuAD 2
|