기술이전플랫폼 Tech-Bridge-이전대상기술

맞춤기술찾기

홈으로 가기

맞춤기술찾기

이전대상기술

프린트하기

이전대상기술

테이블 중심의 웹 문서를 위한 기계독해 시스템 및 방법

기술번호 : KST2021008424
담당센터 : 부산기술혁신센터
전화번호 : 051-606-6561

상담신청 PDF 받기

상세정보
공개전문
공고전문
등록사항
통합행정정보
기술정보
과제정보
관련기술
심판사항

서지정보
인명정보
행정처리
청구항
지정국
패밀리정보
국가R&D 연구정보

이전 슬라이드 보기 다음 슬라이드 보기

요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약	본 발명은 평문뿐만 아니라 표와 같이 일정한 형식을 갖춘 데이터를 HTML 태그로 기술한 웹 문서를 효율적으로 독해할 수 있도록 한 테이블 중심의 웹 문서를 위한 기계독해 시스템 및 방법에 관한 것으로, 평문과 HTML 태그, 표나 리스트를 포함하는 웹 문서를 대상으로 하는 하이브리드 구조의 기계독해를 위하여, 주어진 문서를 토큰화한 후 웹 문서의 구조는 유지하면서 불필요한 HTML 태그를 제거하거나 간소화하는 데이터 전처리부;문서의 평문과 비평문을 구분하여 각각으로부터 정답후보를 추출하는 정답후보 추출부;정답후보에서 최종 정답을 추출하기 위해 정답후보를 순위화하는 정답후보 순위화 처리부;를 포함하는 것이다.
Int. CL	G06F 16/33 (2019.01.01) G06F 16/338 (2019.01.01) G06F 16/35 (2019.01.01) G06F 16/2457 (2019.01.01) G06F 40/143 (2020.01.01) G06N 3/02 (2019.01.01)
CPC
출원번호/일자	1020200175773 (2020.12.15)
출원인	부산대학교 산학협력단
등록번호/일자
공개번호/일자	10-2021-0076871 (2021.06.24) 문서열기
공고번호/일자
국제출원번호/일자
국제공개번호/일자
우선권정보	대한민국 \| 1020190167891 \| 2019.12.16
법적상태	공개
심사진행상태	수리
심판사항
구분	국내출원/신규
원출원번호/일자
관련 출원번호
심사청구여부/일자	Y (2020.12.15)
심사청구항수	10

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호	이름	국적	주소
1	부산대학교 산학협력단	대한민국	부산광역시 금정구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호	이름	국적	주소
1	권혁철		부산광역시 금정구
2	김민호		부산광역시 금정구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호	이름	국적	주소
1	오위환	대한민국	서울특별시 서초구 강남대로길 , *층 (반포동, 새로나빌딩)(스카이특허법률사무소)
2	정기택	대한민국	서울특별시 서초구 강남대로길 , *층 (반포동, 새로나빌딩)(스카이특허법률사무소)
3	나성곤	대한민국	서울특별시 서초구 강남대로길 , *층 (반포동, 새로나빌딩)(스카이특허법률사무소)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호	이름	국적	주소
최종권리자 정보가 없습니다

번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호	서류명	접수/발송일자	처리상태	접수/발송번호
1	[특허출원]특허출원서 [Patent Application] Patent Application	2020.12.15	수리 (Accepted)	1-1-2020-1363432-86

번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호	청구항
1	1 평문과 HTML 태그, 표나 리스트를 포함하는 웹 문서를 대상으로 하는 하이브리드 구조의 기계독해를 위하여,주어진 문서를 토큰화한 후 웹 문서의 구조는 유지하면서 불필요한 HTML 태그를 제거하거나 간소화하는 데이터 전처리부;문서의 평문과 비평문을 구분하여 각각으로부터 정답후보를 추출하는 정답후보 추출부;정답후보에서 최종 정답을 추출하기 위해 정답후보를 순위화하는 정답후보 순위화 처리부;를 포함하는 것을 특징으로 하는 테이블 중심의 웹 문서를 위한 기계독해 시스템
2	2 제 1 항에 있어서, 상기 정답후보 순위화 처리부는,서술형/단답형 정답 분류를 통해 단답형으로 분류되는 경우 긴 답변을 짧은 답변으로 변환하는 것을 특징으로 하는 테이블 중심의 웹 문서를 위한 기계독해 시스템
3	3 제 1 항에 있어서, 문서의 구조는 유지하면서 불필요한 태그를 제거하기 위해,003c#p003e#, 003c#ul003e#, 003c#table003e# 태그 안에 존재하는 텍스트 외에 나머지 텍스트들은 제거하고 003c#p003e#, 003c#ul003e#, 003c#table003e# 태그와 관련된 태그들을 토큰 사전에 추가하는 것을 특징으로 하는 테이블 중심의 웹 문서를 위한 기계독해 시스템
4	4 제 1 항에 있어서, 표의 경우 모든 정보를 토큰화하여 입력으로 사용할 경우 너무 긴 입력을 생성하기 때문에,표의 내용을 대표하는 003c#th003e# 태그 외에 나머지는 제거하고, 학습데이터에서 실제 정답의 시작과 끝을 각각 해당 테이블 태그의 003c#table003e#과 003c#/table003e#로 재설정하는 것을 특징으로 하는 테이블 중심의 웹 문서를 위한 기계독해 시스템
5	5 제 1 항에 있어서, 상기 정답후보 추출부는,정답이 포함되지 않은 입력은 [CLS]를 정답의 시작과 끝으로 가리키도록 라벨을 설정하고, 평문과 비평문의 정답후보 추출은 정답을 예측하는 FFNN(feed-forward neural network) 2개를 이용하여 처리하는 것을 특징으로 하는 테이블 중심의 웹 문서를 위한 기계독해 시스템
6	6 제 5 항에 있어서, 첫 번째 FFNN은 답변이 003c#p003e# 태그 내에 존재하거나 문단 전체가 답이 되는 평문 정답만 예측하고, 두 번째 FFNN은 표나 리스트와 같은 비평문 정답을 예측하도록 하는 것을 특징으로 하는 테이블 중심의 웹 문서를 위한 기계독해 시스템
7	7 제 6 항에 있어서, 비평문 정답이 포함된 경우에는 첫 번째 FFNN이 [CLS]를 정답의 시작과 끝을 예측하도록 하고,반대로 평문 정답의 경우에는 두 번째 FFNN이 [CLS]를 정답의 시작과 끝을 예측하도록 하는 것을 특징으로 하는 테이블 중심의 웹 문서를 위한 기계독해 시스템
8	8 기계독해 시스템의 정답후보 순위화 처리부가 정답후보를 후처리를 하는 방법에 있어서,(A)각각의 출력함수에서 출력된 정답 중 정답 선택모형에 의해 정답일 확률이 높은 각 상위 2개의 평문 정답과 테이블이나 리스트 정답을 추출하여 정답 후보를 구성하는 단계;(B)서술형/단답형 정답 분류기에서 BERT 모델을 이용하여 질문을 입력으로 받고 해당 질문에 대한 답이 서술형일 확률과 단답형일 확률을 출력하는 단계;(C)빈도수 기반 정답 추출기에서 토큰화된 테이블 헤드와 테이블 데이터를 입력된 질문 토큰을 비교하여 일치하는 토큰의 개수가 많은 테이블 헤드와 테이블 데이터를 선택하여 최종 정답을 추출하는 단계;(D)일치하는 토큰이 없다면 신경망 기반 정답 추출기를 통해서 정답을 추출하는 단계;를 포함하는 것을 특징으로 하는 테이블 중심의 웹 문서를 위한 기계독해 방법
9	9 제 8 항에 있어서, 상기 (A)단계에서,정답후보 표의 경우 데이터 전처리 과정으로 인해 정답이 표 일부일지라도 테이블 태그 전체가 정답으로 출력되도록 하는 것을 특징으로 하는 테이블 중심의 웹 문서를 위한 기계독해 방법
10	10 제 8 항에 있어서, 상기 (D)단계에서,신경망 기반 정답 추출기는 BERT 모델에 정답과 테이블 정보가 [SEP]로 구분된 입력을 주고 해당 테이블 헤드 혹은 테이블 정보가 해당 질문에 대한 정답을 포함하고 있을 확률을 출력하도록 하고,학습 데이터는 KorQuAD 2

순번, 연구부처, 주관기관, 연구사업, 연구과제의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 국가R&D 연구정보 정보 표입니다.
순번	연구부처	주관기관	연구사업	연구과제
1	과학기술정보통신부	부산대학교 산학협력단	정보통신기술인력양성(R＆D)	IoT 및 지능정보 기반 동남권 제조 IT 기술 혁신 및 인재양성

본 '원본보기 서비스'는 참고용이므로, 일부 오류 및 누락이 발생할 수 있습니다.
정확한 서류를 확인하시려면 해당 웹사이트에서 조회하시기 바랍니다. (특허로 바로가기: http://www.patent.go.kr)
해당 서비스는 점검으로 인해 매주 일요일 00:00 ~ 02:00까지 이용이 중단됩니다.

번호, 서류명, 접수/발송일자, 처리상태, 접수/발송번호의 정보를 제공하는 이전대상기술 뷰 페이지 통합행정정보 > 등록료란 표입니다.
번호	서류명	접수/발송일자	처리상태	접수/발송번호
1	[특허출원]특허출원서	2020.12.15	수리 (Accepted)	1-1-2020-1363432-86

중요키워드

이전대상기술 뷰 페이지 관련기술 표
[KST2019008407][부산대학교]	하천에서의 홍수범람 대응 관리 방법 및 하천에서의 홍수범람 대응 관리 시스템	새창보기
[KST2018006789][부산대학교]	가정용 에너지 관리 시스템에서의 수용가의 가전기기 자동 설정 방법(Method for household appliances auto configuration in home energy management system)	새창보기
[KST2022022275][부산대학교]	비적대적 패치 생성 방법 및 시스템	새창보기
[KST2022007703][부산대학교]	정형 및 비정형 및 반정형 정보를 사용한 표에 특화된 기계독해 시스템 및 방법	새창보기
[KST2020014662][부산대학교]	지역 색인을 이용한 전자문서 검색 방법 및 장치	새창보기
[KST2022000232][부산대학교]	마스크 언어 모형을 이용한 문맥의존 철자오류 교정 장치 및 방법	새창보기

의뢰할 수요기술을 선택합니다

담당자명, 주소, 이메일, 연락처, 내용, 파일선택의 정보를 제공하는 도입희망기술 뷰 페이지 의뢰하기 입력표입니다.
담당자명		활동구분※필수입력항목
이메일		연락처	- -
내용
파일선택	파일선택