맞춤기술찾기

이전대상기술

유사 텍스트를 포함한 웹 페이지 수집을 위한 포털 사이트 기반 웹 크롤링 방법 및 장치(METHOD AND APPARATUS FOR COLLECTING WEB PAGE BY WEB CLAWLING BASED POTAL INCLUDING SIMILAR TEXT)

  • 기술번호 : KST2018001475
  • 담당센터 : 서울동부기술혁신센터
  • 전화번호 : 02-2155-3662
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 본 발명은 유사 텍스트를 포함한 웹 페이지 수집을 위한 포털 사이트 기반 웹 크롤링 방법 및 장치에 관한 발명이며, 본 발명의 일 실시예에 따른 웹 크롤링 방법은 핵심어를 포함한 제1 웹 페이지에 포함된 제2 웹 페이지의 위치를 나타내는 제2 URL 및 2 웹 페이지에 포함된 텍스트를 추출하는 단계, 제2 웹 페이지에 포함된 제3 웹 페이지의 위치를 나타내는 제3 URL을 추출하는 단계, 제1 URL과 제2 URL이 유사한지에 대한 URL 유사도 또는 핵심어와 제2 웹 페이지에 포함된 텍스트가 유사한지에 대한 페이지 유사도를 측정하는 단계, 측정한 URL 유사도 또는 페이지 유사도를 기초로 제3 URL들의 유효 여부를 결정하는 단계 및 결정된 유효 여부에 기초하여 제3 웹 페이지를 수집하는 단계를 포함하고, URL 유사도 및 페이지 유사도를 측정하여 유사한 텍스트를 검색하기 위해 입력된 텍스트를 가장 유사하게 포함한 웹 페이지를 제공할 수 있는 포털 사이트 기반 웹 크롤링 방법 및 장치를 제공할 수 있는 효과가 있다.
Int. CL G06F 17/30 (2016.09.02) G06F 17/27 (2016.09.02)
CPC G06F 16/951(2013.01) G06F 16/951(2013.01)
출원번호/일자 1020160096253 (2016.07.28)
출원인 건국대학교 산학협력단
등록번호/일자
공개번호/일자 10-2018-0013095 (2018.02.07) 문서열기
공고번호/일자 문서열기
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 등록
심사진행상태 수리
심판사항
구분 신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2016.07.28)
심사청구항수 16

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 건국대학교 산학협력단 대한민국 서울특별시 광진구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 민덕기 대한민국 서울특별시 서초구
2 오준 대한민국 경기도 성남시 분당구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 특허법인인벤싱크 대한민국 서울특별시 강남구 언주로 ***, *층 (역삼동, 아레나빌딩)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
1 건국대학교 산학협력단 대한민국 서울특별시 광진구
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2016.07.28 수리 (Accepted) 1-1-2016-0736005-91
2 의견제출통지서
Notification of reason for refusal
2017.05.19 발송처리완료 (Completion of Transmission) 9-5-2017-0352022-42
3 [거절이유 등 통지에 따른 의견]의견(답변, 소명)서
[Opinion according to the Notification of Reasons for Refusal] Written Opinion(Written Reply, Written Substantiation)
2017.07.19 수리 (Accepted) 1-1-2017-0690414-28
4 [명세서등 보정]보정서
[Amendment to Description, etc.] Amendment
2017.07.19 보정승인간주 (Regarded as an acceptance of amendment) 1-1-2017-0690421-48
5 의견제출통지서
Notification of reason for refusal
2017.11.30 발송처리완료 (Completion of Transmission) 9-5-2017-0839475-44
6 [명세서등 보정]보정서
[Amendment to Description, etc.] Amendment
2018.01.31 보정승인간주 (Regarded as an acceptance of amendment) 1-1-2018-0108537-29
7 [거절이유 등 통지에 따른 의견]의견(답변, 소명)서
[Opinion according to the Notification of Reasons for Refusal] Written Opinion(Written Reply, Written Substantiation)
2018.01.31 수리 (Accepted) 1-1-2018-0108529-64
8 등록결정서
Decision to grant
2018.06.21 발송처리완료 (Completion of Transmission) 9-5-2018-0422158-52
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
핵심어를 포함한 제1 웹 페이지에 포함된 제2 웹 페이지의 위치를 나타내는 제2 URL 및 상기 제2 웹 페이지에 포함된 텍스트를 추출하는 단계;상기 제2 웹 페이지에 포함된 제3 웹 페이지의 위치를 나타내는 제3 URL을 추출하는 단계; 상기 제1 웹페이지의 위치를 나타내는 제1 URL과 상기 제2 URL이 유사한지에 대한 URL 유사도 또는 상기 핵심어와 상기 제2 웹 페이지에 포함된 텍스트가 유사한지에 대한 페이지 유사도를 측정하는 단계;측정한 상기 URL 유사도 또는 상기 페이지 유사도를 기초로 제3 URL들의 유효 여부를 결정하는 단계; 및결정된 상기 유효 여부에 기초하여 상기 제3 웹 페이지를 수집하는 단계를 포함하는, 유사 텍스트를 포함한 웹 페이지 수집을 위한 포털 사이트 기반 웹 크롤링 방법
2 2
제1항에 있어서,상기 제2 웹페이지에 포함된 텍스트를 추출하는 단계 이전에 웹페이지에 존재하는 유사한 텍스트를 검색하기 위해 사용자로부터 수신된 텍스트의 상기 핵심어를 추출하는 단계를 더 포함하는, 유사 텍스트 수집을 위한 포털 사이트 기반 웹 크롤링 방법
3 3
제2항에 있어서,상기 핵심어를 추출하는 단계는,상기 텍스트에 포함된 단어 또는 적어도 두 개의 단어를 포함하는 구절을 추출하는 단계인, 유사 텍스트 수집을 위한 포털 사이트 기반 웹 크롤링 방법
4 4
제1항에 있어서,상기 페이지 유사도를 측정하는 단계는,상기 제2 웹 페이지에 포함된 텍스트에 상기 핵심어가 포함된 비율을 측정하는 단계를 포함하고,상기 제3 URL들의 유효 여부를 결정하는 단계는,측정된 상기 비율과 미리 결정된 비율을 기초로 상기 제3 URL들의 유효 여부를 결정하는 단계를 포함하는, 유사 텍스트 수집을 위한 포털 사이트 기반 웹 크롤링 방법
5 5
제1항에 있어서,수집된 상기 제3 웹 페이지의 위치를 나타내는 상기 제3 URL을 포함하고 상기 제2 URL을 더 포함한 상기 제2 URL의 유사도 순위 관리를 위한 URL 세트를 생성하는 단계를 더 포함하는, 유사 텍스트 수집을 위한 포털 사이트 기반 웹 크롤링 방법
6 6
제5항에 있어서,상기 순위 중 가장 높은 순위의 상기 URL 세트를 다음 수집을 위해 제공하는 단계를 더 포함하는, 유사 텍스트 수집을 위한 포털 사이트 기반 웹 크롤링 방법
7 7
제5항에 있어서,측정된 상기 페이지 유사도 및 상기 URL 유사도를 상기 URL 세트에 포함하는 단계를 더 포함하는, 유사 텍스트 수집을 위한 포털 사이트 기반 웹 크롤링 방법
8 8
제1항에 있어서,상기 URL 유사도를 측정하는 단계는,상기 제1 URL 및 상기 제2 URL을 토큰화하는 단계; 및동일한 상기 제1 URL의 토큰과 상기 제2 URL의 토큰의 개수의 비율을 측정하는 단계를 포함하고,상기 제3 URL들의 유효 여부를 결정하는 단계는,측정된 상기 비율과 미리 결정된 비율을 기초로 상기 제1 URL 및 상기 제2 URL이 유사한지를 결정하여 상기 제3 URL들의 유효 여부를 결정하는 단계를 포함하는, 유사 텍스트 수집을 위한 포털 사이트 기반 웹 크롤링 방법
9 9
핵심어를 포함한 제1 웹 페이지에 포함된 제2 웹 페이지의 위치를 나타내는 제2 URL 및 상기 제2 웹 페이지에 포함된 텍스트를 추출하는 URL 및 텍스트 추출부;상기 제2 웹 페이지에 포함된 제3 웹 페이지의 위치를 나타내는 제3 URL을 추출하는 URL 추출부; 상기 제1 웹페이지의 위치를 나타내는 제1 URL과 상기 제2 URL이 유사한지에 대한 URL 유사도 또는 상기 핵심어와 상기 제2 웹 페이지에 포함된 텍스트가 유사한지에 대한 페이지 유사도를 측정하고,측정한 상기 URL 유사도 또는 상기 페이지 유사도를 기초로 제3 URL들의 유효 여부를 결정하는 유사도 측정부; 및결정된 상기 유효 여부에 기초하여 상기 제3 웹 페이지를 수집하는 페이지 수집부를 포함하는, 유사 텍스트를 포함한 웹 페이지 수집을 위한 포털 사이트 기반 웹 크롤링 장치
10 10
제9항에 있어서,상기 URL 및 텍스트 추출부가 상기 제2 웹페이지에 포함된 텍스트를 추출하기 전에 웹페이지에 존재하는 유사한 텍스트를 검색하기 위해 사용자로부터 수신된 텍스트의 상기 핵심어를 추출하는 핵심어 추출부를 더 포함하는, 유사 텍스트 수집을 위한 포털 사이트 기반 웹 크롤링 장치
11 11
제10항에 있어서,상기 핵심어 추출부는,상기 텍스트에 포함된 단어 또는 적어도 두 개의 단어를 포함하는 구절을 추출하는, 유사 텍스트 수집을 위한 포털 사이트 기반 웹 크롤링 장치
12 12
제9항에 있어서,상기 유사도 측정부는,상기 제2 웹 페이지에 포함된 텍스트에 상기 핵심어가 포함된 비율을 측정하고,측정된 상기 비율과 미리 결정된 비율을 기초로 상기 제3 URL들의 유효 여부를 결정하는, 유사 텍스트 수집을 위한 포털 사이트 기반 웹 크롤링 장치
13 13
제9항에 있어서,수집된 상기 제3 웹 페이지의 위치를 나타내는 상기 제3 URL을 포함하고 상기 제2 URL을 더 포함한 상기 제2 URL의 유사도 순위 관리를 위한 URL 세트를 생성하는 URL 세트 생성부를 더 포함하는, 유사 텍스트 수집을 위한 포털 사이트 기반 웹 크롤링 장치
14 14
제13항에 있어서,상기 유사도 순위 중 가장 높은 순위의 상기 URL 세트를 다음 수집을 위해 제공하는 URL 세트 제공부를 더 포함하는, 유사 텍스트 수집을 위한 포털 사이트 기반 웹 크롤링 장치
15 15
제13항에 있어서,상기 URL 세트 생성부는,측정된 상기 페이지 유사도 및 상기 URL 유사도를 상기 URL 세트에 포함하는, 유사 텍스트 수집을 위한 포털 사이트 기반 웹 크롤링 장치
16 16
제9항에 있어서,상기 유사도 측정부는,상기 제1 URL 및 상기 제2 URL을 토큰화하고,동일한 상기 제1 URL의 토큰과 상기 제2 URL의 토큰의 개수의 비율을 측정하고,상기 제3 URL들의 유효 여부를 결정하는 경우,측정된 상기 비율과 미리 결정된 비율을 기초로 상기 제1 URL 및 상기 제2 URL이 유사한지를 결정하여 상기 제3 URL들의 유효 여부를 결정하는, 유사 텍스트 수집을 위한 포털 사이트 기반 웹 크롤링 장치
지정국 정보가 없습니다
패밀리정보가 없습니다
국가 R&D 정보가 없습니다.