맞춤기술찾기

이전대상기술

텍스트 데이터 크롤링을 위한 텍스트 데이터 수집 및 분석 방법 및 장치

  • 기술번호 : KST2019004727
  • 담당센터 :
  • 전화번호 :
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 텍스트 데이터 수집 및 분석 방법은, 키워드 및 기간 정보에 관한 입력을 수신하는 단계, 상기 키워드 및 상기 기간 정보에 기초하여 웹으로부터 상기 키워드를 포함하는 기사의 정보를 획득하는 단계, 상기 기사의 정보에 기초하여 상기 기사가 포함된 웹 페이지를 크롤링(crawling)하는 단계, 상기 크롤링된 웹 페이지에 포함된 기사의 텍스트 데이터를 수집하는 단계, 상기 수집한 텍스트 데이터를 크롤링 데이터베이스에 저장하는 단계, 상기 수집한 텍스트 데이터에 기초하여 텍스트 데이터 분석을 수행하는 단계를 포함할 수 있다.
Int. CL G06F 16/951 (2019.01.01) G06F 16/31 (2019.01.01) G06F 16/178 (2019.01.01) G06F 16/955 (2019.01.01) G06F 16/81 (2019.01.01)
CPC G06F 16/951(2013.01) G06F 16/951(2013.01) G06F 16/951(2013.01) G06F 16/951(2013.01) G06F 16/951(2013.01)
출원번호/일자 1020170142347 (2017.10.30)
출원인 한림대학교 산학협력단
등록번호/일자 10-2023490-0000 (2019.09.16)
공개번호/일자 10-2019-0047939 (2019.05.09) 문서열기
공고번호/일자 (20190920) 문서열기
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 등록
심사진행상태 수리
심판사항
구분 신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2017.10.30)
심사청구항수 14

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 한림대학교 산학협력단 대한민국 강원도 춘천시 한림

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 김의직 강원도 춘천시 지석로 **,
2 권정혁 강원도 춘천시 스무숲*
3 차민기 서울특별시 중랑구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 유민규 대한민국 서울특별시 강남구 논현로 *** , *층 ***호 (역삼동, 여산빌딩)(온유특허법률사무소)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
1 한림대학교 산학협력단 강원도 춘천시 한림
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2017.10.30 수리 (Accepted) 1-1-2017-1072037-13
2 출원인정보변경(경정)신고서
Notification of change of applicant's information
2018.03.06 수리 (Accepted) 4-1-2018-5038639-99
3 의견제출통지서
Notification of reason for refusal
2019.04.16 발송처리완료 (Completion of Transmission) 9-5-2019-0275148-25
4 [거절이유 등 통지에 따른 의견]의견(답변, 소명)서
[Opinion according to the Notification of Reasons for Refusal] Written Opinion(Written Reply, Written Substantiation)
2019.06.10 수리 (Accepted) 1-1-2019-0588145-05
5 [명세서등 보정]보정서
[Amendment to Description, etc.] Amendment
2019.06.10 보정승인간주 (Regarded as an acceptance of amendment) 1-1-2019-0588148-31
6 등록결정서
Decision to grant
2019.09.09 발송처리완료 (Completion of Transmission) 9-5-2019-0652823-24
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
텍스트 데이터 수집 및 분석 방법에 있어서,키워드 및 기간 정보에 관한 입력을 수신하는 단계;상기 키워드 및 상기 기간 정보에 기초하여 웹으로부터 상기 키워드를 포함하는 기사의 수 및 크롤링 가능한 웹 페이지의 수를 포함하는 기사의 정보를 획득하는 단계;상기 기사의 정보에 기초하여 상기 기사가 포함된 웹 페이지를 크롤링(crawling)하는 단계;상기 크롤링된 웹 페이지에 포함된 기사의 텍스트 데이터를 수집하는 단계;상기 수집한 텍스트 데이터를 크롤링 데이터베이스에 저장하는 단계;상기 수집한 텍스트 데이터에 기초하여 텍스트 데이터 분석을 수행하는 단계,를 포함하되,상기 텍스트 데이터 분석을 수행하는 단계는,각 기사의 빈발 단어 포함 여부에 관한 정보인 매트릭스 데이터 셋트 내의 빈발 단어들로 만들 수 있는 단어 조합을 포함하는 제1단어 집합을 결정하는 단계;미리 설정된 순위 이내의 빈발 단어 집합 중 적어도 하나의 단어를 포함하는 제2단어 집합에 관한 입력을 수신하는 단계; 및상기 제1단어 집합에 포함된 단어 조합이 기사에 포함되면 상기 제2단어 집합에 포함된 단어도 기사에 포함되는지에 관한 연관규칙을 결정하는 단계를 포함하는 텍스트 데이터 수집 및 분석 방법
2 2
제 1 항에 있어서,상기 텍스트 데이터를 수집하는 단계는,상기 키워드 및 상기 기간 정보를 포함하는 URL을 생성하여 상기 웹으로 전송하는 단계;상기 웹으로부터 검색 결과가 포함된 HTML 파일을 수신하는 단계;상기 HTML 파일을 트리형태로 재구성하는 단계;상기 HTML 파일로부터 기사 리스트의 URL을 추출하는 단계;상기 기사 리스트의 URL을 웹으로 전송하고, 웹으로부터 기사 텍스트 데이터를 포함하는 HTML 파일을 수신하는 단계;상기 기사 텍스트 데이터를 포함하는 HTML 파일을 트리형태로 재구성하고 텍스트 데이터를 추출하는 단계; 및상기 추출된 텍스트 데이터로부터 기사의 제목 및 내용에 해당하는 텍스트 데이터를 추출하는 단계,를 포함하는 것인, 텍스트 데이터 수집 및 분석 방법
3 3
제 2 항에 있어서,상기 트리형태로 재구성된 기사 리스트의 HTML 파일 및 상기 트리형태로 재구성된 기사 텍스트 데이터를 포함하는 HTML 파일에 대하여 인코딩을 수행하는 단계,를 더 포함하는 것인, 텍스트 데이터 수집 및 분석 방법
4 4
제 3 항에 있어서,상기 인코딩은 UTF-8 (Universal Transformation Format-8)인코딩인 것인, 텍스트 데이터 수집 및 분석 방법
5 5
제 2 항에 있어서,상기 추출된 텍스트 데이터를 txt 형식의 파일로 생성하는 단계,를 더 포함하고,상기 생성된 txt 형식의 파일이 상기 크롤링 데이터베이스에 저장되는 것인, 텍스트 데이터 수집 및 분석 방법
6 6
제 3 항에 있어서,상기 수집한 텍스트 데이터를 상기 크롤링 데이터베이스로부터 읽어오는 단계; 상기 수집한 텍스트 데이터에 대하여 미리 설정된 사전 정의 단어에 기초하여 전처리하는 단계; 및상기 전처리된 기사의 텍스트 데이터로부터 기반 데이터 셋트를 형성하는 단계,를 더 포함하고,상기 텍스트 데이터 분석을 수행하는 단계는 기반 데이터 셋트에 기초하여 수행되는 것인, 텍스트 데이터 수집 및 분석 방법
7 7
텍스트 데이터 수집 및 분석 장치에 있어서,키워드 및 기간 정보에 관한 입력을 수신하는 유저 인터페이스부;상기 키워드 및 상기 기간 정보에 기초하여 웹으로부터 상기 키워드를 포함하는 기사의 수 및 크롤링 가능한 웹 페이지의 수를 포함하는 기사의 정보를 획득하고, 상기 기사의 정보에 기초하여 상기 기사가 포함된 웹 페이지를 크롤링(crawling)하고, 상기 크롤링된 웹 페이지에 포함된 기사의 텍스트 데이터를 수집하는 웹 크롤러부;상기 수집한 텍스트 데이터를 저장하는 크롤링 데이터베이스; 및상기 수집한 텍스트 데이터에 기초하여 텍스트 데이터 분석을 수행하는 데이터 분석부,를 포함하되,상기 유저 인터페이스부는, 미리 설정된 순위 이내의 빈발 단어 집합 중 적어도 하나의 단어를 포함하는 제2단어 집합에 관한 입력을 수신하고,상기 분석부는, 각 기사의 빈발 단어 포함 여부에 관한 정보인 매트릭스 데이터 셋트 내의 빈발 단어들로 만들 수 있는 단어 조합을 포함하는 제1단어 집합을 결정하고, 상기 제1단어 집합에 포함된 단어 조합이 기사에 포함되면 상기 제2단어 집합에 포함된 단어도 기사에 포함되는지에 관한 연관규칙을 결정하는 것인, 텍스트 데이터 수집 및 분석 장치
8 8
제 7 항에 있어서,상기 웹 크롤러부는,상기 키워드 및 상기 기간 정보를 포함하는 URL을 생성하여 상기 웹으로 전송하고, 상기 웹으로부터 검색 결과가 포함된 HTML 파일을 수신하여 상기 HTML 파일을 트리형태로 재구성하고, 상기 HTML 파일로부터 기사 리스트의 URL을 추출하여 상기 기사 리스트의 URL을 웹으로 전송하고, 웹으로부터 기사 텍스트 데이터를 포함하는 HTML 파일을 수신하고, 상기 기사 텍스트 데이터를 포함하는 HTML 파일을 트리형태로 재구성하는 파싱부; 및상기 트리형태로 재구성된 기사 텍스트 데이터를 포함하는 HTML 파일로부터 텍스트 데이터를 추출하고, 상기 추출된 텍스트 데이터로부터 기사의 제목 및 내용에 해당하는 텍스트 데이터를 추출하는 추출부,를 포함하는 것인, 텍스트 데이터 수집 및 분석 장치
9 9
제 8 항에 있어서,상기 웹 크롤러부는,상기 트리형태로 재구성된 기사 리스트의 HTML 파일 및 상기 트리형태로 재구성된 기사 텍스트 데이터를 포함하는 HTML 파일에 대하여 인코딩을 수행하는 언어 지원부,를 더 포함하는 것인, 텍스트 데이터 수집 및 분석 장치
10 10
제 9 항에 있어서,상기 인코딩은 UTF-8 (Universal Transformation Format-8)인코딩인 것인, 텍스트 데이터 수집 및 분석 장치
11 11
제 8 항에 있어서,상기 웹 크롤러부는,상기 추출된 텍스트 데이터를 txt 형식의 파일로 생성하는 파일 생성부,를 더 포함하고,상기 크롤링 데이터베이스는 상기 생성된 txt 형식의 파일을 저장하는 것인, 텍스트 데이터 수집 및 분석 장치
12 12
제 9 항에 있어서,상기 데이터 분석부는,상기 수집한 텍스트 데이터를 상기 크롤링 데이터베이스로부터 읽어와서 미리 설정된 사전 정의 단어에 기초하여 전처리하는 전처리부;상기 전처리된 기사의 텍스트 데이터로부터 기반 데이터 셋트를 형성하는 데이터 형성부; 및상기 기반 데이터 셋트에 기초하여 상기 텍스트 데이터 분석을 수행하는 분석부,를 포함하는 것인, 텍스트 데이터 수집 및 분석 장치
13 13
제 7 항 내지 제 12 항 중 어느 한 항의 텍스트 데이터 수집 및 분석 장치; 및상기 텍스트 데이터 수집 및 분석 장치에 키워드 및 기간 정보에 관한 입력을 제공하고, 상기 텍스트 데이터 수집 및 분석 장치로부터 텍스트 데이터 분석의 결과를 수신하여 출력하는 사용자 단말,을 포함하는 텍스트 데이터 수집 및 분석 시스템
14 14
제 1 항 내지 제 6 항 중 어느 한 항의 방법을 컴퓨터에서 실행하기 위한 프로그램을 기록한 컴퓨터에서 판독 가능한 기록매체
지정국 정보가 없습니다
패밀리정보가 없습니다
순번, 연구부처, 주관기관, 연구사업, 연구과제의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 국가R&D 연구정보 정보 표입니다.
순번 연구부처 주관기관 연구사업 연구과제
1 과학기술정보통신부 한림대학교 산학협력단 지역신산업선도인력양성사업 실시간 상황정보 빅데이터 기반의 개인 맞춤형 헬스케어 시스템 개발
2 교육부 한림대학교 산학협력단 이공학개인기초연구지원사업(기본연구) 산업환경 안전을 위한 사물인터넷 빅데이터 통합 프레임워크 개발