맞춤기술찾기

이전대상기술

TF-IDF 기반 벡터 변환 및 데이터 분석 장치 및 방법

  • 기술번호 : KST2021002261
  • 담당센터 : 대전기술혁신센터
  • 전화번호 : 042-610-2279
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 본 발명은 TF-IDF 기반 벡터 변환 및 데이터 분석 장치 및 방법에 관한 것으로, 특히 추출된 문자열을 다른 데이터와의 관계를 고려한 TF-IDF 기법을 통해 가중치를 부여함으로써, 악의적인 행위 특징을 특성화 시키고 가공된 벡터를 통해 데이터를 분석하는 TF-IDF 기반 벡터 변환 및 데이터 분석 장치 및 방법에 관한 것 이다. 또한, 본 발명에 따르면, 훈련 데이터 세트에서 문자열을 추출한 뒤, 문자열의 빈도를 고려해 선별된 문자열 집합으로 단어장을 구성하고, 단어장 기반으로 참조 단어 빈도-역 문서 빈도 벡터를 산출하는 참조 벡터 생성 모듈; 분석대상 테스트 파일에서 문자열을 추출하고, 상기 참조 벡터 생성 모듈에서 사전에 생성된 단어장을 기준으로 테스트 단어 빈도-역 문서 빈도 벡터(TF-IDF Vector)를 산출하는 테스트 벡터 생성 모듈; 및 상기 테스트 단어 빈도-역 문서 빈도 벡터와 사전에 구성된 훈련 데이터 세트의 참조 단어 빈도-역 문서 빈도 벡터들을 비교하고 악성코드 탐지 및 변종 분석을 제공하는 악성 코드 탐지 모듈을 포함하는 TF-IDF 기반 벡터 변환 및 데이터 분석 장치 및 방법이 제공된다.
Int. CL G06F 21/56 (2013.01.01) G06F 16/31 (2019.01.01) G06F 16/35 (2019.01.01) G06F 40/20 (2020.01.01)
CPC G06F 21/56(2013.01) G06F 16/313(2013.01) G06F 16/353(2013.01) G06F 40/216(2013.01)
출원번호/일자 1020190090032 (2019.07.25)
출원인 호서대학교 산학협력단
등록번호/일자
공개번호/일자 10-2021-0013433 (2021.02.04) 문서열기
공고번호/일자
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 등록
심사진행상태 수리
심판사항
구분
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2019.07.25)
심사청구항수 8

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 호서대학교 산학협력단 대한민국 충청남도 아산시

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 이태진 서울 송파구
2 하지희 전주시 완산구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 조경화 대한민국 서울특별시 강남구 테헤란로**길 **, 한림빌딩 *층 (대치동)(국제특허법률사무소 미래연)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
최종권리자 정보가 없습니다
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2019.07.25 수리 (Accepted) 1-1-2019-0763736-84
2 출원인정보변경(경정)신고서
Notification of change of applicant's information
2019.08.30 수리 (Accepted) 4-1-2019-0045360-16
3 선행기술조사의뢰서
Request for Prior Art Search
2019.09.06 수리 (Accepted) 9-1-9999-9999999-89
4 선행기술조사보고서
Report of Prior Art Search
2019.10.11 수리 (Accepted) 9-1-2019-0046767-79
5 의견제출통지서
Notification of reason for refusal
2020.08.20 발송처리완료 (Completion of Transmission) 9-5-2020-0567047-52
6 [지정기간연장]기간 연장신청서·기간 단축신청서·기간 경과 구제신청서·절차 계속신청서
2020.10.19 수리 (Accepted) 1-1-2020-1101974-32
7 [지정기간연장]기간 연장신청서·기간 단축신청서·기간 경과 구제신청서·절차 계속신청서
2020.11.19 수리 (Accepted) 1-1-2020-1242625-31
8 [거절이유 등 통지에 따른 의견]의견서·답변서·소명서
2020.12.21 수리 (Accepted) 1-1-2020-1385977-51
9 [명세서등 보정]보정서
[Amendment to Description, etc.] Amendment
2020.12.21 보정승인간주 (Regarded as an acceptance of amendment) 1-1-2020-1386038-83
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
훈련 데이터 세트에서 문자열을 추출한 뒤, 문자열의 빈도를 고려해 선별된 문자열 집합으로 단어장을 구성하고, 단어장 기반으로 참조 단어 빈도-역 문서 빈도 벡터를 산출하는 참조 벡터 생성 모듈;분석대상 테스트 파일에서 문자열을 추출하고, 상기 참조 벡터 생성 모듈에서 사전에 생성된 단어장을 기준으로 테스트 단어 빈도-역 문서 빈도 벡터(TF-IDF Vector)를 산출하는 테스트 벡터 생성 모듈; 및 상기 테스트 단어 빈도-역 문서 빈도 벡터와 사전에 구성된 훈련 데이터 세트의 참조 단어 빈도-역 문서 빈도 벡터들을 비교하고 악성코드 탐지 및 변종 분석을 제공하는 악성 코드 탐지 모듈을 포함하는 TF-IDF 기반 벡터 변환 및 데이터 분석 장치
2 2
청구항 1항에 있어서, 상기 참조 벡터 생성 모듈은, 훈련(Train) 데이터 세트에서 문자열을 추출하는 문자열 추출부;상기 문자열 추출부가 다수의 파일로 구성된 훈련 데이터 세트에서 문자열을 추출하면, 문자열의 빈도를 고려해 문자열을 선별하고, 선별된 문자열 집합으로 단어장을 구성하는 단어장 구성부; 및단어장 기반으로 각 파일의 단어 빈도값과 역 문서 빈도값을 통해 참조 단어 빈도-역 문서 빈도 벡터를 산출하는 벡터 생성부를 포함하는 TF-IDF 기반 벡터 변환 및 데이터 분석 장치
3 3
청구항 2항에 있어서, 상기 문자열 추출부는 악성파일의 정적 분석을 이용해 문자열 추출이 가능하고 추출된 데이터는 ASCII와 Unicode로 표현되어 있으며, 그 중 특정 길이 이상의 연속된 ASCII문자로 구성된 문자열을 취하는 것을 특징으로 하는 TF-IDF 기반 벡터 변환 및 데이터 분석 장치
4 4
청구항 2항에 있어서, 상기 문자열 추출부에 의해 추출된 문자열은 파일의 코드부분과 PE파일의 구조적인 특징을 나타내는 Header부분, 악성행위와 관련된 DLL명과 API명을 포함하고 있는 TF-IDF 기반 벡터 변환 및 데이터 분석 장치
5 5
청구항 1항에 있어서, 상기 악성 코드 탐지 모듈은 코사인 유사도 측정 기법을 이용하여 유사도를 측정하여 악성코드 탐지 및 변종 분석을 제공하는 TF-IDF 기반 벡터 변환 및 데이터 분석 장치
6 6
(A) 참조 벡터 생성 모듈이 훈련 데이터 세트에서 문자열을 추출한 뒤, 문자열의 빈도를 고려해 선별된 문자열 집합으로 단어장을 구성하고, 단어장 기반으로 참조 단어 빈도-역 문서 빈도 벡터를 산출하는 단계;(B) 테스트 벡터 생성 모듈이 분석대상 테스트 파일에서 문자열을 추출하고, 상기 참조 벡터 생성 모듈에서 사전에 생성된 단어장을 기준으로 테스트 단어 빈도-역 문서 빈도 벡터(TF-IDF Vector)를 산출하는 단계; 및 (C) 악성 코드 탐지 모듈이 상기 테스트 단어 빈도-역 문서 빈도 벡터와 사전에 구성된 훈련 데이터 세트의 참조 단어 빈도-역 문서 빈도 벡터들을 비교하고 악성코드 탐지 및 변종 분석을 제공하는 단계를 포함하는 TF-IDF 기반 벡터 변환 및 데이터 분석 방법
7 7
청구항 6항에 있어서, 상기 (A) 단계는(A-1) 상기 참조 벡터 생성 모듈이 훈련(Train) 데이터 세트에서 문자열을 추출하는 단계;(A-2) 상기 참조 벡터 생성 모듈이 다수의 파일로 구성된 훈련 데이터 세트에서 문자열을 추출하면, 문자열의 빈도를 고려해 문자열을 선별하고, 선별된 문자열 집합으로 단어장을 구성하는 단계; 및(A-3) 상기 참조 벡터 생성 모듈이 단어장 기반으로 각 파일의 단어 빈도값과 역 문서 빈도값을 통해 참조 단어 빈도-역 문서 빈도 벡터를 산출하는 단계를 포함하는 TF-IDF 기반 벡터 변환 및 데이터 분석 방법
8 8
청구항 7항에 있어서, 상기 (A-1) 단계에서 상기 참조 벡터 생성 모듈은 악성파일의 정적 분석을 이용해 문자열 추출이 가능하고 추출된 데이터는 ASCII와 Unicode로 표현되어 있으며, 그 중 특정 길이 이상의 연속된 ASCII문자로 구성된 문자열을 취하는 것을 특징으로 하는 TF-IDF 기반 벡터 변환 및 데이터 분석 방법
9 9
청구항 7항에 있어서, 상기 (A-1) 단계에서 상기 참조 벡터 생성 모듈에 의해 추출된 문자열은 파일의 코드부분과 PE파일의 구조적인 특징을 나타내는 Header부분, 악성행위와 관련된 DLL명과 API명을 포함하고 있는 TF-IDF 기반 벡터 변환 및 데이터 분석 방법
10 10
청구항 6항에 있어서,상기 (C) 단계에서 상기 악성 코드 탐지 모듈은 코사인 유사도 측정 기법을 이용하여 유사도를 측정하여 악성코드 탐지 및 변종 분석을 제공하는 TF-IDF 기반 벡터 변환 및 데이터 분석 방법
지정국 정보가 없습니다
패밀리정보가 없습니다
순번, 연구부처, 주관기관, 연구사업, 연구과제의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 국가R&D 연구정보 정보 표입니다.
순번 연구부처 주관기관 연구사업 연구과제
1 문화체육관광부 아주대학교 산학협력단 저작권 보호 및 이용활성화 기술개발 저작권 침해사이트의 생애주기 프로파일링 기술 개발