맞춤기술찾기

이전대상기술

블로그 환경에서 중복포스트의 검출 방법 및 그 장치

  • 기술번호 : KST2014043251
  • 담당센터 : 서울서부기술혁신센터
  • 전화번호 : 02-6124-6930
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 중복포스트의 검출 방법 및 그 장치를 개시한다. 중복포스트의 검출 방법은, 제1 문서에 포함된 문장들의 특징을 나타내는 제1 특징 시퀀스 및 제2 문서에 포함된 문장들의 특징을 나타내는 제2 특징 시퀀스를 추출하는 단계와, 상기 제1 특징 시퀀스 또는 제2 특징 시퀀스를 구성하는 서브시퀀스들 중 상기 제1 특징 시퀀스 및 제2 특징 시퀀스에 공통으로 존재하는 서브시퀀스를 추출하는 단계 및 상기 제1 특징 시퀀스 및 제2 특징 시퀀스에 공통으로 존재하는 서브시퀀스를 이용하여 제1 문서 및 제2 문서의 중복 여부를 판단하는 단계를 포함한다. 본 발명에서 대상으로 하는 중복 문서는 블로그 포스트의 앞 또는 뒤 부분의 내용만 수정이 있는 것을 대상으로 한다. 따라서, 본 발명에 따르면, 블로그 포스트의 중심 부분, 즉 중심 서브 시퀀스 만을 비교함으로써, 효과적인 중복판정이 가능하다. 블로그 포스트, 중복 문서, 중복포스트
Int. CL G06Q 50/00 (2018.01.01) G06F 16/00 (2019.01.01)
CPC G06Q 50/01(2013.01) G06Q 50/01(2013.01)
출원번호/일자 1020080063126 (2008.06.30)
출원인 한양대학교 산학협력단
등록번호/일자 10-0986404-0000 (2010.10.01)
공개번호/일자 10-2010-0003032 (2010.01.07) 문서열기
공고번호/일자 (20101008) 문서열기
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 소멸
심사진행상태 수리
심판사항
구분 신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2008.06.30)
심사청구항수 15

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 한양대학교 산학협력단 대한민국 서울특별시 성동구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 김상욱 대한민국 서울시 성동구
2 박희진 대한민국 서울시 동작구
3 이순행 대한민국 경기도 고양시 일산동구
4 이상철 대한민국 서울시 서초구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 특허법인 무한 대한민국 서울특별시 강남구 언주로 ***, *층(역삼동,화물재단빌딩)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
1 한양대학교 산학협력단 대한민국 서울특별시 성동구
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2008.06.30 수리 (Accepted) 1-1-2008-0473514-06
2 선행기술조사의뢰서
Request for Prior Art Search
2010.02.16 수리 (Accepted) 9-1-9999-9999999-89
3 선행기술조사보고서
Report of Prior Art Search
2010.03.18 수리 (Accepted) 9-1-2010-0017179-31
4 의견제출통지서
Notification of reason for refusal
2010.03.30 발송처리완료 (Completion of Transmission) 9-5-2010-0132045-35
5 [명세서등 보정]보정서
[Amendment to Description, etc.] Amendment
2010.05.28 보정승인간주 (Regarded as an acceptance of amendment) 1-1-2010-0345444-32
6 [거절이유 등 통지에 따른 의견]의견(답변, 소명)서
[Opinion according to the Notification of Reasons for Refusal] Written Opinion(Written Reply, Written Substantiation)
2010.05.28 수리 (Accepted) 1-1-2010-0345441-06
7 등록결정서
Decision to grant
2010.09.29 발송처리완료 (Completion of Transmission) 9-5-2010-0433438-02
8 출원인정보변경(경정)신고서
Notification of change of applicant's information
2014.06.05 수리 (Accepted) 4-1-2014-5068294-39
9 출원인정보변경(경정)신고서
Notification of change of applicant's information
2015.02.16 수리 (Accepted) 4-1-2015-5022074-70
10 출원인정보변경(경정)신고서
Notification of change of applicant's information
2019.08.05 수리 (Accepted) 4-1-2019-5155816-75
11 출원인정보변경(경정)신고서
Notification of change of applicant's information
2019.08.06 수리 (Accepted) 4-1-2019-5156285-09
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
중복포스트가 문서 앞과 뒤 부분에서만 차이가 발생하는 블로그 환경에서, 특징 시퀀스 추출부 및 중복 판정부를 포함하는 중복포스트 검출 장치에 의해 수행되는 중복포스트의 검출 방법에 있어서, 상기 특징 시퀀스 추출부가, m개의 문장들로 구성된 제1 문서로부터 상기 m개의 문장들 각각에 대응하는 m개의 특징들로 구성된 제1 특징 시퀀스를 - 여기서, 상기 제1 특징 시퀀스는 상기 m개의 특징들의 앞뒤 순서에 따라 구분된 시퀀스(sequence) 형태인 - 추출하는 단계; 상기 특징 시퀀스 추출부가, n개의 문장들로 구성된 제2 문서로부터 상기 n개의 문장들 각각에 대응하는 n개의 특징들로 구성된 제2 특징 시퀀스를 - 여기서, 상기 제2 특징 시퀀스는 상기 n개의 특징들의 앞뒤 순서에 따라 구분된 시퀀스(sequence) 형태인 - 추출하는 단계; 상기 특징 시퀀스 추출부가, 상기 제1 특징 시퀀스 또는 제2 특징 시퀀스를 구성하는 서브시퀀스들 중 상기 제1 특징 시퀀스 및 제2 특징 시퀀스에 공통으로 존재하는 서브시퀀스를 - 여기서, 상기 서브시퀀스는 j번째부터 k번째까지의 특징들을 포함하는 시퀀스로 정의되는, 단 j 및 k는 자연수이고 j 003c# k인 - 추출하는 단계; 및 상기 중복 판정부가, 상기 제1 특징 시퀀스 및 제2 특징 시퀀스에 공통으로 존재하는 서브시퀀스의 길이에 기초하여 상기 제1 문서 및 제2 문서의 중복 여부를 판단하는 단계 를 포함하는 중복포스트의 검출 방법
2 2
삭제
3 3
제1항에 있어서, 상기 제1 문서 및 제2 문서의 중복 여부를 판단하는 단계는, 상기 제1 특징 시퀀스 및 제2 특징 시퀀스에 공통으로 존재하는 서브시퀀스 및 하기 수학식 3을 이용하여 문서간의 중복 정도를 나타내는 중복률 을 계산하고, [수학식 3] 여기서, LCSS(SA,SB)는 SA와 SB가 공통으로 가지고 있는 서브시퀀스들 중 가장 긴 서브시퀀스, SA는 제1 특징 시퀀스, SB는 제2 서브 시퀀스를 의미하고, 상기 중복률이 임계치 이상인 경우에는 상기 제1 문서 및 제2 문서를 중복으로 판단하는 중복포스트의 검출 방법
4 4
제1항에 있어서, 상기 제1 문서 및 제2 문서는 각각 블로그 포스트임으로 특징으로 하는 중복포스트의 검출 방법
5 5
중복포스트가 문서 앞과 뒤 부분에서만 차이가 발생하는 블로그 환경에서, 특징 시퀀스 추출부 및 중복 판정부를 포함하는 중복포스트 검출 장치에 의해 수행되는 중복포스트의 검출 방법에 있어서, 상기 특징 시퀀스 추출부가, 제1 문서에 포함된 문장들 각각에 대응하는 m개의 특징들로 구성된 제1 특징 시퀀스 - 여기서, 상기 제1 특징 시퀀스는 상기 m개의 특징들의 앞뒤 순서에 따라 구분된 시퀀스(sequence) 형태인 - 로부터, 서로 다른 개수의 특징들로 구성되는 복수의 중심서브시퀀스들을 추출하는 단계; 상기 특징 시퀀스 추출부가, 제2 문서에 포함된 문장들 각각에 대응하는 n개의 특징들로 구성된 제2 특징 시퀀스 - 여기서, 상기 제2 특징 시퀀스는 상기 n개의 특징들의 앞뒤 순서에 따라 구분된 시퀀스(sequence) 형태인 - 로부터, 서로 다른 개수의 특징들로 구성되는 복수의 중심서브시퀀스들을 추출하는 단계; 상기 중복 판정부가, 상기 제1 특징 시퀀스로부터 추출된 복수의 중심시퀀스들 각각을 n차원 공간상의 점으로 매핑하고, 상기 제2 특징 시퀀스로부터 추출된 복수의 중심서브시퀀스 각각에 대응하는 n차원 공간상의 점을 확인함으로써 상기 제1 특징 시퀀스 및 상기 제2 특징 시퀀스의 중복 여부를 판단하는 단계를 포함하는 중복포스트의 검출 방법
6 6
제5항에 있어서, 상기 제2 특징 시퀀스의 길이는 상기 제1 특징 시퀀스의 길이 및 상기 제1 문서 및 상기 제2 문서간의 중복 정도를 나타내는 중복률에 대한 임계치에 의하여 결정되는 것을 특징으로 하는 중복포스트의 검출 방법
7 7
제5항에 있어서, 상기 제2 특징시퀀스로부터 복수의 중심시퀀스를 추출하기 위한 제2 특징시퀀스의 중심특징은, 제1 시퀀스의 길이 m, 문서간의 중복 정도를 나타내는 중복률 Th, 및 에 의하여 상기 제1 시퀀스에 대응되는 위치가 결정되는 것을 특징으로 하는 중복포스트의 검출 방법
8 8
제7항에 있어서, 상기 제2 특징시퀀스의 중심특징으로부터 중심서브시퀀스를 추출하기 위한 특징들의 개수는, 제2 시퀀스의 길이 n 및 에 의하여 결정되는 것을 특징으로 하는 중복포스트의 검출 방법
9 9
중복포스트가 문서 앞과 뒤 부분에서만 차이가 발생하는 블로그 환경에서, 특징 시퀀스 추출부, 인덱스 키 생성부 및 질의 처리부를 포함하는 중복포스트 검출 장치에 의해 수행되는 중복포스트의 검출 방법에 있어서, 상기 특징 시퀀스 추출부가, 문서에 포함된 문장들 각각의 특징들로 구성된 특징시퀀스 - 여기서, 상기 특징 시퀀스는 상기 특징들의 앞뒤 순서에 따라 구분된 시퀀스(sequence) 형태인 -를 추출하는 단계; 상기 인덱스 키 생성부가, 상기 특징시퀀스의 중심부분의 w개의 특징들로 구성된 중심서브시퀀스에 대응하는 특징윈도우 W를 추출하는 단계; 상기 인덱스 키 생성부가, 상기 특징윈도우 W의 좌측에 위치한 δ개의 특징들로 구성된 부속특징시퀀스 L을 추출하고, 상기 특징윈도우 W의 우측에 위치한 δ개의 특징들로 구성된 부속특징시퀀스 R을 추출하는 단계; 상기 인덱스 키 생성부가, 상기 특징윈도우 W, 부속특징시퀀스 L 및 부속특징시퀀스 R에 대응하는 인덱스 키 003c#W, L, R003e#를 생성하는 단계; 및 상기 질의 처리부가, 중복 여부 판단의 대상이 되는 문서의 중심에 위치한 문장들로부터 질의윈도우 및 부속특징시퀀스를 생성하고, 상기 인덱스 키 003c#W, L, R003e#에 기초하여 중복문서 판단에 대한 질의를 처리하는 단계를 포함하는 중복포스트의 검출 방법
10 10
삭제
11 11
제9항에 있어서, 상기 중복문서 판단에 대한 질의를 처리하는 단계는, 질의 대상 문서의 특징시퀀스로부터 상기 특징윈도우에 대응하는 질의윈도우를 추출하고, 상기 특징윈도우 좌측 및 우측 특징들에 대응하는 부속특징시퀀스를 추출하고, 상기 질의윈도우 및 부속특징시퀀스로부터 생성되는 인덱스를 이용하여 질의를 처리하는 중복포스트의 검출 방법
12 12
제1항, 제3항 내지 제9항 및 제11항 중 어느 한 항의 방법을 실행하기 위한 프로그램이 기록되어 있는 것을 특징으로 하는 컴퓨터 판독 가능한 기록매체
13 13
중복포스트가 문서 앞과 뒤 부분에서만 차이가 발생하는 블로그 환경에서, 중복포스트의 검출 장치에 있어서, m개의 문장들로 구성된 제1 문서로부터 상기 m개의 문장들 각각에 대응하는 m개의 특징들로 구성된 제1 특징 시퀀스를 - 여기서, 상기 제1 특징 시퀀스는 상기 m개의 특징들의 앞뒤 순서에 따라 구분된 시퀀스(sequence) 형태인 - 추출하고, n개의 문장들로 구성된 제2 문서로부터 상기 n개의 문장들 각각에 대응하는 n개의 특징들로 구성된 제2 특징 시퀀스를 - 여기서, 상기 제2 특징 시퀀스는 상기 n개의 특징들의 앞뒤 순서에 따라 구분된 시퀀스(sequence) 형태인 - 추출하는 특징시퀀스 추출부; 및 상기 제1 특징 시퀀스 및 제2 특징 시퀀스에 공통으로 존재하는 서브시퀀스의 길이에 기초하여 상기 제1 문서 및 제2 문서의 중복여부를 판단하는 중복 판정부를 포함하고, 상기 특징 시퀀스 추출부는, 상기 제1 특징 시퀀스 또는 제2 특징 시퀀스를 구성하는 서브시퀀스들 중 상기 제1 특징 시퀀스 및 제2 특징 시퀀스에 공통으로 존재하는 서브시퀀스를 - 여기서, 상기 서브시퀀스는 j번째부터 k번째까지의 특징들을 포함하는 시퀀스로 정의되는, 단 j 및 k는 자연수이고 j 003c# k인 - 추출하는, 중복포스트의 검출 장치
14 14
제13항에 있어서, 중복 판정부는, 상기 제1 특징 시퀀스 및 제2 특징 시퀀스에 공통으로 존재하는 서브시퀀스 및 하기 수학식 3을 이용하여 문서간의 중복 정도를 나타내는 중복률 을 계산하고, [수학식 3] 여기서, LCSS(SA,SB)는 SA와 SB가 공통으로 가지고 있는 서브시퀀스들 중 가장 긴 서브시퀀스, SA는 제1 특징 시퀀스, SB는 제2 서브 시퀀스를 의미하고, 상기 중복률이 임계치 이상인 경우에는 상기 제1 문서 및 제2 문서를 중복으로 판단하는, 중복포스트의 검출 장치
15 15
삭제
16 16
제13항에 있어서, 임의의 특징시퀀스의 중심서브시퀀스에 대응하는 특징윈도우에 기초하여 문서의 중복 여부를 판단하기 위한 인덱스 키를 생성하는 인덱스 키 생성부를 더 포함하는 중복포스트의 검출 장치
17 17
제16항에 있어서, 상기 인덱스 키 생성부는, 상기 임의의 특징시퀀스의 중심부분의 w개의 특징들로 구성된 중심서브시퀀스에 대응하는 특징윈도우 W를 추출하고, 상기 특징윈도우 W의 좌측에 위치한 δ개의 특징들로 구성된 부속특징시퀀스 L을 추출하고, 상기 특징윈도우 W의 우측에 위치한 δ개의 특징들로 구성된 부속특징시퀀스 R을 추출하고, 상기 특징윈도우 W, 부속특징시퀀스 L 및 부속특징시퀀스 R에 대응하는 인덱스 키 003c#W, L, R003e#를 생성하는, 중복포스트의 검출 장치
18 18
제16항에 있어서, 중복 여부 판단의 대상이 되는 문서의 중심에 위치한 문장들로부터 질의윈도우 및 부속특징시퀀스를 생성하고, 상기 인덱스 키 003c#W, L, R003e#에 기초하여 중복문서 판단에 대한 질의를 처리하는 질의 처리부를 더 포함하는, 중복포스트의 검출 장치
지정국 정보가 없습니다
패밀리정보가 없습니다
국가 R&D 정보가 없습니다.