1 |
1
소정의 시드 뉴스의 제목과 하나 이상의 대상 뉴스의 제목 간의 유사도를 산출하며, 산출한 상기 제목 간의 유사도에 기초하여 상기 하나 이상의 대상 뉴스 중에서 중복 후보 뉴스를 탐지하는 중복 후보 뉴스 탐지부; 및상기 시드 뉴스의 컨텐츠에 포함된 문장과 상기 중복 후보 뉴스의 컨텐츠에 포함된 문장 간의 유사도를 산출하며, 산출한 상기 문장 간의 유사도에 기초하여 상기 중복 후보 뉴스 중에서 중복 뉴스를 탐지하는 중복 뉴스 탐지부를 포함하는 중복 뉴스 탐지 시스템
|
2 |
2
소정의 시드 뉴스의 제목과 하나 이상의 대상 뉴스의 제목 간의 유사도를 산출하며, 산출한 상기 제목 간의 유사도에 기초하여 상기 하나 이상의 대상 뉴스 중에서 중복 후보 뉴스를 탐지하는 중복 후보 뉴스 탐지부; 및상기 시드 뉴스의 컨텐츠에 포함된 문장과 상기 중복 후보 뉴스의 컨텐츠에 포함된 문장 간의 유사도를 산출하며, 산출한 상기 문장 간의 유사도에 기초하여 상기 중복 후보 뉴스 중에서 중복 뉴스를 탐지하는 중복 뉴스 탐지부를 포함하되,상기 중복 후보 뉴스 탐지부는,상기 시드 뉴스와 상기 대상 뉴스로부터 제목을 추출하고, 추출한 제목에 포함된 단어 중에서 단일 단어로는 의미를 갖지 않는 불용어를 제거하고, 불용어를 제거한 단어를 어근의 형태로 변환하는 전처리부; 및상기 시드 뉴스의 제목과 각각의 대상 뉴스의 제목 간의 유사도를 산출하고, 산출한 상기 제목 간의 유사도에 기초하여 상기 각각의 대상 뉴스가 상기 중복 후보 뉴스에 해당하는지 여부를 판단하는 중복 후보 뉴스 판단부를 포함하는 중복 뉴스 탐지 시스템
|
3 |
3
제2항에 있어서,상기 중복 후보 뉴스 판단부는,상기 시드 뉴스의 제목과, 검색 엔진의 검색 리스트에 나타나는 상기 대상 뉴스의 앵커 제목 간의 제1 유사도를 산출하는 제1 유사도 산출부;상기 시드 뉴스의 제목과, 상기 대상 뉴스의 컨텐츠에 나타나는 제목 간의 제2 유사도를 산출하는 제2 유사도 산출부;상기 제1 유사도 및 상기 제2 유사도 중 보다 큰 유사도를 상기 제목 간의 유사도로 결정하는 유사도 결정부; 및상기 제목 간의 유사도를 소정의 임계값과 비교하여 상기 중복 후보 뉴스를 탐지하는 임계값 비교부를 포함하는 중복 뉴스 탐지 시스템
|
4 |
4
제3항에 있어서,상기 중복 후보 뉴스 판단부는,상기 시드 뉴스의 제목에서 나타나는 단어의 빈도에 비례하고, 상기 시드 뉴스와 상기 대상 뉴스의 모든 제목에서 나타나는 단어의 빈도에 반비례하는 연산을 수행하여 상기 시드 뉴스의 제목에 나타나는 단어의 가중치를 산출하고, 상기 대상 뉴스의 제목에서 나타나는 단어의 빈도에 비례하고, 상기 시드 뉴스와 상기 대상 뉴스의 모든 제목에서 나타나는 단어의 빈도에 반비례하는 연산을 수행하여 상기 대상 뉴스의 제목에 나타나는 단어의 가중치를 산출하며,상기 제1 유사도 산출부는,상기 시드 뉴스의 제목과, 상기 대상 뉴스의 상기 앵커 제목에 동시에 포함되는 단어의 가중치들을 합한 값에서 상기 시드 뉴스의 제목에 포함되는 단어의 가중치들과 상기 앵커 제목에 포함되는 단어의 가중치들을 합한 값으로 나눈 값을 상기 제1 유사도로 산출하며,상기 제2 유사도 산출부는,상기 시드 뉴스의 제목과, 상기 대상 뉴스의 상기 컨텐츠의 제목에 동시에 포함되는 단어의 가중치들의 합한 값에서 상기 시드 뉴스의 제목에 포함되는 단어의 가중치들과 상기 컨텐츠의 제목에 포함되는 단어의 가중치들을 합한 값으로 나눈 값을 상기 제2 유사도로 산출하는 중복 뉴스 탐지 시스템
|
5 |
5
소정의 시드 뉴스의 제목과 하나 이상의 대상 뉴스의 제목 간의 유사도를 산출하며, 산출한 상기 제목 간의 유사도에 기초하여 상기 하나 이상의 대상 뉴스 중에서 중복 후보 뉴스를 탐지하는 중복 후보 뉴스 탐지부; 및상기 시드 뉴스의 컨텐츠에 포함된 문장과 상기 중복 후보 뉴스의 컨텐츠에 포함된 문장 간의 유사도를 산출하며, 산출한 상기 문장 간의 유사도에 기초하여 상기 중복 후보 뉴스 중에서 중복 뉴스를 탐지하는 중복 뉴스 탐지부를 포함하되,상기 중복 뉴스 탐지부는,상기 시드 뉴스와 상기 중복 후보 뉴스로부터 컨텐츠를 추출하고, 추출한 상기 컨텐츠의 구문을 분석하며, 상기 컨텐츠에서 문장을 검출하는 중복 뉴스 탐지 전처리부; 및상기 시드 뉴스의 컨텐츠에 포함된 문장과 상기 중복 후보 뉴스의 컨텐츠에 포함된 문장 간의 유사도를 산출하고, 산출한 상기 문장 간의 유사도에 기초하여 상기 중복 후보 뉴스가 상기 중복 뉴스에 해당하는지 여부를 판단하는 중복 뉴스 판단부를 포함하는 중복 뉴스 탐지 시스템
|
6 |
6
제5항에 있어서,상기 중복 뉴스 판단부는,상기 시드 뉴스의 컨텐츠에 포함된 문장의 단어와, 상기 중복 후보 뉴스의 컨텐츠에 포함된 문장의 단어 간의 유사도를 산출하는 단어 유사도 산출부;상기 시드 뉴스의 컨텐츠에 포함된 문장의 동사와, 상기 중복 후보 뉴스의 컨텐츠에 포함된 문장의 동사 간의 유사도를 산출하는 동사 유사도 산출부;상기 단어 간의 유사도와 상기 동사 간의 유사도를 곱셈 연산하고, 상기 시드 뉴스의 문장과, 상기 중복 후보 뉴스의 각각의 문장 간의 곱셈 연산 값 중 가장 큰 값을 상기 문장 간의 유사도로 결정하는 문장 유사도 결정부;상기 시드 뉴스의 모든 문장에 대하여 산출된 문장 간의 유사도들을 합한 값을 상기 시드 뉴스의 문장 개수 및 상기 중복 후보 뉴스의 문장 개수 중 작은 값으로 나누어 뉴스 관계 유사도를 산출하는 뉴스 관계 유사도 산출부; 및상기 뉴스 관계 유사도를 소정의 임계값과 비교하여 상기 중복 뉴스를 탐지하는 중복 뉴스 탐지 임계값 비교부를 포함하는 중복 뉴스 탐지 시스템
|
7 |
7
제6항에 있어서,상기 단어 유사도 산출부는,상기 시드 뉴스의 컨텐츠의 문장에서 나타나는 동사를 제외한 단어들의 빈도에 비례하고, 상기 시드 뉴스와 상기 중복 후보 뉴스의 모든 컨텐츠의 문장에서 나타나는 동사를 제외한 단어들의 빈도에 반비례하는 연산을 수행하여 상기 시드 뉴스의 단어의 가중치를 산출하고, 상기 중복 후보 뉴스의 컨텐츠의 문장에서 나타나는 동사를 제외한 단어들의 빈도에 비례하고, 상기 시드 뉴스와 상기 중복 후보 뉴스의 모든 컨텐츠의 문장에서 나타나는 동사를 제외한 단어들의 빈도에 반비례하는 연산을 수행하여 상기 중복 후보 뉴스의 단어의 가중치를 산출하며, 상기 시드 뉴스의 문장과, 상기 중복 후보 뉴스의 문장에 동시에 포함되는 동사를 제외한 단어의 가중치들을 합한 값에서 상기 시드 뉴스의 문장에 포함되는 동사를 제외한 단어의 가중치들과 상기 중복 후보 뉴스의 문장에 포함되는 동사를 제외한 단어의 가중치들을 합한 값으로 나눈 값을 상기 단어 간의 유사도로 산출하는 중복 뉴스 탐지 시스템
|
8 |
8
제6항에 있어서,상기 동사 유사도 산출부는,상기 시드 뉴스의 문장과 상기 중복 후보 뉴스의 문장에서 나타나는 동사를 공통으로 포함하는 워드넷 용어집 기반 계층에서의 최 하위 계층 상위 동사를 검출하고, 상기 시드 뉴스의 문장에서 나타나는 동사, 상기 중복 후보 뉴스의 문장에서 나타나는 동사 및 상기 최 하위 계층 상위 동사의 동의어 어휘의 개수에 비례하는 연산을 수행하여 확률 값을 산출하며, 산출한 상기 확률 값을 이용하여 상기 동사 간의 유사도를 산출하는 중복 뉴스 탐지 시스템
|
9 |
9
제5항에 있어서,상기 중복 뉴스 탐지 전처리부는,상기 시드 뉴스와 상기 중복 후보 뉴스의 태그를 제거하고, 상기 시드 뉴스와 상기 중복 후보 뉴스로부터 컨텐츠를 추출하는 태그 제거부;상기 컨텐츠의 구문을 분석하는 구문 분석부;상기 컨텐츠로부터 문장을 검출하는 문장 검출부;상기 문장으로부터 동사를 추출하는 동사 추출부; 및상기 문장의 단어 중에서 단일 단어로는 의미를 갖지 않는 불용어를 제거하고, 불용어를 제거한 단어를 어근의 형태로 변환하는 불용어 제거 및 어근 처리부를 포함하는 중복 뉴스 탐지 시스템
|
10 |
10
제1항 내지 제9항 중 어느 하나의 항에 있어서,상기 시드 뉴스는 하나 이상의 뉴스 제공 서버 시스템에서 제공하는 헤드라인 뉴스를 포함하며,상기 하나 이상의 대상 뉴스는 상기 시드 뉴스의 제목에 나타나는 단어를 포함하는 검색어를 이용하여 검색 엔진이 검색한 뉴스들을 포함하는 중복 뉴스 탐지 시스템
|
11 |
11
제1항 내지 제9항 중 어느 하나의 항에 있어서,탐지된 상기 중복 뉴스의 리스트를 제거한 웹 페이지를 제공하거나, 상기 시드 뉴스와 상기 중복 뉴스를 결합한 웹 페이지를 제공하는 뉴스 추천부를 더 포함하는 중복 뉴스 탐지 시스템
|
12 |
12
소정의 시드 뉴스를 저장하는 시드뉴스 데이터베이스;상기 시드 뉴스의 제목에 나타나는 단어를 포함하는 검색어를 이용하여 대상 뉴스들을 검색하는 검색 엔진;검색된 상기 대상 뉴스들을 저장하는 대상 뉴스 데이터베이스;상기 시드 뉴스와 상기 대상 뉴스들 각각으로부터 제목을 추출하고, 추출한 상기 시드 뉴스의 제목과 상기 대상 뉴스의 제목 간의 유사도를 산출하며, 산출한 상기 제목 간의 유사도에 기초하여 상기 대상 뉴스들 중에서 중복 후보 뉴스를 탐지하는 중복 후보 뉴스 탐지부;상기 시드 뉴스와 상기 중복 후보 뉴스로부터 컨텐츠를 추출하고, 추출한 상기 시드 뉴스의 컨텐츠에 포함된 문장과 상기 중복 후보 뉴스의 컨텐츠에 포함된 문장 간의 유사도를 산출하며, 산출한 상기 문장 간의 유사도에 기초하여 상기 중복 후보 뉴스 중에서 중복 뉴스를 탐지하는 중복 뉴스 탐지부;탐지된 상기 중복 뉴스를 저장하는 중복 뉴스 데이터베이스; 및탐지된 상기 중복 뉴스의 리스트를 제거한 웹 페이지를 제공하거나, 상기 시드 뉴스와 상기 중복 뉴스를 결합한 웹 페이지를 제공하는 뉴스 추천부를 포함하는 중복 뉴스 탐지 시스템
|