1 |
1
실시간으로 RSS(really simple syndication) 뉴스 리스트를 수집하여 그에 대응하는 웹 뉴스를 추출하는 웹 뉴스 수집부와,
상기 추출된 웹 뉴스에서 괄호 및 인용 기호를 기반으로 문장을 분리하고, LCS(longest common substring) 알고리즘을 통해 상기 괄호에 대응하는 단어 경계를 추출한 후에, 상기 추출된 단어 경계에 따라 대역쌍을 추출하는 대역어 추출부
를 포함하는 대역어 추출 장치
|
2 |
2
제 1 항에 있어서,
상기 웹 뉴스 수집부는,
상기 RSS 뉴스 리스트를 수집하는 RSS 크롤러와,
상기 수집된 RSS 뉴스 리스트에서 웹 뉴스 URL 목록을 추출하는 링크 파서기와,
상기 추출된 웹 뉴스 URL 목록에서 상기 웹 뉴스를 수집하는 뉴스 크롤러와,
상기 수집된 웹 뉴스에서 HTML 태그를 제거하는 HTML 파서기
를 포함하는 대역어 추출 장치
|
3 |
3
제 2 항에 있어서,
상기 RSS 뉴스 리스트는, 기 설정된 시간 간격으로 갱신되고, 중복될 경우 제거하는 대역어 추출 장치
|
4 |
4
제 1 항에 있어서,
상기 대역어 추출부는,
상기 추출된 웹 뉴스 기사에서 중복 기사를 제거하고, 상기 문장을 분리한 후에, 상기 괄호 내의 불용어를 제거하며, 상기 괄호 내 좌우 단어쌍을 추출 및 정렬하고, 상기 추출된 단어 경계에 따라 상기 괄호 내의 대역어를 기준으로 정렬하고, 그 출현 빈도에 따라 상기 대역쌍을 추출하는 용어 추출기와,
상기 추출된 대역쌍이 용어 사전 데이터베이스 및 대역 사전 데이터베이스에 존재하는지의 여부에 따라 상기 대역쌍을 선택 삭제하는 신규 단어 필터와,
상기 대역쌍이 존재하지 않은 경우, 상기 대역쌍에 대한 오류 검사를 수행한 후에, 상기 대역 사전 데이터베이스에 반영하는 신규 용어 감수기
를 포함하는 대역어 추출 장치
|
5 |
5
제 4 항에 있어서,
상기 용어 추출기는, 웹 주소, 도량형 단위, 통계 비율 및 한글-한글 단어쌍을 포함하는 상기 불용어를 제거하는 대역어 추출 장치
|
6 |
6
제 4 항에 있어서,
상기 신규 단어 필터는, 상기 대역쌍이 상기 용어 사전 데이터베이스 또는 대역 사전 데이터베이스에 존재할 경우 상기 대역쌍을 삭제하는 대역어 추출 장치
|
7 |
7
실시간으로 RSS(really simple syndication) 뉴스 리스트를 수집하여 그에 대응하는 웹 뉴스를 추출하는 단계와,
상기 추출된 웹 뉴스에서 괄호 및 인용 기호 기반으로 문장을 분리하는 단계와,
상기 분리된 문장에 대해 LCS(longest common substring) 알고리즘을 이용하여 단어 경계를 추출하는 단계와,
상기 추출된 단어 경계에 따라 상기 괄호 내의 대역어를 기준으로 대역쌍을 추출하는 단계와,
상기 추출된 대역쌍에 대한 필터링을 수행한 후에, 대역 사전에 반영하는 단계
를 포함하는 대역어 추출 방법
|
8 |
8
제 7 항에 있어서,
상기 웹 뉴스를 추출하는 단계는,
상기 RSS 뉴스 리스트를 수집하는 단계와,
수집된 상기 RSS 뉴스 리스트에서 웹 뉴스 URL 목록을 추출하는 단계와,
상기 추출된 웹 뉴스 URL 목록에서 상기 웹 뉴스를 수집하는 단계와,
상기 수집된 웹 뉴스에서 HTML 태그를 제거하는 단계
를 포함하는 대역어 추출 방법
|
9 |
9
제 7 항에 있어서,
상기 단어 경계를 추출하는 단계는,
상기 분리된 문장에서 상기 괄호 내의 불용어를 제거하는 단계와,
상기 괄호 내 좌우 단어쌍을 추출 및 정렬하는 단계와,
상기 괄호에 따른 상기 단어 경계를 추출하는 단계
를 포함하는 대역어 추출 방법
|
10 |
10
제 7 항에 있어서,
상기 대역쌍을 추출하는 단계는,
상기 추출된 단어 경계에 따라 상기 괄호 내의 대역어를 기준으로 정렬하는 단계와,
상기 대역어를 기준으로 정렬한 후에, 그 출현 빈도에 따라 상기 대역쌍을 추출하는 단계
를 포함하는 대역어 추출 방법
|
11 |
11
제 7 항에 있어서,
상기 대역 사전에 반영하는 단계는,
상기 추출된 대역쌍이 용어 사전 및 대역 사전에 존재하는지의 여부에 따라 상기 대역쌍을 선택 삭제하는 단계와,
상기 대역쌍이 존재하지 않은 경우, 상기 대역쌍에 대한 오류 검사를 수행한 후에, 상기 대역 사전에 반영하는 단계
를 포함하는 대역어 추출 방법
|
12 |
12
제 11 항에 있어서,
상기 대역쌍을 선택 삭제하는 단계는, 상기 대역쌍이 상기 용어 사전 또는 대역 사전에 존재할 경우 상기 대역쌍을 삭제하는 대역어 추출 방법
|