1 |
1
미리 정해진 복수의 단어들 - 상기 복수의 단어들 각각에는 미리 정해진 단어 유사도 기준에 따라 유사한 단어일수록 벡터 사이의 유사도가 높게 연산되도록 미리 설정된 서로 다른 특성 벡터들이 할당되어 있음 - 이 저장되어 있는 사전 데이터베이스;미리 정해진 복수의 제품 키워드들 - 상기 복수의 제품 키워드들은 상기 복수의 단어들 내에 포함되어 있는 단어들임 - 이 저장되어 있는 제품 키워드 데이터베이스;제1 기업의 웹 페이지에 대한 접속 주소가 입력되면, 상기 접속 주소를 기초로 상기 제1 기업의 웹 페이지에 접속하여 상기 제1 기업의 웹 페이지로부터 상기 제1 기업의 웹 페이지 상에 존재하는 복수의 제1 텍스트들을 추출하는 텍스트 추출부;상기 복수의 제1 텍스트들에 대해 형태소 분석을 수행하여 상기 복수의 제1 텍스트들로부터 복수의 제1 단어들을 추출하는 단어 추출부;상기 복수의 제1 단어들의 상기 제1 기업의 웹 페이지 상에서의 등장 빈도수에 기초하여 상기 복수의 제1 단어들 중 적어도 하나의 중요 단어를 선택하는 중요 단어 선택부;상기 적어도 하나의 중요 단어가 선택되면, 상기 제품 키워드 데이터베이스에 저장되어 있는 상기 복수의 제품 키워드들 중 상기 사전 데이터베이스를 참조하여 상기 적어도 하나의 중요 단어 각각에 할당되어 있는 각 특성 벡터와의 유사도가 최대로 연산되는 특성 벡터가 할당되어 있는 적어도 하나의 제품 키워드를 선택하는 제품 키워드 선택부; 및상기 적어도 하나의 제품 키워드가 선택되면, 관리자의 단말에 상기 적어도 하나의 제품 키워드를 상기 제1 기업의 주요 제품 키워드 정보로 전송하는 제품 키워드 정보 전송부를 포함하는 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 장치
|
2 |
2
제1항에 있어서,상기 중요 단어 선택부는상기 제1 기업의 기업명이 입력되면, 상기 복수의 제1 단어들 각각에 대해, 상기 사전 데이터베이스를 참조하여 상기 기업명에 대한 특성 벡터와 상기 복수의 제1 단어들 각각에 대한 특성 벡터 간의 유사도에 기초한 점수를 할당하는 점수 할당부;상기 복수의 제1 단어들 각각이 상기 제1 기업의 웹 페이지 상에서 등장하는 등장 빈도수를 카운트하는 빈도수 카운트부;상기 복수의 제1 단어들 각각에 할당된 점수에 대해, 상기 복수의 제1 단어들의 상기 제1 기업의 웹 페이지 상에서의 등장 빈도수에 기초한 서로 다른 가중치를 적용하여 상기 복수의 제1 단어들 각각에 대한 점수를 보정하는 점수 보정부; 및상기 복수의 제1 단어들 중 상기 보정된 점수가 선정된(predetermined) 기준 점수를 초과하는 점수가 할당되어 있는 단어들을 상기 적어도 하나의 중요 단어로 선택하는 선택부를 포함하는 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 장치
|
3 |
3
제2항에 있어서,상기 중요 단어 선택부는미리 정해진 서로 다른 빈도수 범위들 별로 서로 다른 가중치들이 대응되어 기록되어 있는 가중치 테이블을 저장하여 유지하는 가중치 테이블 유지부를 더 포함하고,상기 점수 할당부는상기 제1 기업의 기업명이 입력되면, 상기 복수의 제1 단어들 중 상기 사전 데이터베이스를 참조하여 상기 기업명에 대한 특성 벡터와 상기 복수의 제1 단어들 각각에 대한 특성 벡터 간의 유사도가 선정된 기준 유사도를 초과하는 단어들에 대해 제1 점수를 할당하고, 상기 복수의 제1 단어들 중 상기 선정된 기준 유사도를 초과하지 않는 단어들에 대해 제2 점수 - 상기 제2 점수는 상기 제1 점수보다 낮은 점수임 - 를 할당하며,상기 점수 보정부는상기 가중치 테이블을 참조하여 상기 복수의 제1 단어들 각각에 대해, 상기 가중치 테이블 상에서 상기 복수의 제1 단어들의 상기 제1 기업의 웹 페이지 상에서의 등장 빈도수가 속해있는 빈도수 범위에 대응하는 가중치를 매칭시킨 후 상기 복수의 제1 단어들 각각에 할당된 점수에 대해, 상기 복수의 제1 단어들 각각에 매칭된 가중치를 적용하여 상기 복수의 제1 단어들 각각에 대한 점수를 보정하는 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 장치
|
4 |
4
제1항에 있어서,상기 텍스트 추출부는상기 제1 기업의 웹 페이지를 구성하는 HTML(Hypertext Markup Language) 코드를 파싱(parsing)하여 상기 HTML 코드 상에서 텍스트 입력과 연관된 태그(tag)를 통해 삽입되어 있는 텍스트들을 추출함으로써, 상기 제1 기업의 웹 페이지 상에 존재하는 상기 복수의 제1 텍스트들을 추출하되, 상기 HTML 코드 상에 하이퍼링크 태그가 존재하는 경우, 상기 하이퍼링크 태그를 통해 링크되어 있는 서브 페이지에 접속하여 상기 서브 페이지의 HTML 코드로부터 텍스트 입력과 연관된 태그를 통해 삽입되어 있는 텍스트들도 함께 추출함으로써, 상기 제1 기업의 웹 페이지 상에 존재하는 상기 복수의 제1 텍스트들에 대한 추출을 수행하는 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 장치
|
5 |
5
제2항에 있어서,서로 다른 특성 벡터 사이에 대한 상기 유사도의 연산은 하기의 수학식 1에 따라 수행되는 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 장치
|
6 |
6
미리 정해진 복수의 단어들 - 상기 복수의 단어들 각각에는 미리 정해진 단어 유사도 기준에 따라 유사한 단어일수록 벡터 사이의 유사도가 높게 연산되도록 미리 설정된 서로 다른 특성 벡터들이 할당되어 있음 - 이 저장되어 있는 사전 데이터베이스를 유지하는 단계;미리 정해진 복수의 제품 키워드들 - 상기 복수의 제품 키워드들은 상기 복수의 단어들 내에 포함되어 있는 단어들임 - 이 저장되어 있는 제품 키워드 데이터베이스를 유지하는 단계;제1 기업의 웹 페이지에 대한 접속 주소가 입력되면, 상기 접속 주소를 기초로 상기 제1 기업의 웹 페이지에 접속하여 상기 제1 기업의 웹 페이지로부터 상기 제1 기업의 웹 페이지 상에 존재하는 복수의 제1 텍스트들을 추출하는 단계;상기 복수의 제1 텍스트들에 대해 형태소 분석을 수행하여 상기 복수의 제1 텍스트들로부터 복수의 제1 단어들을 추출하는 단계;상기 복수의 제1 단어들의 상기 제1 기업의 웹 페이지 상에서의 등장 빈도수에 기초하여 상기 복수의 제1 단어들 중 적어도 하나의 중요 단어를 선택하는 단계;상기 적어도 하나의 중요 단어가 선택되면, 상기 제품 키워드 데이터베이스에 저장되어 있는 상기 복수의 제품 키워드들 중 상기 사전 데이터베이스를 참조하여 상기 적어도 하나의 중요 단어 각각에 할당되어 있는 각 특성 벡터와의 유사도가 최대로 연산되는 특성 벡터가 할당되어 있는 적어도 하나의 제품 키워드를 선택하는 단계; 및상기 적어도 하나의 제품 키워드가 선택되면, 관리자의 단말에 상기 적어도 하나의 제품 키워드를 상기 제1 기업의 주요 제품 키워드 정보로 전송하는 단계를 포함하는 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 방법
|
7 |
7
제6항에 있어서,상기 적어도 하나의 중요 단어를 선택하는 단계는상기 제1 기업의 기업명이 입력되면, 상기 복수의 제1 단어들 각각에 대해, 상기 사전 데이터베이스를 참조하여 상기 기업명에 대한 특성 벡터와 상기 복수의 제1 단어들 각각에 대한 특성 벡터 간의 유사도에 기초한 점수를 할당하는 단계;상기 복수의 제1 단어들 각각이 상기 제1 기업의 웹 페이지 상에서 등장하는 등장 빈도수를 카운트하는 단계;상기 복수의 제1 단어들 각각에 할당된 점수에 대해, 상기 복수의 제1 단어들의 상기 제1 기업의 웹 페이지 상에서의 등장 빈도수에 기초한 서로 다른 가중치를 적용하여 상기 복수의 제1 단어들 각각에 대한 점수를 보정하는 단계; 및상기 복수의 제1 단어들 중 상기 보정된 점수가 선정된(predetermined) 기준 점수를 초과하는 점수가 할당되어 있는 단어들을 상기 적어도 하나의 중요 단어로 선택하는 단계를 포함하는 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 방법
|
8 |
8
제7항에 있어서,상기 적어도 하나의 중요 단어를 선택하는 단계는미리 정해진 서로 다른 빈도수 범위들 별로 서로 다른 가중치들이 대응되어 기록되어 있는 가중치 테이블을 저장하여 유지하는 단계를 더 포함하고,상기 점수를 할당하는 단계는상기 제1 기업의 기업명이 입력되면, 상기 복수의 제1 단어들 중 상기 사전 데이터베이스를 참조하여 상기 기업명에 대한 특성 벡터와 상기 복수의 제1 단어들 각각에 대한 특성 벡터 간의 유사도가 선정된 기준 유사도를 초과하는 단어들에 대해 제1 점수를 할당하고, 상기 복수의 제1 단어들 중 상기 선정된 기준 유사도를 초과하지 않는 단어들에 대해 제2 점수 - 상기 제2 점수는 상기 제1 점수보다 낮은 점수임 - 를 할당하며,상기 점수를 보정하는 단계는상기 가중치 테이블을 참조하여 상기 복수의 제1 단어들 각각에 대해, 상기 가중치 테이블 상에서 상기 복수의 제1 단어들의 상기 제1 기업의 웹 페이지 상에서의 등장 빈도수가 속해있는 빈도수 범위에 대응하는 가중치를 매칭시킨 후 상기 복수의 제1 단어들 각각에 할당된 점수에 대해, 상기 복수의 제1 단어들 각각에 매칭된 가중치를 적용하여 상기 복수의 제1 단어들 각각에 대한 점수를 보정하는 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 방법
|
9 |
9
제6항에 있어서,상기 복수의 제1 텍스트들을 추출하는 단계는상기 제1 기업의 웹 페이지를 구성하는 HTML(Hypertext Markup Language) 코드를 파싱(parsing)하여 상기 HTML 코드 상에서 텍스트 입력과 연관된 태그(tag)를 통해 삽입되어 있는 텍스트들을 추출함으로써, 상기 제1 기업의 웹 페이지 상에 존재하는 상기 복수의 제1 텍스트들을 추출하되, 상기 HTML 코드 상에 하이퍼링크 태그가 존재하는 경우, 상기 하이퍼링크 태그를 통해 링크되어 있는 서브 페이지에 접속하여 상기 서브 페이지의 HTML 코드로부터 텍스트 입력과 연관된 태그를 통해 삽입되어 있는 텍스트들도 함께 추출함으로써, 상기 제1 기업의 웹 페이지 상에 존재하는 상기 복수의 제1 텍스트들에 대한 추출을 수행하는 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 방법
|
10 |
10
제7항에 있어서,서로 다른 특성 벡터 사이에 대한 상기 유사도의 연산은 하기의 수학식 2에 따라 수행되는 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 방법
|
11 |
11
제6항 내지 제10항 중 어느 한 항의 방법을 컴퓨터로 하여금 수행하도록 하는 프로그램을 기록한 컴퓨터 판독 가능 기록 매체
|
12 |
12
제6항 내지 제10항 중 어느 한 항의 방법을 컴퓨터와의 결합을 통해 실행시키기 위한 저장매체에 저장된 컴퓨터 프로그램
|