1 |
1
단어-특징벡터를 저장하고 있는 특징 벡터 데이터베이스로부터 탐지 대상 단어의 특징 벡터를 추출하는 특징 벡터 추출부;상기 특징 벡터 데이터베이스로부터 상기 탐지 대상 단어의 특징 벡터와 유사한 N개의 특징 벡터에 상응하는 N개의 단어를 추출하고 상기 추출된 N개의 단어 및 상기 탐지 대상 단어 중 적어도 하나가 비속어 데이터베이스에 저장된 비속어일 경우 상기 탐지 대상 단어를 비속어라고 판단하는 비속어 판단부; 및학습 과정에서 입력되는 문장을 이용하여 단어에 대한 특징 벡터를 학습을 통해 설정하는 특징 벡터 학습부를 포함하되,상기 특징 벡터 데이터베이스에 저장되는 특징 벡터들은 학습을 통해 설정되며, 상기 학습은 학습되는 문장에서 특정 단어와 동시출연 가능성이 높은 다른 단어들이 유사한 특징 벡터를 가지도록 이루어지고,상기 특징 벡터 학습부는 벡터 설정/갱신부 및 에러 함수 피드백 모듈을 포함하고, 초기에는 임의로 각 단어의 단어 아이디 벡터 및 변환 벡터를 설정하고, 상기 에러 함수 피드백 모듈은 특정 단어와 동시 출연하는 단어의 동시 출연 확률과 상기 특정 단어와 상기 동시 출연하는 단어의 특징 벡터의 차이값에 기초한 에러값을 상기 벡터 설정/갱신부에 제공하며, 상기 벡터 설정/갱신부는 상기 에러값에 기초하여 상기 각 단어의 단어 아이디 벡터 및 상기 변환 벡터를 갱신하는 것을 특징으로 하는 학습 기반의 비속어 탐지 장치
|
2 |
2
제1항에 있어서,입력되는 문장을 분석하여 탐지 대상 단어를 추출하고, 각 탐지 대상 단어에 대한 품사 태깅을 수행하는 문장 분석부를 더 포함하는 것을 특징으로 하는 학습 기반의 비속어 탐지 장치
|
3 |
3
삭제
|
4 |
4
제1항에 있어서,상기 특징 벡터 학습부는 각 단어에 대한 단어 아이디 벡터와 상기 단어 아이디 벡터를 변환하기 위한 변환 벡터를 학습하는 것을 특징으로 하는 학습 기반의 비속어 탐지 장치
|
5 |
5
삭제
|
6 |
6
삭제
|
7 |
7
단어-특징벡터를 저장하고 있는 특징 벡터 데이터베이스로부터 탐지 대상 단어의 특징 벡터를 추출하는 단계(a);상기 특징 벡터 데이터베이스로부터 상기 탐지 대상 단어의 특징 벡터와 유사한 N개의 특징 벡터에 상응하는 N개의 단어를 추출하고 상기 추출된 N개의 단어 및 상기 탐지 대상 단어 중 적어도 하나가 비속어 데이터베이스에 저장된 비속어일 경우 상기 탐지 대상 단어를 비속어라고 판단하는 단계(b)를 포함하되,상기 특징 벡터 데이터베이스에 저장되는 특징 벡터들은 학습을 통해 설정되며, 상기 학습은 학습되는 문장에서 특정 단어와 동시출연 가능성이 높은 다른 단어들이 유사한 특징 벡터를 가지도록 이루어지고,상기 특징 벡터를 학습을 통해 설정하는 단계는, 벡터 설정 및 갱신을 수행하는 단계; 및 에러 함수 피드백 단계를 포함하고,상기 벡터 설정 및 갱신을 수행하는 단계는, 초기에는 임의로 각 단어의 단어 아이디 벡터 및 변환 벡터를 설정하며, 상기 에러 함수 피드백 단계는 특정 단어와 동시 출연하는 단어의 동시 출연 확률과 상기 특정 단어와 상기 동시 출연하는 단어의 특징 벡터의 차이값에 기초한 에러값을 피드백하고, 상기 벡터 설정 및 갱신을 수행하는 단계는, 상기 에러값에 기초하여 상기 각 단어의 단어 아이디 벡터 및 상기 변환 벡터를 갱신하는 것을 특징으로 하는 학습 기반의 비속어 탐지 방법
|
8 |
8
제7항에 있어서,상기 단계(a)에 선행하여 입력되는 문장을 분석하여 탐지 대상 단어를 추출하고, 각 탐지 대상 단어에 대한 품사 태깅을 수행하는 단계를 더 포함하는 것을 특징으로 하는 학습 기반의 비속어 탐지 방법
|
9 |
9
제7항에 있어서,학습 과정에서 입력되는 문장을 이용하여 단어에 대한 특징 벡터를 학습을 통해 설정하는 단계를 더 포함하는 것을 특징으로 하는 학습 기반의 비속어 탐지 방법
|
10 |
10
제9항에 있어서,상기 특징 벡터를 학습을 통해 설정하는 단계는, 각 단어에 대한 단어 아이디 벡터와 상기 단어 아이디 벡터를 변환하기 위한 변환 벡터를 학습하는 것을 특징으로 하는 학습 기반의 비속어 탐지 방법
|
11 |
11
삭제
|
12 |
12
삭제
|
13 |
13
제7항의 방법을 실행하기 위한 프로그램이 유형적으로 기록되어 있으며 컴퓨터에 의한 판독 가능한 프로그램을 기록한 기록매체
|