1 |
1
문장을 인가받아 문자 단위로 구분하고, 구분된 다수의 문자 각각을 문자 벡터로 변환하는 전처리부; 미리 학습된 패턴 추정 방식에 따라 다수의 문자 벡터를 순차적으로 인코딩하여 다수의 특징 벡터와 다수의 히든 벡터를 추출하되, 이전 문자 벡터를 인코딩할때 획득된 히든 벡터를 현재 문자 벡터와 함께 인코딩하는 인코더; 상기 다수의 히든 벡터 중 최종 히든 벡터를 인가받아 미리 학습된 패턴 인식 방식에 따라 디코딩하여 디코딩 벡터를 획득하는 디코더; 상기 다수의 특징 벡터 각각와 상기 디코딩 벡터 사이의 유사도를 비교하여 다수의 가중치를 획득하고, 획득된 다수의 가중치 각각을 대응하는 특징 벡터에 반영하여 다수의 정규화 벡터를 획득하는 정규화부; 상기 정규화 벡터를 미리 지정된 방식으로 결합하여 구문 벡터를 획득하는 구문 벡터 획득부; 및 미리 학습된 패턴 추정 방식에 따라 상기 구문 벡터의 특징을 추출하고, 추출된 구문 벡터의 특징을 분류하여 비윤리어 포함 여부를 판별하는 판정부; 를 포함하는 비윤리어 탐지 장치
|
2 |
2
제1 항에 있어서, 상기 인코더는 상기 다수의 문자 벡터 중 대응하는 문자 벡터와 이전 획득된 히든 벡터를 인가받아 문자 벡터와 히든 벡터의 특징을 추출하여 특징 벡터와 히든 벡터를 각각 출력하는 다수의 인코딩 셀을 포함하고, 상기 다수의 인코딩 셀 중 최초 인코딩 셀은 대응하는 문자 벡터와 함께 미리 설정된 더미 히든 벡터를 인가받아 특징 벡터와 히든 벡터를 출력하는 비윤리어 탐지 장치
|
3 |
3
제2 항에 있어서, 상기 다수의 히든 벡터와 상기 다수의 특징 벡터는 동일한 값을 갖는 비윤리어 탐지 장치
|
4 |
4
제2 항에 있어서, 상기 인코더와 상기 디코더 및 상기 판정부는 비속어 포함 여부만이 레이블링된 문장을 학습용 데이터로 이용하여 판별된 비윤리어 포함 여부에 대한 오차가 역전파되는 약지도 학습된 인공 신경망으로 구현되는 비윤리어 탐지 장치
|
5 |
5
제4 항에 있어서, 상기 인코더는 미리 학습된 LSTM(Long Short Term Memory)로 구현되고, 상기 다수의 인코딩 셀 각각은 대응하는 문자 벡터와 이전 획득된 히든 벡터 중 적어도 하나를 인가받아 문자 벡터와 히든 벡터를 각각 출력하는 LSTM 셀로 구현되는 비윤리어 탐지 장치
|
6 |
6
문장을 인가받아 문자 단위로 구분하고, 구분된 다수의 문자 각각을 문자 벡터로 변환하는 단계; 미리 학습된 패턴 추정 방식에 따라 다수의 문자 벡터를 순차적으로 인코딩하여 다수의 특징 벡터와 다수의 히든 벡터를 추출하되, 이전 문자 벡터를 인코딩할때 획득된 히든 벡터를 현재 문자 벡터와 함께 인코딩하는 단계; 상기 다수의 히든 벡터 중 최종 히든 벡터를 인가받아 미리 학습된 패턴 인식 방식에 따라 디코딩하여 디코딩 벡터를 획득하는 단계; 상기 다수의 특징 벡터 각각와 상기 디코딩 벡터 사이의 유사도를 비교하여 다수의 가중치를 획득하고, 획득된 다수의 가중치 각각을 대응하는 특징 벡터에 반영하여 다수의 정규화 벡터를 획득하는 단계; 상기 정규화 벡터를 미리 지정된 방식으로 결합하여 구문 벡터를 획득하는 단계; 및 미리 학습된 패턴 추정 방식에 따라 상기 구문 벡터의 특징을 추출하고, 추출된 구문 벡터의 특징을 분류하여 비윤리어 포함 여부를 판별하는 단계; 를 포함하는 비윤리어 탐지 방법
|
7 |
7
제6 항에 있어서, 상기 인코딩하는 단계는 상기 다수의 문자 벡터 중 최초 문자 벡터를 미리 설정된 더미 히든 벡터와 함께 인코딩하여 특징 벡터와 히든 벡터를 추출하는 단계; 및 이후 나머지 문자 벡터 중 대응하는 문자 벡터와 이전 획득된 히든 벡터를 함께 인코딩하여 특징 벡터와 히든 벡터를 각각 추출하는 단계; 를 포함하는 비윤리어 탐지 방법
|
8 |
8
제6 항에 있어서, 상기 비윤리어 탐지 방법은 학습 시에, 비속어 포함 여부만이 레이블링된 문장을 학습용 데이터로 이용하여 판별된 비윤리어 포함 여부에 대한 오차가 역전파되어 약지도 학습되는 비윤리어 탐지 방법
|