1 |
1
입력된 텍스트 문장을 의미단위로 파싱하여 XML 데이터로 변환하는 제 1 단계와,상기 변환된 XML 데이터에 상기 문장의 문맥을 고려한 속성값을 설정하여 최종 XML 데이터를 생성하는 제 2 단계를 포함하는 것을 특징으로 하는 XML을 이용한 텍스트 정규화 방법
|
2 |
2
제 1 항에 있어서, 상기 제 1 단계는상기 입력된 텍스트 문장을 어절단위로 분리하고, 이 분리된 어절단위를 의미분석이 가능한 각각의 의미단위로 파싱하는 단계와,상기 파싱된 각각의 의미 단위를 기 정의된 제 1 XML DTD(Document Type Definition)에 의거하여 XML 데이터로 변환하는 단계를 포함하는 것을 특징으로 하는 XML을 이용한 텍스트 정규화 방법
|
3 |
3
제 2 항에 있어서, 상기 파싱단계는 상기 입력된 문장의 형태소 분석, 품사 태깅(tagging) 및 구문 분석 중 적어도 하나 이상을 이용하여 파싱하는 것을 특징으로 하는 XML을 이용한 텍스트 정규화 방법
|
4 |
4
제 2 항에 있어서, 상기 제 1 XML DTD는문장(<SENT>) 엘리먼트를 루트(root) 엘리먼트로 하고, 상기 문장 엘리먼트의 하위 엘리먼트로 적어도 하나 이상의 어절(<EOJEOL>) 엘리먼트를 형성하는 단계와,상기 적어도 하나 이상의 어절 엘리먼트 각각에 대하여 그 의미에 따라 복수개의 서브 엘리먼트를 형성하는 단계를 포함하는 것을 특징으로 하는 XML을 이용한 텍스트 정규화 방법
|
5 |
5
제 4 항에 있어서,상기 서브 엘리먼트는 한국어(<KOR>), 영어(<ENG>), 한자어(<CHI>), 숫자(NUM), 기호(<SYM>) 중 하나인 것을 특징으로 하는 XML을 이용한 텍스트 정규화 방법
|
6 |
6
제 5 항에 있어서, 상기 제 2 단계는상기 변환된 XML 데이터를 판독한 후에 기 정의된 제 2 XML DTD(Document Type Definition)에 따라 문맥을 고려하여 상기 서브 엘리먼트 각각에 대한 속성값을 설정하는 단계와,상기 설정된 속성값을 고려하여 해당규칙에 따라 텍스트 정규화에 따른 텍스트 데이터의 변환을 위한 최종적인 XML 데이터를 생성하는 단계를 포함하는 것을 특징으로 하는 XML을 이용한 텍스트 정규화 방법
|
7 |
7
제 6 항에 있어서, 상기 복수의 서브 엘리먼트트 각각에 대하여,상기 서브 엘리먼트가 한국어(<KOR>) 엘리먼트인 경우는 yeal_han(열한방식), sip_il(십일방식), none(변환에 필요한 정보가 없는 경우)의 속성값을 적어도 하나 포함하여 정의하고, 상기 서브 엘리먼트가 영어(<ENG>) 엘리먼트인 경우는 email(전자메일), web(web 주소), acronym(약자 및 영단어), unit(영문단위), none(알파벳으로 발음)의 속성값을 적어도 하나 포함하여 정의하고, 상기 서브 엘리먼트가 한자어(<CHI>) 엘리먼트인 경우는 none(해당 한글로 변환)의 속성값을 적어도 하나 포함하여 정의하고,상기 서브 엘리먼트가 숫자(<NUM>) 엘리먼트인 경우는 decimal(소수점), range(범위), score(스코어), exp(수식), time(시간), date(날짜), tel(전화/팩스), post(우편번호), ip(IP), card(카드번호), account(계좌번호), event(사건일자), none(일정형식이 없는 수, 다음에 올 <KOR> 노드를 참조하여 변환)의 속성값을 적어도 하나 포함하여 정의하고,상기 서브 엘리먼트가 기호<SYM> 엘리먼트인 경우는 one-byte(1 바이트 문자), two-byte(2 바이트 문자) 등의 속성값을 적어도 하나 포함하여 정의하는 것을 특징으로 하는 XML을 이용한 텍스트 정규화 방법
|
8 |
8
텍스트 문장을 저장하는 저장부와,상기 저장부에 저장된 텍스트 문장을 어절 단위로 분리한 후, 상기 어절 단위로 분리된 텍스트 데이터를 의미분석이 가능한 의미단위로 파싱하는 파싱기와,상기 파싱기에서 파싱된 텍스트 데이터를 기 정의된 제 1 XML DTD(Document Type Definition)에 의거하여 분리된 어절 단위로 XML 데이터로 변환하는 XML 데이터 변환기와,상기 XML 데이터 변환기에서 변환된 XML 데이터를 읽어 전후 문맥을 파악하고 이 파악된 문맥을 고려하여 어절 단위로 속성값을 설정하는 속성 설정기와,상기 속성 설정기를 통해 각 어절 단위로 속성값이 설정되면 텍스트 정규화에 따른 텍스트 데이터의 변환을 위한 최종적인 XML 데이터를 생성하는 XML 데이터 생성기를 포함하는 것을 특징으로 하는 XML을 이용한 텍스트 정규화 장치
|
9 |
9
제 8 항에 있어서, 상기 제 1 XML DTD(Document Type Definition)는 문장(<SENT>) 엘리먼트를 루트(root) 엘리먼트로 하고, 상기 문장 엘리먼트의 하위 엘리먼트로 다수개의 어절(<EOJEOL>) 엘리먼트를 포함하며, 상기 각각의 어절 엘리먼트는 그 의미에 따라 서로 다른 복수개의 서브 엘리먼트로 이루어진 트리 구조로 구성되는 것을 특징으로 하는 XML을 이용한 텍스트 정규화 장치
|