요약 |
본 발명은 음성지원 브라우저의 웹 문서 본문 추출방법에 관한 것으로, 컨텐츠 변환기를 구비하는 음성지원 브라우저의 HTML 문서에서 핵심이 되는 부분의 문장을 자동으로 추출하는 본문 추출부에 의해 추출된 문장만을 음성으로 출력하여 사용자에게 제공하는 것이다. 본 발명의 HTML DOM 문서에서 핵심이 되는 본문 문단을 추출하는 방법은, 상기 HTML DOM 문서의 최상위 노드에서 자식 노드가 존재하는지를 판단하여, 상기 자식 노드가 존재하는 경우, 상기 자식 노드의 WIDTH 속성 값, 모든 문자수의 합(TN), 문자열, 평균 문자수(MT) 및 상기 자식 노드의 문자열에서 제목과 일치하는 단어의 개수(TM)를 구한 후, 상기 구해진 WIDTH, TN, MT, TM을 이용하여 가중치 값을 계산하고, 상기 구해진 가중치 값이 가장 큰 노드를 선택하여, 후보 노드에 추가하고, 상기 후보 노드에 자식 노드가 있는 경우, 상기한 단계를 반복 실행한다. 한편, 상기 후보 노드나 최상위 노드에 자식노드가 없는 경우에는, 최적의 노드를 선택하여, 하위 문장을 추출한 후, VoiceXML 파일을 생성한다. VoiceXML, 컨텐츠 변환기, 음성지원 브라우저, 본문 추출부
|