1 |
1
적어도 하나 이상의 시각적 콘텐트를 포함하는 파일을 입력 받는 단계로서, 상기 적어도 하나 이상의 시각적 콘텐트는 텍스트 콘텐트 또는 그림 콘텐트를 포함하고;상기 시각적 콘텐트를 좌표화하여 HTML 형태의 텍스트 데이터를 추출하는 단계;상기 파일의 각 페이지를 이미지로 변환하는 단계;상기 변환된 이미지에 포함된 상기 적어도 하나 이상의 시각적 콘텐트로부터 적어도 하나 이상의 콘텐트 블록 영역을 추출하고 가시화하는 단계; 사용자의 입력 신호에 따라 상기 가시화된 적어도 하나 이상의 콘텐트 블록 영역에 대응하는 레이아웃을 수정하는 단계; 및상기 수정된 레이아웃에 대응하는 적어도 하나 이상의 콘텐트 블록 영역에 포함된 데이터를 추출하여 XML을 생성하는 단계를 포함하는 XML 생성방법
|
2 |
2
제1항에 있어서, 상기 시각적 콘텐트를 좌표화하여 HTML 형태의 텍스트 데이터를 추출하는 단계는, 상기 시각적 콘텐트가 텍스트 콘텐트인 경우, 상기 텍스트 콘텐트를 구성하는 각 문자의 위치 좌표, 폰트 크기, 서체 정보를 포함하는 정보를 추출하는 단계; 및상기 추출된 정보를 기반으로, 상기 추출된 위치 좌표의 일정 크기를 더한 좌표 내에 위치한 문자를 묶어 HTML 형태의 텍스트 데이터를 추출하는 단계를 더 포함하는 XML 생성방법
|
3 |
3
제1항에 있어서, 상기 파일의 각 페이지를 이미지로 변환하는 단계는,상기 변환된 이미지를 저장하는 단계를 더 포함하는 XML 생성방법
|
4 |
4
제1항에 있어서, 상기 변환된 이미지에 포함된 상기 적어도 하나 이상의 시각적 콘텐트로부터 적어도 하나 이상의 콘텐트 블록 영역을 추출하고 가시화하는 단계는,상기 시각적 콘텐트가 텍스트 콘텐트인 경우, 문단 수준으로 묶을 수 있는 연속된 텍스트의 좌표를 획득하여 상기 콘텐트 블록 영역을 추출하는 것을 포함하는 XML 생성방법
|
5 |
5
제1항에 있어서, 상기 변환된 이미지에 포함된 상기 적어도 하나 이상의 시각적 콘텐트로부터 적어도 하나 이상의 콘텐트 블록영역을 추출하고 가시화하는 단계는, 상기 시각적 콘텐트가 그림 콘텐트인 경우, 상기 HTML 형태의 텍스트 데이터로부터 상기 콘텐트 블록 영역의 좌표를 획득하거나 또는 상기 변환된 이미지를 Gray Scale변환, Binary Filter처리를 하여 흑 /백 변환 후 Erosion Size, Dilation Element, Dilation Size, Erosion Element 및 Canny Threshold를 조정하면서Contour를 찾는 방법으로 상기 콘텐트 블록 영역을 추출하는 것을 포함하는 XML 생성방법
|
6 |
6
제 1항에 있어서, 상기 사용자의 입력 신호에 따라 상기 가시화된 적어도 하나 이상의 콘텐트 블록 영역에 대응하는 레이아웃을 수정하는 단계는,상기 수정된 레이아웃의 좌표를 저장하는 단계를 더 포함하는 XML 생성방법
|
7 |
7
제1항에 있어서, 상기 수정된 레이아웃에 대응하는 적어도 하나 이상의 콘텐트 블록 영역에 포함된 데이터를 추출하여 XML을 생성하는 단계는,상기 추출된 데이터가 그림 콘텐트에 대응하는 경우 콘텐트 블록 영역의 시작 좌표 및 끝 좌표 내에서 상기 데이터를 추출하는 것을 포함하는 XML 생성방법
|
8 |
8
제 1항에 있어서, 상기 수정된 레이아웃에 대응하는 적어도 하나 이상의 콘텐트 블록 영역에 포함된 데이터를 추출하여 XML을 생성하는 단계는,상기 추출된 데이터가 텍스트 콘텐트에 대응하는 경우 상기 HTML형태로 추출된 텍스트 데이터와 상기 수정된 레이아웃에 대응하는 적어도 하나 이상의 콘텐트 블록 영역 중 텍스트 블록 영역에서 추출한 텍스트를 비교하여 보정하는 단계를 더 포함하는 XML 생성방법
|
9 |
9
제 1항에 있어서, 상기 수정된 레이아웃에 대응하는 적어도 하나 이상의 콘텐트 블록 영역에 포함된 데이터를 추출하여 XML을 생성하는 단계는, 상기 생성된 XML에 대한 유효성검사를 수행하는 단계를 더 포함하는 XML 생성방법
|
10 |
10
제 1항에 있어서, 상기 수정된 레이아웃에 대응하는 적어도 하나 이상의 콘텐트 블록 영역에 포함된 데이터를 추출하여 XML을 생성하는 단계는, 상기 적어도 하나 이상의 콘텐트 블록 영역에 대응하는 XML태그들을 부착하는 단계를 더 포함하는 XML 생성방법
|
11 |
11
적어도 하나 이상의 시각적 콘텐트를 포함하는 파일을 입력 받는 파일입력모듈로서, 상기 적어도 하나 이상의 시각적 콘텐트는 텍스트 콘텐트 또는 그림 콘텐트를 포함하고;상기 시각적 콘텐트를 좌표화하여 HTML 형태의 텍스트 데이터를 추출하는 HTML 형태의 텍스트 데이터 추출모듈;상기 파일의 각 페이지를 이미지로 변환하는 이미지변환모듈;상기 변환된 이미지에 포함된 상기 적어도 하나 이상의 시각적 콘텐트로부터 적어도 하나 이상의 콘텐트 블록 영역을 추출하고 가시화하는 레이아웃가시화 모듈; 사용자의 입력 신호에 따라 상기 가시화된 적어도 하나 이상의 콘텐트 블록 영역에 대응하는 레이아웃을 수정하는 레이아웃수정모듈; 및상기 수정된 레이아웃에 대응하는 적어도 하나 이상의 콘텐트 블록 영역에 포함된 데이터를 추출하는 XML생성모듈을 포함하는 XML 생성시스템
|
12 |
12
제11항에 있어서, 상기 HTML 형태의 텍스트 데이터 추출모듈은,상기 시각적 콘텐트가 텍스트 콘텐트인 경우, 상기 텍스트 콘텐트를 구성하는 각 문자의 위치 좌표, 폰트 크기, 서체를 포함하는 정보를 추출하여 상기 추출된 정보를 기반으로 상기 추출된 위치 좌표의 일정 크기를 더한 좌표 내에 위치한 문자를 묶어 HTML 형태의 텍스트 데이터를 추출하는 것을 포함하는 XML 생성시스템
|
13 |
13
제11항에 있어서, 상기 이미지변환모듈은,상기 변환된 이미지를 저장하는 것을 포함하는 XML 생성시스템
|
14 |
14
제11항에 있어서, 상기 레이아웃가시화 모듈은, 상기 시각적 콘텐트가 텍스트 콘텐트인 경우, 문단 수준으로 묶을 수 있는 연속된 텍스트의 좌표를 획득하여 상기 콘텐트 블록 영역을 추출하는 것을 포함하는 XML 생성시스템
|
15 |
15
제11항에 있어서, 상기 레이아웃가시화 모듈은,상기 시각적 콘텐트가 그림 콘텐트인 경우, 상기 HTML 형태의 텍스트 데이터로부터 상기 콘텐트 블록영역의 좌표를 획득하거나 또는 상기 변환된 이미지를 Gray Scale변환, Binary Filter처리를 하여 흑 /백 변환 후 Erosion Size, Dilation Element, Dilation Size, Erosion Element 및 Canny Threshold를 조정하면서Contour를 찾는 방법으로 상기 콘텐트 블록 영역을 추출하는 것을 포함하는 XML 생성시스템
|
16 |
16
제 11항에 있어서, 상기 레이아웃수정모듈은,상기 수정된 레이아웃의 좌표를 저장하는 것을 포함하는 XML 생성시스템
|
17 |
17
제11항에 있어서, 상기 XML생성모듈은,상기 추출된 데이터가 그림 콘텐트에 대응하는 경우 콘텐트 블록 영역의 시작 좌표 및 끝 좌표 내에서 상기 데이터를 추출하는 것을 포함하는 XML 생성시스템
|
18 |
18
제 11항에 있어서, 상기 XML생성모듈은,상기 추출된 데이터가 텍스트 콘텐트에 대응하는 경우 상기 HTML형태로 추출된 텍스트 데이터와 상기 수정된 레이아웃에 대응하는 적어도 하나 이상의 콘텐트 블록 영역 중 텍스트 블록 영역에서 추출한 텍스트를 비교하여 보정하는 것을 포함하는 XML 생성시스템
|
19 |
19
제 11항에 있어서, 상기 XML생성모듈은, 상기 생성된 XML에 대한 유효성검사를 수행하는 것을 포함하는 XML 생성시스템
|
20 |
20
제 11항에 있어서, 상기 XML생성모듈은, 상기 적어도 하나 이상의 콘텐트 블록 영역에 대응하는 XML태그들을 부착하는 것을 포함하는 XML 생성시스템
|