2. Celartem Technology
1.소개
DjVu는 한마디로 정의하자면 오프라인상에서의 흑백 또는 컬러 종이문서의 세계를 온라인 디
지털 웹에서도 그 품질 그대로 유지하고 검색, 배포, 압축, 저장할 수 있게 한 새로운 압축 기술
이다. 이 기술은 1990년대 후반에 미국 AT&T Lab에서 연구 개발된 것으로 2000년 초에 미국
시애들 소재의 Lizadtech에서 관련 기술을 인수하면서 보급되기 시작한 솔루션이다. 현재는
Lizartech 사는 Celartem 사의 100% 자회사로서 흡수 통합되었다.
DjVu 기술이 주는 주요 사상은 “Scan-to-Web’ 이다. 그 동안 스캐닝을 통해서 디지털화되는
일반 문서나 고화질의 사진 등이 그 파일의 크기가 커서 웹을 통해서 서비스가 불가능 하던 문
제점을 일소에 해소하는 기술인 것이다. 최근에는 고품질의 컬러 스캐너와 디지털 카메라의 보
급으로 인하여 오프라인상의 종이 문서나 책자들에 대한 디지털화 요구가 증대되고 있는 시점
에서 이러한 기술은 더더욱 진가를 발휘하게 된다.
DjVu라는 단어는 불어 ‘déjà vu’ 에서 온 것으로 ‘어디서 본 듯한 느낌 또는 착각’ 이란 뜯을 갖
고 있다고 한다. 우리말로는 ‘데자뷰’로 발음한다. DjVu는 웹 상에서 통용되는 TIFF, PDF,
JPEG과 같이 또 다른 하나의 파일 포맷이기도 하다. DjVu로 만들어진 문서는 확장자가 ‘djvu’
또는 ‘djv’로 표시 된다. DjVu로 표시된 문서는 PDF문서와 마찬가지로 자유롭게 웹에서 저장,
배포, 다운로드, 이메일 전송 등이 가능하다. DjVu 문서를 보기 위해서는 리자드텍
(www.lizardtech.com)사 홈페이지에서 무료로 다운로드 받을 수 있다. 사용자의 브라우져에
따라서 윈도우시스템에서는 익스플로러용 유닉스에서는 네스케이프용 그리고 Mac 사용자는
Mac용 reader 기를 다운로드 받아서 사용할 수 있다.
1000페이지가 넘는 컬러 책자를 300DPI 해상도로 스캐닝 하여 웹에서 서비스 한다고 할 때
300DPI 해상도의 품질을 웹에서 유지 하기 위해서는 적어도 400Mbytes (JPEG으로 페이지당
500Kbyte 정도 소요)이상의 파일 크기가 필요하게 된다. 400Mbytes 나 되는 책자를 웹에서
서비스하는 것은 거의 불가능하다고 볼 수 있을 것이다. DjVu는 400Mbytes를 1/20로 압축하
여 20Mbtyes 만들 수 있고 페이지 단위의 스트리밍 기술을 적용하여 책자의 페이지수와 파일
의 크기에 상관 없이 고 화질의 디지털 북을 일정한 검색 속도(1-2초 정도)를 보장하면서 검색
할 수 있게 한다.
지도나 도면을 디지털화 할 경우 한 장의 파일 크기는 100Mbytes 또는 200Mbytes 이상 넘는
경우가 보통이다. 이정도 크기면 일반적인 방법으로 웹에서 서비스할 수 있는 정도의 크기를 넘
어서게 된다. DjVu는 이러한 지도나 도면과 같이 한 장의 이미지의 크기가 큰 경우도 적절한 크
기로 압축을 할 뿐만 아니라 웹에서 서비스할 경우 소위 점진적인 이미지 전송 기술을 통해서
아무리 큰 크기의 이미지라도 사용자의 화면에는 기다림 없이 이미지를 순식간에 볼 수가 있게
하여 준다.
스캐닝 또는 디지털 카메라를 통해서 만들어진 모든 디지털 자료나 사진들은 DjVu로 변환이 가
능하다. 뿐만 아니라 MS-Office문서(워드, 파워포인트, 엑셀)나 아래아한글 문서, PDF문서 등
등을 모두 DjVu 문서로 변환 할 수 있다.
3. Celartem Technology
2. DjVu 압축 방식 소개
DjVu는 크게 3가지의 압축 방식을 제공한다.
- 흑백(bitonal) 이미지 압축은 표준 JBIG2의 기술을 적용한 JB2 압축 방식, 이방식은 흑
백 이미지에 대하여 Lossless/Visual Lossless 방식을 모두 적용하여 압축 할 수 있다.
- 컬러 이미지 압축은 Wavelet 방식인 IW44 압축 적용. 이방식은 JPEG2000과 같은
wavelet 기술을 사용한다.
- MRC (Mixed Raster Content) 압축 방식- 이방식은 앞에서 소개 된 것과 같이 이미지
내용을 분석하여 3개의 계층으로 자동 분리하여 각각 계층에 맞는 이미지 압축 방식을
적용한다
4. Celartem Technology
3. 흑백 문서를 위한 TIFF 포맷과 DjVu와의 비교
우리는 팩스기를 통해서 문서를 전송하거나 수신하기도 한다. 팩스기는 일반 전화선을 통해서
기껏 해야 9600bps 정도의 속도로 필요한 데이터를 송수신 한다. 따라서 이러한 낮은 속도의
전송라인을 통해서 가능 한한 많은 정보를 보내기 위해서는 전송 정보량을 최대한 줄이는 것이
관건일 것이다.
1980년에 CCITT 표준화 그룹에서는 소위 Bi-level 이미지(흑백 이미지)를 표현하기 위한
Group 3 표준 포맷을 정했
다. 1984년에는 G3 표준을
좀더 향상 시킨 압축 권고안
Group 4가 발표되었다. 팩
스 전송뿐만 아니라 디지털
도서관 분야에서 흑백 원문
을 스캐닝 하여 이미지화하
는데 가장 많이 사용하고 있
는 포맷이 바로 G4 표준 압
축 방식으로 표현되는 TIFF
G4 타입이다.
G4 표준이 발표된 이후
1993년에 Joint Bi-level
Images Experts Group (JBIG)에서는 새로운 흑백 이미지 코딩 표준을 JBIG1 이름으로 발표하
였으나 G4 표준보다 좋은 압축률을 갖고 있음에도 불구하고 G4 표준만큼 널리 보급되지는 못
하였다. 2000년에는 G4 표준 보다 약 3 - 4배 정도의 압축률이 좋은 JBIG2가 발표되었다.
AT&T 는 당시에 JBIG2 표준에 근거하여 흑백 문서이미지 압축 포맷을 개발 하였는데 이것이
DjVu JB2이다.
DjVu JB2 포맷은 일반적으로 TIFF G4 이미지 크기 보다 약 3-5배 정도의 압축 률 갖고 있다..
TIFF G4는 단순히 흑백 이미지를 압축하는 표준 포맷일 뿐이지 그 이상도 아니다. TIFF 포맷
안에 PDF 문서와 같이 목차를 보여주는 책갈피 정보를 삽입하여 활용할 수 있게 하는 기능, 메
타 데이터를 이미지 안에 삽입하여 검색 시 활용하는 기능, 원문의 본문 내용을 검색할 수 있도
록 텍스트 정보를 원문이미지와 같이 표현할 수 있는 기능 등을 지원하지 않기 때문에 이러한
기능을 위해서는 별도의 응용프로그램을 만들어서 제공해야 하는 문제점들을 갖고 있다.
다른 이미지 포맷과는 다르게 여러 장의 페이지를 하나의 파일에 번들로 저장할 수 있는 Multi-
TIFF 기능을 제공하기도 하지만 위에서 언급한 기능들을 위한 응용프로그램에서는 이러한
Multi-TIFF 기능과 함께 활용할 수 없기 때문에 별로 효용성이 없는 것이 되어 버렸다.
TIFF는 표준 포맷으로 인식되어 있음에도 불구하고 익스플로러와 같은 표준 브라우저에서 직
접 TIFF 문서를 볼 수 없기 때문에 별도의 TIFF viewer를 설치하여 이용하여야 하는데 TIFF
viewer 기능도 표준화 되어 있지 않기 때문에 서비스 하는 기관이나 업체에 따라서 그 사용법
과 서로 호환이 안 되는 문제점을 갖고 있기도 하다.
5. Celartem Technology
비교 항목 DjVu TIFF 비고
G4/JBIG1
개발된 출처 미국 AT&T에서 개발 Joint Bi-level Image JBIG1 압축기는 public
한국에서는 Celartem Korea에서 Experts Group에서 재 domain에 source 가 공
공급 및 기술지원 정한 흑백 이미지 전용 개된 S/W
압축 규약
지원 압축 방식 -흑백 이미지는JBIG2/JB2 압축기 -흑백 이미지 만 적용 객관적으로 JBIG2/JB2
- 비손실/손실 압축 모두 방식 지 JBIG1 방식 방식이 JBIG1 보다 2 -
원 - 비손실 방식만 지원 4배의 압축률이 좋은 것
-컬러 이미지는 IW44 압축기 사 으로 평가 되고 있음
용
- DjVu는 흑백/컬러 모두 지원
압축 효율 -흑백 이미지 TIFF G4방식보다 - JBIG1은 흑백 이미지
20 – 40% 수준 TIFF G4 방식보다 60 –
-컬러 이미지 JPEG 보다 1/10 – 80% 수준
1/30 크기 - 컬러이미지 적용 불가
문서 내용 검색 기능 - DjVu 문서 내에 OCR 된 text를 - 불가능
hidden text 와 XML 구조로 삽입
하여 viewer 내에서 full text 검
색 및 검색 결과 highlight 처리
- 외부 검색엔진과 연동하여 page
단위 검색 가능
멀티 페이지 지원 - 기본적으로 멀티 페이지 지원 - Multi-TIFF 지원
- 목차 삽입 및 display 기능 - TIFF 포맷에는 목차
처리 기능 제공하지 않음
OCR 처리 기능 - DjVu는 OCR 엔진을 기본적으 - 3rd party OCR 제품과
로 제공 어플리케이션 level 로
연동
메타정보 삽입 기능 DjVu 문서 안에 메타정보 삽입 및 - 불가능 DjVu 문서 안에 hidden
추출 기능 text-XML 구조로 메타
정보를 삽입하고 활용하
는 기능
컬러 이미지 압축 지원 지원 흑백전용 포맷
시각장애용 표준 인터 -시각장애자를 위한 표준 인터페 -불가능 - 508호환은 IT관련 어
페이스 508 호환 지원 이스로 508 호환 플리케이션이 시각장애
자들을 위해서 모든 출력
되는 텍스트나 내용에 대
해서 3rd pary screen
reader(508 호환)기를
통해서 text-to-speech
를 할 수 있게 하는 인터
페이스
전용 viewer 제공 Windows/Unix/Mac/PocketPC Windows용 만 제공
플랫폼용 제공 - C/S 환경 지원
-IE/Netscape plug-in 용 제공
- C/S 환경 지원
성능 압축성능 JBIG1 과 동일 -Viewing 및 복원 속도
viewing 및 복원 속도는 JBIG1보 는 DjVu 보다 2 – 5배
다 2 -5배 성능 향상 정도 느림
7. Celartem Technology
4. JPEG 포맷과 DjVu와의 비교
컬러 이미지를 저장하는 방식 중에 가장 보편화된 포맷이 JPEG이다. JPEG은 나름대로 압축 방
식을 제공하기 때문에 컬러 이미지 파일을 표현하고 저장하는데 매우 적당한 포맷으로 인식되
고 있다.
JPEG 보다 압축률을 향상 시킨 JPEG2000 표준안이 2000년에 발표가 되었다. JPEG 압축방식
과 다른 Wavelet 알고리즘을 기반으로 하여 만들어진 표준안이다. 효율성이나 성능, 이미지 품
질 면에서 JPEG 보다 훨씬 좋은 것으로 평가되고는 있으나 아직까지 JPEG2000이 보편하게 이
용되지 않고 있는 실정이다.
JPEG은 일반적으로 한 장으로 표현되는 사진과 같은 데이터를 표현하고 저장하는데 적당하다
고 할 수 있으나. 컬러 종이 문서를 컬러 스캐닝 하여 여러 장을 하나의 책으로 묶어서 저장하고
서비스하는 구조에는 잘 맞지 않은 단점이 있다. TIFF 포맷과 같이 여러 장의 이미지를 한 개의
번들로 묶을 수 있는 Multi-TIFF와 같은 방식이 지원되지 않기 때문이다.
DjVu는 컬러 이미지 압축을 위해서 JPEG2000과 같은 Wavelet 기반의 압축 방식인 IW44 방
식을 이용한다. 압축률은 JPEG과 비교하여 같은 질을 보장하면서 그 크기는 JPEG보다 1/10 –
1/20 정도로 압축이 될 수 있다. [그림-3] 참조
DjVu는 JPEG 포맷과 마찬가지로 낱장 단위로 압축 저장할 수 있지만 Multi-TIFF방식과 같이
[그림 – 2]
여러 장의 이미지 문서를 하나의 파일로 묶어서 저장 및 서비스를 할 수 있다.
원본의 이미지가 고해상도의 이미지 인 경우 DjVu로 압 [그림-3]
축된 이미지라고 할 지라도 파일 크기가 클 수 가 있다. 그러나 웹에서 일반 브라우져에 플러그
인 된 DjVu 전용 viewer 를 통해서 보게 될 경우 TIFF나 JPEG과 같이 전체의 파일을 모두 다
운로드 받은 후 디스플레이 하는 방식을 이용하지 않고 점진적인 이미지 전송 기술을 이용하기
때문에 사용자는 원하는 이미지를 지연 시간 없이 즉시 볼 수가 있게 된다.
8. Celartem Technology
[그림 – 4]
[그림-4]에서 고 앨범 샘플을 보면 총 50페이지 되는 고화질(600dpi)의 원본을 JPEG으로 표
현하면 총 231.3 Mbytes가 소요되나 DjVu로 압축(segment 방식 압축)을 하면 1.85Mbytes가
된다. 또한 고문헌 샘플을 보면 총 918 페이지나 되는 책을 JPEG으로 표현하면 378.20Mbytes
가 되나 DjVu로 압축(photo 방식 압축)을 하면 181.57 Mbytes가 된다. 압축된 파일의 크기도
페이지 수가 918페이나 되기 때문에 180M를 넘게 된다. 그러나, 웹에서 180M나 되는 DjVu 문
서를 검색하여 보면 전체 180M를 모두 다운로드 받아서 디스플레이 하지 않고 필요한 페이지
만 선택적으로 스트리밍을 해서 보여 지기 때문에 지연 시간 없이 볼 수가 있게 된다.
10. Celartem Technology
비교 항목 DjVu JPEG 비고
기본 사상 종이문서 ‘Scan-to- 이미지 표현 포맷의 표 JPEG은 한장의 이미지를
Web’ 준 표현하는 포맷
(AT&T에서 개발된 기술) (ISO 표준화 그룹에서 DjVu는 문서의 개념을
지정한 표준 포맷) 갖고 있기 때문에 한 장
및 복수의 페이지의 이미
지나 문서를 표현
압축 방식 하이브리드 방식 컬러 이미지에 대한 손 업계에서 비손실 JPEG-
-흑백이미지 :비손실 실 압축이 기본 LS 는 거의 지원하지 않
JB2 압축 방식 비손실 압축은 JPEG- 음
-컬러이미지 visual LS 포맷으로 지원
lossless wavelet IW44
방식
압축률 평균 JPEG 보다 DjVu 보다 10배 20배 JPEG과 DjVu 와 같은 크
1/10-1/20 압축률 정도 큼 기의 이미지를 비교할 때
DjVu 이미지가 훨씬
quality 가 우수
Multi page 지원 Single Page/Multi- Single page 방식 JPEG은 여러 장의 이미
page 포맷 지원 지를 하나의 file로
bundle 하여 배포하거나
서비스 할 수 없음. JPEG
은 낱장 단위 포맷
메타 데이터 삽입 XML 기반의 메타데이터 불가 JPEG 포맷 안에 텍스트
를 DjVu 포맷 안에 삽입 나 기타 다른 메타 정보
및 추출할 수 있는 기능 를 삽입 하거나 활용할
제공 수 없음
텍스트 검색 기능 컨텐츠 내에서 텍스트 검 불가 JPEG은 이미지를 표현하
색 및 검색된 키워드에 는 수단으로 컨텐츠 내의
대한 하이라이트 기능 제 내용을 처리할 수 있능이
공 없음
Progressive 기본 기능 지원 JPEG도 Progressive
Display 지원 display방식을 지원하고
있으나 거의 활용되지 못
하고 있는 실정
11. Celartem Technology
비교 항목 DjVu JPEG 비고
페이지 단위 스트리밍 제공 불가 페이지 단위 스트리밍은
많은 페이지로 구성된 이
미지나 원문 문서들에 대
해서 웹을 통해서 서비스
할 때 매우 유용한 기능
One-source, 제공 불가능 이 기능은 한 벌의 이미
Multiple extraction (별도의 썸네일 이미지, 지만 갖고 있고 서비스
기능 중간 크기 이미지, 크게 할 때 실시간으로 원하는
보기 이미지와 같이 서 크기의 이미지 및 이미지
비스 유형별 이미지를 내의 부분 영역 만을 추
여러 벌 갖고 있어야 함) 출 하게 하는 기능
Selective 지원 불가능 크기가 큰 대형 이미지를
Decompression 기능 웹을 통해서 배포 할 때
유용한 기술
(화면에 보이는 특정 영
역 부분만 실시간으로 축
소/확대/이동하게 하는
기능)
전용 viewer plug-in -표준 웹 브라우져용 -plug-in 없이 웹 브라 JPEG은 웹 브라우져안에
지원 plug-in 제공 우져를 이용 서 원하는 크기로 축소/
-OCX 모듈 제공으로 C/ -viewer를 위한 커스 확대/PAN 할 수 없고.
S 용으로 이용 가능 터마이즈 기능 물가 90도 회전 기능, 썸네일
-전용 viewer 커스터마 (third party tool 이용) 보기 기능등이 제공되지
이즈 기능 가능 않음
시각장애용 표준 인터 -시각장애자를 위한 표 -불가능 - 508호환은 IT관련 어
페이스 508 호환 지원 준 인터페이스로 508 호 플리케이션이 시각장애
환 자들을 위해서 모든 출력
되는 텍스트나 내용에 대
해서 3rd pary screen
reader(508 호환)기를
통해서 text-to-speech
를 할 수 있게 하는 인터
페이스
포맷 변환 기능 JPEG, TIFF,GIF,BMP, 포맷 변환을 위해서
PBM 포맷을 DjVu로 압 third party 변환 툴 사
축 및 복원 기능 용
12. Celartem Technology
5. DjVu 와 JPEG2000의 비교
5.1 칼라 이미지 quality 비교
다음은 동일한 원본 이미지를 jpeg2000과 DjVu로 각각 파일 크기가 1.5 KByte가 되도록 압축
했을 때의 압축된 이미지 이다.
원본 이미지 (901KB BMP) 1.5KB DjVu (IW44) 이미지 1.5KB JPEG2000 이미지
5.2 흑백 이미지 비교
흑백 이미지를 압축할 경우 Jpeg2000은 기본적으로 Run Length Coding 방식 또는 그와 유사
한 방식이지만 DjVu는 Run Length Coding 외에 Shape Dictionary 방식을 더 사용한다. 여기
서 Shape Dictionary는 한 이미지에서 반복되는 동일 형태(예를 들어서 문서 이미지의 글자)를
한번만 압축해서 저장하고 나머지 경우는 그 형태의 위치 정보만 수록하는 방식으로 반복되는
수가 많을수록 압축효율이 증가한다. DjVu 의 파일 포맷 중 한 파일에서 여러 페이지의 이미지
를 수록하는 방식(bundled 포맷)에서는 여러 페이지에서 하나의 공통의 Shape Dictionary를
참조할 경우 압축률은 상당히 향상된다.
다음은 동일한 흑백 문서 이미지의 이미지 종류별 파일 크기의 비교 자료이다.
KBytes
이미지 포맷 BMP TIF JP2000 DjVu
(G4)
카드 신청서 466 65 64 44
이미지(표와 글자)
잡지 기사 문서 960 584 99 35
이미지(글자)
5.3 파일 포맷
DjVu 는 한 개의 파일 안에 여러 페이지 이미지를 포함하는 bundled 포맷과 한 파일에서 다른
파일로 연결되는 link가 있는 indirect 포맷도 지원한다. DjVu는 여러 페이지를 하나로 묶어서
(bundle) 저장 및 전송이 가능하고, 전체 페이지의 정보를 갖고 있으면서 웹 서비스 시 페이지
단위로 캐싱 및 검색이 가능
JPEG2000은 모든 이미지를 낱장으로 표현. 여러 페이지로 구성된 문서를 bundle로 묶는 개념
이 없음.
13. Celartem Technology
5.4 압축 속도
다음은 10 MB true colour BMP 파일의 인코딩 속도의 비교 그래프이다.
5.5. 화면 표시 속도
다음은 동일한 파일을 압축한 것을 화면에 표시하는데 걸리는 시간을 비교한 그래프이다.
14. Celartem Technology
비교 항목 DjVu JPEG2000 비고
기본 사상 종이문서 ‘Scan-to- 이미지 표현 포맷 JPEG2000은 한장의 이
Web’ 미지를 표현하는 포맷
DjVu는 문서의 개념을
갖고 있기 때문에 한 장
및 복수의 페이지의 이미
지나 문서를 표현
압축 방식 하이브리드 방식 컬러 이미지에 대한 손실 JPEG2000은 컬러 이미
-흑백이미지:비손실 압축이 기본 지 전용 압축 방식으로
JB2 압축 방식 흑백 이미지 문서에 대한 흑백 이미지 문서 압축시
-컬러이미지 visual 비손실 압축 지원하지 않 비손실 압축은 지원 않함
lossless wavelet 음
IW44 방식
압축률 1.번 항목 컬러이미지 1.번 항목 컬러이미지 JPEG2000과 DjVu 와 같
quality 참조 quality 참조 은 크기의 이미지를 비교
할 때 DjVu 이미지가 훨
씬 quality 가 우수
Multi page 지원 Single Page/Multi- Single page 방식 JPEG2000 은 여러 장의
page 포맷 지원 이미지를 하나의 file로
bundle 하여 배포하거나
서비스 할 수 없음.
JPEG2000은 낱장 단위
포맷
메타 데이터 삽입 XML 기반의 메타데이 불가 JPEG2000 포맷 안에 텍
터를 DjVu 포맷 안에 스트나 기타 다른 메타
삽입 및 추출할 수 있는 정보를 삽입 하거나 활용
기능 제공 할 수 없음
텍스트 검색 기능 컨텐츠 내에서 텍스트 불가 JPEG2000은 이미지를
검색 및 검색된 키워드 표현하는 수단으로 컨텐
에 대한 하이라이트 기 츠 내의 내용을 처리할
능 제공 수 있능이 없음
Progressive 기본 기능 지원
Display 지원
페이지 단위 스트리 제공 불가 페이지 단위 스트리밍은
밍 많은 페이지로 구성된 이
미지나 원문 문서들에 대
해서 웹을 통해서 서비스
할 때 매우 유용한 기능
One-source, 제공 불가능 이 기능은 한 벌의 이미
Multiple extraction (별도의 썸네일 이미지, 지만 갖고 있고 서비스
기능 중간 크기 이미지, 크게 할 때 실시간으로 원하는
보기 이미지와 같이 서비 크기의 이미지 및 이미지
스 유형별 이미지를 여러 내의 부분 영역 만을 추
벌 갖고 있어야 함) 출 하게 하는 기능
Selective 지원 불가능 크기가 큰 대형 이미지를
Decompression 기 웹을 통해서 배포 할 때
능 유용한 기술
(화면에 보이는 특정 영
역 부분만 실시간으로 축
소/확대/이동하게 하는
기능)
보안 통제 기능 -프린트 통제 기능 불가능
-다운로드 통제 기능
-프린트 시 실시간 워
15. Celartem Technology
터마크 삽입 기능 제공
전용 viewer plug-in -표준 웹 브라우져용 -plug-in 없이 웹 브라우 JPEG2000은 웹 브라우
지원 plug-in 제공 져를 이용 져안에서 원하는 크기로
-OCX 모듈 제공으로 -viewer를 위한 커스터 축소/확대/PAN 할 수 없
C/S 용으로 이용 가능 마이즈 기능 물가(third 고. 90도 회전 기능, 썸네
-전용 viewer 커스터 party tool 이용) 일 보기 기능등이 제공되
마이즈 기능 가능 지 않음
포맷 변환 기능 JPEG, TIFF,GIF,BMP, 포맷 변환을 위해서
PBM 포맷을 DjVu로 third party 변환 툴 사용
압축 및 복원 기능
16. Celartem Technology
6. DjVu 와 PDF 비교
PDF 포맷은 본래 디지털 문서들을 웹을 통해서 퍼블리싱하기 위한 솔루션으로 이용되어 왔다.
워드나 아래아한글, 매킨토시용 쿽익스프레스등으로 작성된 텍스트 기반의 문서를 웹을 통해서
배포하기 위해서는 PDF 포맷만큼 좋은 툴은 없을 것이다.
PDF 는 전용 Acrobat Reader를 무료로 사용하면서 누구나 쉽게 PDF 문서를 읽을 수 있는 장
점이 있다. 뿐만 아니라 PDF 문서는 내부 문서를 수정할 수 없고 읽을 수 만 있게 되어 있기 때
문에 더더욱 문서 배포용으로는 매우 적당한 솔루션일 것이다. 그러나 스캐닝 한 이미지 문서를
PDF 포맷으로 저장하고 배포하는 데는 그 한계점이 노출 되고 있는 실정이다.. 스캐닝 한 문서
는 그 자체가 이미지 포맷으로 디지털화된 텍스트 문서 보다는 파일 크기가 몇 배나 클 수 밖에
없다. PDF는 기본적으로 압축을 기반으로 하지 않고 있기 때문에 스캐닝 된 이미지 문서를
PDF로 담기 위해서는 그 크기 이상의 파일을 요구하게 된다.
[그림-5]에서 흑백 문서들을 스캐닝 해서 PDF 포맷과 DjVu 포맷으로 표현한 자료가 있다. 흑
백 원문인 경우 평균 PDF 문서가 DjVu 문서 보다 4배 정도 큰 것을 볼 수가 있을 것이다.
[그림 -5]
그 외에도 연간 기업보고서 110페이지 책자를 300DPI 컬러로 스캐닝 하여 PDF로 저장을 하게
되면 약 140Mbytes 정도 소요가 되나. 그러나 DjVu로 저장을 하면 약 3Mbytes 정도면 충분하
게 된다. ([그림-6] 에서 기업 Annual Report 참조 하시기 바랍니다)
인터넷에서 신문 지면 서비스용으로 PDF 포맷이 많이 이용되고 있다. 그러나, [그림-6]에서 알
수 있듯이 신문 66면 정도의 지면에 컬러 광고까지 모두 포함 하면 PDF 문서의 크기는 무려
70Mbytes가 넘게 된다. 따라서 각 신문사는 신문 지면 서비스를 위해서 66면을 하나의 PDF파
일로 묶어서 배포하지는 못하고 각 면 단위로 PDF파일을 만들어서 배포하고 있는 실정이다.
17. Celartem Technology
[그림-6]
일반 워드문서와 같은 디지털 문서를 배포하기 위한 포맷으로 PDF 가 적당하다면 DjVu는 고화
질의 컬러/흑백 종이문서를 스캐닝한 문서를 위해서는 PDF 포맷 보다 훨씬 뛰어 남을 알 수 가
있다.
18. Celartem Technology
비교 항목 DjVu PDF 설명
DjVu는 종이문서를 디지털 화
전자문서-to-종이문서 출
기본사상 종이문서 'scan-to-web' 하여 웹 서비스 하기위한 솔루
력
션으로 탄생된 기술
많은 양의 종이문서를 흑백
/컬러 스캐닝 하여 저장 및
웹 검색 서비스하는 분야
에 적합
-흑백 원문 문서 50페이지
PDF는 전자문서를 종이문서로
이상의 서비스에 적합 전자문서(hwp,워드,GUL)
프린트하고 배포하기 위한 솔루
- 원문이 고해상도의 컬러 를 배포 및 종이문서로 출
션으로 탄생된 기술
를 포함하고 한 페이지의 력하는 분야에 적합
가장 적합한 분야 현재는 DjVu 도 종이문서 뿐만
파일 크기가 큰 경우에 적 -50페이지 미만의 흑백 전
아니라 디지털 문서(오피스 문
합 자문서 서비스에 적합
서)도 DjVu 로 변환하여 PDF
- 향후 컬러 원문 서비스
보다 경량화 하여 배포가 가능
시에는 더욱 진가를 발휘
-CAD 데이터나 엔지니어
링 매뉴얼, Parts Book 등
을 배포하고자 하는 제조
분야
일반적으로 사용자들의 PDF 서
전체 페이지수와 파일 크 전체 페이지수와 파일크기
사용자의 측면에서 비스 이용시 가장 불만 사항 ‘너
기와 상관없이 1초 미만 검 가 클수록 검색 및 디스플
성능 무 느리다’, ‘너무 무겁다’,‘ 불필
색 및 디스플레이 레이 시간 이 증대됨
요 한 기능이 너무 많다’
서비스 기관에서의
소요 되는 자원 DjVu가 PDF 보다 평균 1/4 정
약 0.75 TeraBytes 소요 약 3 TeraBytes 소요
(5000만 페이지 흑 도 자원 소요
백문서 원문 저장시)
유/무선 통합 서비- 고속 유선/저속 무선 같
스 기능 은 품질 같은 속도 유지 기
통합기능은 한 벌의 데이터로
- 고속 유선/저속능
불가능 유선/무선 모두 같은 품질로 서
무선 - 한 벌의 데이터로 변경
비스 할 수 있는 기능
검색 속도 없이 유선/무선 동시 서비
- 통합 기능 스
사용자는 한개의 viewer에서
통합 viewer 기능 제공 가능 불가능 TIFF/ DjVu/ PDF/ JPEG 모두
를 검색할 수 있는 기능
전용 viewer 설치 없이도 DjVu
DjVu Express Server 기
전용 viewer 없이 문서나 이미지를 디스플레이/부
능
검색 할 수 있는 기 불가능 분확대/축소/출력/다음페이지/
-인터넷 접속이 가능한 모
능 이전페이지/페이지 이동 기능
든 디바이스에서 검색 가능
제공
19. Celartem Technology
비교 항목 DjVu PDF 설명
PDF에서도 Fast Web view 방
식을 제공한다고 하나. Acrobat
페이지 단위 웹 스트리밍 Reader 5.0이상에서만 유효
기능 (indirect 기능) 및 전 (대부분의 서비스 사이트에서는
체 문서 단위(bundle 기능) 한 개의 문서 크기가 클 경우 페
Bundle 방식 만 제공
모두 제공 이지 단위로 분리하거나 강제로
웹 서비스 방식 (일부 Fast Web view 기
- Byte streaming 이나 10M 미만 단위로 페이지를 분
능)
Fast Web 방식이 아닌 리해서 서비스하는 방식을 취함)
DjVu만의 고유한 페이지 예-각 신문사의 지면 서비스는
스트리밍 기술) 한면 단위 서비스 한국교육학술
정보원(keris)는 10M단위로 강
제분리
DjVu viewer 설치시간 5-10초
전용 viewer 의 크
900KB 17M Acrobat Reader 설치 시간 약
기
5-10분
전체 문서 대상으로 압축 및 복
원문 이미지 압축
Lossless/Visual PDF문서내의 부분 객체들원은 DjVu 만 지원
지원 및 방식
Lossless 방식 모두 지원 만 일부 지원 DjVu압축방식은 비손실/손실
압축 모두 지원
압축 원문 이미지모든 압축 원문 이미지 문 DjVu는 압축기와 복원기를 제
불가능
문서 복원 기능 서는 원본으로 복귀 가능 공
유선/무선/전용
고해상도 컬러 원문 예-한 개의 이미지 파일이 10M
viewer/no-viewer 모두
이미지 검색 및 배 불가능 이상 (고지도/고문헌/고문서) 될
에게 픽셀 스트리밍 기술
포 기능 경우 PDF는 서비스 불가능
적용하여 액세스 가능
- Google 의 book 검색
-미국의회도서관/미국/
유럽/일본 대학교
도서관에서 PDF
대안 솔루션으로 사용
- 미국 archive.org
- 일본 국립공문서관의
아시아 역사 기록센터 - PDF는 대량의 원문 도서를
(www.jacar.go.jp) 및 디지털 화하여 검색 서비스를
다수 공공기관 제공하는 기관에서의 서비스 만
인지도 - 서울대 도서관, 한국은좋음 족도는 매우 낮음
행, 법원도서관 -PDF의 문제점에 대한 대안 솔
- 정부기록보존소 루션으로 DjVu 솔루션이 이용
- 동부화재 되고 있는 실정
-삼성전자, LG전자
-삼성화재
-두산인프라코어
- 전세계적으로 open
format으로 600만 사용자
층
20. Celartem Technology
비교 항목 DjVu PDF 설명
- 모든 전자문서(PDF,아
래아 한글 포함) DjVu 변
환기능 제공
- 전자문서 변환기능 DjVu도 모든 디지털문서를 압
확장성 - 모든 흑백 및 컬러 원문
- 멀티미디어 삽입 기능 축 변환할 수 있는 툴 제공
이미지 문서 DjVu 변환 기
능
- 유/무선 통합 기능
XML 기반의 메타데이터 DjVu 문서의 Hidden text로 삽
메타데이터 삽입 지원
삽입 기능 제공 입하는 기능
페이지 단위 검색 지원 불지원
DjVu는 모든 텍스트 정보는
XML 연동 기본 기능 지원
XML 기반으로 되어 있음
시각장애용 표준 -시각장애자를 위한 표 -Acrobat Reader 6.0 - 508호환은 IT관련 어플리
인터페이스 508 준 인터페이스로 508 호 에서 만 지원 케이션이 시각 장애자들을 위
호환 지원 환 해서 모든 출력 되는 텍스트
나 내용에 대해서 3rd pary
screen reader(508 호환)기
를 통해서 text-to-speech
를 할 수 있게 하는 인터페이
스
- 자동삽입 툴에 의하여 문서 내
하이퍼링크 자동 삽 용안에 원하는 패턴만을 골라서
- 지원 -불가
입 자동으로 하이퍼링크 정보 삽입
하는 기능
DB 연동 지원 지원
PDF는 전체 이미지를 모두 다
고해상도 이미지 서점진적인(Progressive) 디전체 이미지 모두 다운로
운로드 받은 후 디스플레이 하
비스 방식 스플레이 드후 디스플레이
는 방식으로 시간이 많이 걸림
Document PDF Image PDF Image DjVu Image Searchable Searchable Searchable Image DjVu
with G4 with JBIG2 using JB2 Image with Image with using JB2 Comp-
Comp- Comp- Comp- TIFF-G4 JBIG2 Comp- ression
ression ression ression ression
(PDF- (PDF-Capture)
Capture)
Contract 58k 14k 10k 72k 28k 12k
Annual 2.89M 511k 396k 2.0M 755k 527k
Report
Technical 2.02M 431k 368k 2.15M 582k 419k
Report
Patent 815k 153k 123k 908k 240k 162k
Total 5.84M 1.11M 897k 5.13M 1.61M 1.12M
Average 100% 19% 15% 100% 31% 22%