LibKing » Книги » comp-programming » TWDragon - Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро

TWDragon - Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро

Тут можно читать онлайн TWDragon - Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро - бесплатно полную версию книги (целиком). Жанр: comp-programming, год 2009. Здесь Вы можете читать полную версию (весь текст) онлайн без регистрации и SMS на сайте LibKing.Ru (ЛибКинг) или прочесть краткое содержание, предисловие (аннотацию), описание и ознакомиться с отзывами (комментариями) о произведении.
TWDragon  - Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро
  • Название:
    Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро
  • Автор:
  • Жанр:
  • Издательство:
    неизвестно
  • Год:
    2009
  • ISBN:
    нет данных
  • Рейтинг:
    4.12/5. Голосов: 81
  • Избранное:
    Добавить в избранное
  • Ваша оценка:

TWDragon - Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро краткое содержание

Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро - описание и краткое содержание, автор TWDragon, читайте бесплатно онлайн на сайте электронной библиотеки LibKing.Ru

Эта мини инструкция в картинках, описывающая полный цикл создания электронной версии научно-технической книги, и предназначена для человека, искренне захотевшего сделать приемлемого качества е-книгу, но не знающего с чего начать.

Итак: перед вами взятая у приятеля, из библиотеки, или просто хорошая, интересная книга, которую хотелось бы иметь на компьютере. И не просто иметь, а иметь в таком виде, который позволил бы выполнять поиск по тексту, удобно читать книгу на экране монитора или на устройствах еВоок, а если это не научно-техническая или справочная литература – еще и читать на любимом сотовом телефоне, iPhon'e или PDA. В этом пошаговом руководстве, основанном на собственном опыте, я постараюсь рассказать о том, как «выжать» максимум результатов из проделанной простой, но иногда весьма утомительной работы по сканированию книги.

Пусть вас не испугает длина этого руководства и кажущаяся сложность сканирования и обработки книги. Процесс действительно довольно сложен и многоступенчат, но поверьте мне, описать все эти операции было гораздо труднее, чем выполнить их шаг за шагом.

Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро - читать онлайн бесплатно полную версию (весь текст целиком)

Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро - читать книгу онлайн бесплатно, автор TWDragon
Тёмная тема

Шрифт:

Сбросить

Интервал:

Закладка:

Сделать

В общих чертах, именно так работают алгоритмы OCR. Успех их работы сильно зависит от того, насколько велик абсолютный (в пикселах) размер символа в графическом файле. А этот самый размер напрямую зависит от разрешения файла. При разрешении 600 dpi на реальную ширину и высоту «бумажного» символа придется ровно вдвое больше пикселов графического изображения, чем при разрешении 300 dpi. Соответственно, вероятность успешного распознавания тоже вырастет, причем весьма существенно. Задача оверсемплинга – поднять разрешение скана до выходного, пересчитав определенным образом точки графического изображения.

Оверсемплинг позволяет впоследствии спасти изображение от дефектов сжатия (за счет оольшого числа точек они становятся незаметны), а также помогает вывести изображение на печать наилучшим образом. Например, при печати файла DjVu 300 dpi на полном формате (масштаб 100 %) шрифт получается «рваным» из-за того, что преобразование серого скана в чисто черно-белое изображение дает много дефектов по краям букв, а принтер, имея собственное разрешение немногим больше 300 dpi, не в состоянии их исправить. Совсем иное дело – при печати документа с разрешением 600 dpi. В этом случае входное изображение принтера, имеюшее огромное количество точек, «ужимается» в размер реальной бумажной страницы.

Особенности алгоритмов изменения размера приводят к тому, что границы символов разглаживаются, а резкость увеличивается.

Разница между сжатыми страницами с разным разрешением заметна даже при просмотре на экране: на 300 dpi все дефекты, не устраненные обработкой, становятся заметны, а иногда изображения (например, полученные с бледного скана) вообше приходят в негодность.

Список Color (цвет) задает цветность выходного изображения. Для черно-белого текста и одноцветных рисунков выставляется пункт BAV. для черно-белых фотографических иллюстраций – Gray , для полноцветных изображений – Color (24bit). Впрочем, установка цветности для страницы в целом чаще всего бывает не нужна, поскольку есть возможность обрабатывать рисунки отдельно.

Больше всего проблем возникает, когда часть текста верстается поверх изображения (типичный прием для верстки детских книг). Такие страницы желательно вообще не подвергать обработке Кромсатором, а сразу подвергать распознаванию и запаковывать в PDF.

Вкладка Options На этой вкладке стоит только поднять до предпоследнего - фото 17
Вкладка Options .
На этой вкладке стоит только поднять до предпоследнего деления уже - фото 18

На этой вкладке стоит только поднять до предпоследнего деления уже упоминавшиеся ползунки Text vert. sensitivity . В некоторых особо тяжелых случаях (вроде все тех же таблиц, отпечатанных на полупрозрачной бумаге), избавиться от «съедения» программой части символов можно, установив в списке Despeckle (очистка от мусора) пункт Safe .

Вкладка Options 2 .
На этой вкладке заслуживает внимания одинединственный элемент флажок LZW for - фото 19

На этой вкладке заслуживает внимания один-единственный элемент – флажок LZW for nou-bw TIFFs (применить сжатие для не ч/б TIFF-файлов). По умолчанию этот флажок включен, но его стоит выключить, чтобы потом не страдать от проблем с открытием файлов в программах распознавания.

Вкладка Convert .

На этой вкладке задаются параметры преобразования изображения из градаций серого в чистое черно-белое. Группа параметров Convert to b/w threshold(Порог преобразования в ч/б) содержит три списка с идентичным набором пунктов. Два верхних из них отвечают за порог преобразования для четных и нечетных страниц, последний – за преобразование специально выделенных одноцветных рисунков.

Для оптимального результата при нормально читаемом с бумаги тексте лучше всего выставить во всех списках вкладки пункт MiddleDark. Если же результат будет негодным, с этими параметрами придется экспериментировать, так как единого рецепта дать здесь невозможно.

Вкладка Quality На этой вкладке выставляются параметры напрямую влияющие на - фото 20
Вкладка Quality .

На этой вкладке выставляются параметры, напрямую влияющие на качество выходного изображения.

Флажок Enhance Image(применить улучшение) включает такую специальную обработку.

Первое, что нужно сделать на этой вкладке – держа Ctrl, установить галочку Gray Enhance(улучшить в градациях серого). Затем щелкаем по самой надписи, и попадаем в окно настройки дополнительных параметров Gray image enhance.

Здесь включаем опять держа Ctrl флажок Correct IlluminationКоррекция - фото 21

Здесь включаем (опять держа Ctrl) флажок Correct Illumination(Коррекция освещенности). Параметры – как на рисунке. Именно этот прием обеспечит нам избавление практически от всего мусора на сканах и получение чистых черно-белых страниц.

Маленькие хитрости В окне Gray imageenhance кроме вкладки Illuminationвсегда - фото 22

Маленькие хитрости

В окне Gray imageenhance кроме вкладки Illuminationвсегда стоит заглянуть на - фото 23

В окне Gray imageenhance кроме вкладки Illuminationвсегда стоит заглянуть на вкладку Unsharp(контурная резкость). Если включить фильтр Unsharp Mask(знакомый практически каждому, работавшему с Adobe Photoshop ), то он может неплохо выгладить края символов и улучшить их четкость. Параметры фильтра можно выставить как на рисунке.

Когда все дополнительные параметры выставлены, окно Gray image enhanceможно закрыть, и перейти снова на вкладку Quality. Здесь включаем флажки Smooth (сгладить), Blur(размыть) и Sharpen(усилить резкость). Параметры везде можно выставить по 1. Однако если нужно улучшить читаемость книги (особенно с монитора), параметры Smoothи Blurстоит увеличить, например поставить Smooth = 2, Blur = 1, или в любом другом сочетании. Размытие краев символов позволяет придать им большую цельность при сжатии, и такой текст с монитора будет отлично читаем.

Последняя вкладка – PDF – отвечает за подготовку PDF-документа прямо в программе ScanKromsator, но я предпочитаю ее не трогать, и вам не советую.

2.4 Подготовка рисунков

После того, как все опции установлены и общие параметры пакетной обработки заданы, приходит время разобраться с рисунками (если таковые имеются в книге). Первое, что стоит сделать с найденным рисунком выделить его мышью.

Выделенная область в программе ScanKromsator носит название зоны (Zone). Чтобы выделенный рисунок распознавался программой как не подлежащий обработке, после выделения достаточно щелкнуть в инструментальной панели на кнопке Mark as Picture Zone-

Читать дальше
Тёмная тема

Шрифт:

Сбросить

Интервал:

Закладка:

Сделать


TWDragon читать все книги автора по порядку

TWDragon - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки LibKing.




Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро отзывы


Отзывы читателей о книге Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро, автор: TWDragon. Читайте комментарии и мнения людей о произведении.


Понравилась книга? Поделитесь впечатлениями - оставьте Ваш отзыв или расскажите друзьям

Напишите свой комментарий
Большинство книг на сайте опубликовано легально на правах партнёрской программы ЛитРес. Если Ваша книга была опубликована с нарушениями авторских прав, пожалуйста, направьте Вашу жалобу на PGEgaHJlZj0ibWFpbHRvOmFidXNlQGxpYmtpbmcucnUiIHJlbD0ibm9mb2xsb3ciPmFidXNlQGxpYmtpbmcucnU8L2E+ или заполните форму обратной связи.
img img img img img