IvanStorogev? KpNemo - Как почистить сканы книг и сделать книгу
- Название:Как почистить сканы книг и сделать книгу
- Автор:
- Жанр:
- Издательство:неизвестно
- Год:неизвестен
- ISBN:нет данных
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
IvanStorogev? KpNemo - Как почистить сканы книг и сделать книгу краткое содержание
В статье описана очистка сканов книг непосредственно после сканирования, перед дальнейшей обработкой. Речь будет идти только о черно-белых книгах (текст и штриховые рисунки). Обработку книг с цветными картинками нужно разбирать отдельно. Способы обработки сканов ScanKromsator.
Как почистить сканы книг и сделать книгу - читать онлайн бесплатно полную версию (весь текст целиком)
Интервал:
Закладка:
IvanStorogev? KpNemo
Как почистить сканы книг и сделать книгу
Часть 1.
А зачем?
Здесь есть 2 пути:
После сканирования книги её предполагается выкладывать в сеть (или хранить у себя на диске).
1) Можно распознать сканы в программе OCR, например FineReader (FR).
Если качество оригинала хорошее, например распечатка на лазернике с размером шрифта 12pt, то FR прекрасно распознает её без всяких дополнительных мер. Но вот если распознавать нужно старую книжку, на желтой неровной бумаге, грязную и т. п… Тут предварительная очистка резко повысит качество распознавания, а это значит, что гораздо меньше труда и времени уйдет на вычитку, т.е. ручноеисправление ошибок. Надо сказать, что встроенные в FR средства очистки картинки довольно примитивные, так что с плохими, зашумленными сканами он справляется неважно.
2) Можно хранить нераспознанной, в виде растровой картинки, в том или ином формате: DJVU, PDF, TIFF.
Здесь предварительная очистка ещё уместнее. Во-первых, очищенный скан гораздо приятнее и не так утомительно читать. Во-вторых, что ещё важнее, после очистки сканы гораздо, в десятки раз, лучше сжимаются в любой формат. Дело в том, что случайные точки на изображении (шум) практически не сжимаемы, особенно когда их много.
Для очистки изображений применяется много различных методов и программ, порой стоимостью в тысячи и десятки тысяч долларов. Я опишу простой и доступный способ, особенно ценный тем, что руками придется работать только с одной страницей книги, остальные можно обработать автоматически, основываясь на сохраненных параметрах.
Сканировать книжку нужно обязательнов режиме grayscale (серый). Обратите внимание: сканировать в режиме b/w (черно-белый) нельзя!В режиме b/w дальнейшая обработка будет невозможна.
Можно сканировать в true image (полноцвет), но это сильно замедлит обработку, увеличит объем файлов, а особенного выигрыша не даст. Исключение составляют случаи, когда на страницах есть цветные пятна грязи, тут работа с цветом может сильно помочь.
Некоторые сканеры позволяют выбрать один из цветовых каналов (красный, зеленый, синий), который будет использоваться при сканировании в серый, есть и другие настройки и их также можно покрутить. Но не увлекайтесь, большая часть фич сканера просто обработка картинки драйвером. То же самое можно сделать в фотошопе, только куда лучше.
Попробуйте разные варианты, выбирать нужно тот, где изображение контрастнее, буквы выглядят более четкими. Если при этом мелких шумов (например, фактура бумаги) будет, в разумных пределах, больше – это неважно, уберем потом.
Наоборот, если на бумаге есть крупные, размером в 2-3 буквы и больше, пятна, то нужно постараться подобрать настройки сканера так, чтобы эти пятна были бледными, по сравнению с буквами, пусть и ценой менее контрастных, по сравнению с другими вариантами букв.
Проще говоря, настраивайте сканер так:
1) Если крупных пятен нет, то главное сделать четкими буквы, а на шум особенно не глядеть.
2) Если крупные пятна есть, то главное их прибить, даже если буквы будут не такие уж четкие.
В том и другом случае нужно не перебарщивать, руководствуясь опытом и здравым смыслом.
Если вы пользуетесь для сканирования FR, то уберите в опциях сканирования «Очистить изображение», «Устранить искажение строк», «Делить развороты». Всё это вы сделаете потом, когда почистите сканы и втяните их обратно в FR. На этом этапе любая обработка изображения в FR только замедлит сканирование и ухудшитчистку изображения в более подходящих программах.
Обычно книжки с текстом сканируют с разрешением 300dpi. Это подходящее значение для чистого текста, приличного качества полиграфии и не слишком мелкого шрифта, короче очередной бестселлер типа: "Глухой против Слепого". Но в этом случае и чистка изображения не требуется. При зашумленном изображении, мелком шрифте нужно сканировать с разрешением 600dpi. Это сильно облегчит очистку и качество окончательного файла, если вы не будете распознавать книгу, а сохраните в виде сжатого растра. Не беспокойтесь о величине окончательного файла. Хорошо почищенная книга с разрешением 600dpi при сжатии в DJVU дает файл немногим больших размеров, чем с разрешением 300dpi.
Растровая форма хранения книг особенно часто применяется для книг с формулами. В этом случае сканирование с разрешением 600dpi обязательно, иначе трудно будет разобрать индексы в формулах, отличить похожие буквы, например "омега" и w . А ведь в математике нередки вложенные индексы (индекс индекса). Там при сканировании с разрешением 300dpi вообще трудно что-либо разобрать, тем более распечатать. Вот смотрите:
Буквы i и j на картинке слева трудно отличить друг от друга. А ведь это не скан, а печать в файл. При сканировании всё будет гораздо хуже – маленькая точка на бумаге и всё, и 2 балла на экзамене!
Таким образом:
Сканировать для наших целей нужно с разрешением 600dpi!
В крайнем случае, 400dpi.
Теперь нужно выбрать образцовую страницу для настройки программ обработки, чтобы остальные обработать автоматически, в пакетном режиме. Выберите самую обычную, типовую страницу, может быть слегка более грязную, чем в среднем.
Посмотрите все отсканенные страницы книги, может быть некоторые нужно пересканить.
Все сильно загрязненные, искаженные, с более мелким шрифтом, чем остальные, с очень крупными пятнами, с рисунками на всю или почти всю страницу и т.п. сразу положите в отдельную папку. Их проще обработать отдельно, по одной. Обычно таких немного.
Дальше приступим к обработке сканов последовательно в программе NeatImagePro+, потом в PhotoShop’е. Начнем с первой.
Нам понадобится программа NeatImagePro+ (NI+), у неё множество уникальных возможностей, например с её помощью можно делать замечательные "гламурные" картинки обнаженной натуры. Вот её сайт: neatimage.com. Но нам туда не надо, там её свободно не раздают. К счастью, у Вас есть я, а у нас всех Рапидшара:
Neat Image Pro+ Edition v5.0.5.0
пароль:))))))
Это не самая последняя версия, зато с лекарством и вполне рабочая.
NI+ работает следующим образом: выделяется характерный участок картинки с шумом, но без полезного изображения. Программа этот участок оценивает и "вычитает" шум из всей картинки.
Я закавычил "вычитает" потому, что на самом деле не "вычитает", а умножает, и не картинку на шум, а их двухмерные спектральные представления. Да и не умножает, если в школьном смысле… Но мы в эти дебри не полезем:-).
Читать дальшеИнтервал:
Закладка: