Советы тем, кто собирается перевести документ с бумаги в электронный формат

Чтобы получился приемлемого качества материал, который впоследствии можно нормально обработать программой распознавания текста, следует выбрать соответствующие параметры сканирования:

1. разрешение для большинства документов (сканируемых книг) установить 300´300dpi, для мелкого текста можно установить 600´600dpi, но помните, что при этом объём отсканированной страницы возрастёт в 4 раза.

2. Сканирование производите в режиме «серый» или «цветной» (предварительно установив в опциях Файнридера в окне «Сканировать и открыть» «Использовать интерфейс ABBYY FineReader»). Документы, отсканированные в режиме чёрно-белый, хуже распознаются Finereader’ом, да и знаменитый Сканкромсатор гораздо лучше обрабатывает сканы в градациях серого или в цвете.

3. При предварительном просмотре отсканированной страницы отрегулируйте яркость и контрастность для получения наилучшего изображения, при минимуме “мусора”. Если планируется обработка сканов сканкромсатором, то регуляторы яркости и контрастности следует установить в положение 50%.

 

4. Если размер сканера позволяет, то для уменьшения количества “проходов” сканера лучше сканировать книгу в “разворот”. Кладите книгу на стекло сканера так, чтобы верх страницы был для Вас справа.

5. Я пользуюсь для обработки программой Finereader 9.0. Новый интерфейс сканирования этой программы позволяет производить сканирование нажатием всего одной кнопки (т.н. «пакетное сканирование», когда  Finereader сам складывает сканы в свой пакет), из которого после сканирования не составляет труда извлечь нужные изображения (страницы) и сохранить их в нужном Вам формате в нужном месте. Существенное отличие Finereader 9.0 от предыдущих версий состоит в том, что в нём, наконец-то,  устранена ошибка с некорректным выравниванием страниц при их добавлении в пакет.

 Если следующую страницу Вы положите на сканер также как и ту, которая была отсканирована при предварительном просмотре, то не нужно ещё раз делать предварительный просмотр, а можно сразу сканировать. Небольшие перекосы, неизбежные при таком способе, исправит программа Finereader, только не забудьте установить соответствующие опции программы.

6. Если Вы отсканировали разворот, то разрежет, выровняет и сложит страницы по порядку программа Finereader. Это нужно только если Вы не собираетесь  в дальнейшем обрабатывать сканы Сканкромсатором, который сам с этим великолепно справляется.  

Чтобы она это сделала, необходимо войти в меню “Сервис”, выбрать ”Опции”, вкладка ”Сканировать и открыть” установить ”Делить разворот книги”, “Определять ориентацию страницы” и “Исправлять перекос изображения”. Затем, нажав кнопку “Сканировать” в окне “Документ”, инициировать процесс сканирования.

7. Подготовленные в Finereder’е страницы можно сохранить в графическом файле формата TIFF. Для этого кликните мышкой по нужной странице пакета, и, удерживая нажатой клавишу “Shift” клавишей перемещения курсора выберите необходимые страницы.

Далее в меню “Файл” выберите “Сохранить изображения”. Если Вы выберете формат TIFF и установите галку в окошке “сохранить страницы в один файл”, то все выбранные Вами страницы будут сохранены в одном файле, который “понимают” почти все программы обработки изображений, (параметры для файла TIFF, серый, несжатый, если сканировали в цвете, то, соответственно, цветной, несжатый). Сжатие лучше не  использовать, т.к. оно неминуемо приводит к снижению качества изображений.

8. Если Вы будете переводить отсканированный материал в формат “DJVU”, то не делайте более 50-ти страниц в одном файле, если у Вашего компьютера меньше или 512 mb оперативной памяти, в противном случае обработка займёт очень много времени.

Инструкцию для создания электронных книг в формате “DJVU” Вы сможете прочесть вот по этой ссылке:

http://testuser7.narod.ru/Computer/Scan/Scan.doc

 

9. Если Вы не собираетесь распознавать отсканированный материал, а намерены обрабатывать его, например, сканкромсатором, то для того чтобы ускорить процесс сканирования, используйте программу Finereader, яркость и контрастность при предварительном просмотре установите в положение 50%, следите  за тем, чтобы вся сканируемая страница попала в область сканирования. При таком способе удаётся отсканировать приблизительно 200-300  разворотов в час, т.е. 400-600 страниц, разумеется, если Ваш сканер делает проход за 12-15 сек, при разрешении 300 dpi. Важно,  чтобы страницы при сканировании располагались одинаково (это облегчит Вам последующую обработку сканкромсатором).

Перевод сканов в формат DJVU позволяет уменьшить объём отсканированного материала в 100 -500 раз.      

Удобная программа, значительно облегчающая обработку отсканированного материала и позволяющая повысить качество конечного “продукта”, называется сканкромсатор. Её можно скачать с сайта автора  программы: http://bolega.hotmail.ru/

Сейчас (на январь 2008 г.) «актуальной» является версия 5.8, которая позволяет наряду с чёрно-белым текстом обрабатывать полутоновые и цветные иллюстрации, позволяя сохранить оригинальное оформление книги.

Сканировать книгу удобнее всего из Файнридера, используя его интерфейс, что позволяет значительно уменьшить время, затрачиваемое на операции со сканером. Если размеры сканера (область сканирования) позволяют отсканировать полностью разворот книги, то лучше сканировать в разворот (за один проход Вы отсканируете сразу две страницы книги). Сканируйте в градациях серого с 300dpi, если текст   мелкий, то увеличьте разрешение при сканировании до 600 dpi.

На этом подготовка  книги к обработке её Сканкромсатором завершена.

Можно, конечно, полученные сканы сразу переводить в формат “DJVU”, но обработка их Сканкромсатором позволяет не только разрезать развороты на отдельные страницы, выровнять страницы, сформировать поля, но и получить чистый белый фон, очищенный от теней на развороте и мелкого мусора, сгладить контуры букв, сделав их более изящными (сканкромсатор позволяет избавиться от многих типографских огрехов) и читабельными, что, в конечном счёте, благотворно сказывается не только на качестве изображений символов, но и позволяет существенно уменьшить объём файла с книгой, поскольку кодировщики   “DJVU” используют алгоритм сжатия с использованием словаря символов, размер которого напрямую зависит от того насколько одинаково эти символы выглядят.

DJVU-кодировщики позволяют сжать полученные сканы в  сотни раз, при небольшой потере  качества. Так, например, книга объёмом 260 страниц  в градациях серого TIFF занимала на диске 1360 мб (300 dpi), в чёрно-белом режиме TIFF 410 мб (после обработки её сканкромсатором с увеличением разрешения до 600 dpi), а после сжатия   DJVU-кодировщиком всего 4 мб.

 

Хостинг от uCoz