От Константин Федченко Ответить на сообщение
К All Ответить по почте
Дата 02.04.2003 18:58:47 Найти в дереве
Рубрики Армия; 1941; Версия для печати

по книге "Красная Армия в июне 1941 года"

..выложенной в копилке:
https://vif2ne.org/nvk/forum/files/Damdor/rkka41.rar
https://vif2ne.org/nvk/forum/files/Damdor/rkka41.r00
https://vif2ne.org/nvk/forum/files/Damdor/rkka41.r01
Получающийся после разархивации pdf-файл представляет собой набор графических образов, в котором невозможно вести поиск и копирование по тексту. Кроме того, ориентация страниц разная (в том числе на боку и вверх ногами), поэтому полноценно просматривать файл можно только в Acrobat Reader версии 5.0 и выше - с помощью новой опции Rotate.
Если кто-то собирается использовать эту книгу для работы, дам рекомендации, как распознать текст и перевести в формат doc или html.
1. В Фотошопе открывается файл .pdf (постранично), каждая страница открывается в в отдельный файл .psd. При этом нужно в диалоговом окне установить черно-белый режим и разрешение 300 dpi - иначе текст плохо распознается.
2. Страницы сохраняются в формате .jpg (каждая страница получается около 3 М).
Почему-то джипег получается какой-то странный, FineReader его читать отказывается (впрочем, с .tif такая же история). Чтобы прочел - нужно еще раз этот же файл открыть в фотошопе и сохранить заново в .jpg - при этом он ужимается до ~1М.
3. Получившиеся страницы в .jpg засовываем в FineReader и распознаем пакетом. Результат можно использовать в .doc или .html

Одно плохо - набор страниц в .jpg при этом весить будет больше 200М. Предупреждаю - .tif будет еще больше.

Желаю удачи добровольцам!

С уважением