От Константин Федченко
К All
Дата 02.04.2003 18:58:47
Рубрики Армия; 1941;

по книге "Красная Армия в июне 1941 года"

..выложенной в копилке:
https://vif2ne.org/nvk/forum/files/Damdor/rkka41.rar
https://vif2ne.org/nvk/forum/files/Damdor/rkka41.r00
https://vif2ne.org/nvk/forum/files/Damdor/rkka41.r01
Получающийся после разархивации pdf-файл представляет собой набор графических образов, в котором невозможно вести поиск и копирование по тексту. Кроме того, ориентация страниц разная (в том числе на боку и вверх ногами), поэтому полноценно просматривать файл можно только в Acrobat Reader версии 5.0 и выше - с помощью новой опции Rotate.
Если кто-то собирается использовать эту книгу для работы, дам рекомендации, как распознать текст и перевести в формат doc или html.
1. В Фотошопе открывается файл .pdf (постранично), каждая страница открывается в в отдельный файл .psd. При этом нужно в диалоговом окне установить черно-белый режим и разрешение 300 dpi - иначе текст плохо распознается.
2. Страницы сохраняются в формате .jpg (каждая страница получается около 3 М).
Почему-то джипег получается какой-то странный, FineReader его читать отказывается (впрочем, с .tif такая же история). Чтобы прочел - нужно еще раз этот же файл открыть в фотошопе и сохранить заново в .jpg - при этом он ужимается до ~1М.
3. Получившиеся страницы в .jpg засовываем в FineReader и распознаем пакетом. Результат можно использовать в .doc или .html

Одно плохо - набор страниц в .jpg при этом весить будет больше 200М. Предупреждаю - .tif будет еще больше.

Желаю удачи добровольцам!

С уважением

От Кирилл Шишкин
К Константин Федченко (02.04.2003 18:58:47)
Дата 03.04.2003 09:52:17

У меня Finereader почти не читает.

У меня Finereader попыток десять делал, при этом половина таблиц практически не получилась. Что интересно, чем старее версия программы, тем она лучше "разбирается". Кто интересно догадался отсканировать их как цветные картинки...
Зато из PDFа распечатывается замечательно, можно легко пересканировать, вот только стоит ли...
Легче новую написать

От Исаев Алексей
К Константин Федченко (02.04.2003 18:58:47)
Дата 02.04.2003 19:39:01

Может лучше распечатать и пересканировать?

Доброе время суток

У меня получилась распечатка качеством первого ксерокса. Т.е. вполне пригодная к сканированию/распознаванию.

С уважением, Алексей Исаев

От Дм. Журко
К Исаев Алексей (02.04.2003 19:39:01)
Дата 02.04.2003 19:48:31

Повторю, что FineReader 6 распознаёт прямо такие вот PDF, печатать не надо (-)


От Константин Федченко
К Дм. Журко (02.04.2003 19:48:31)
Дата 02.04.2003 20:13:18

Если это так и Вам не сложно - распознайте его до .doc.

Трудозатрат тут минимум - засунуть пакет в FineReader, запустить автораспознавание и сохранить результат. Вычищать не нужно.
Если получится - буду очень благодарен.
С уважением

От Глеб Бараев
К Константин Федченко (02.04.2003 20:13:18)
Дата 02.04.2003 21:36:25

Все же особо не старайтесь

Объем обрабатываемого материала можно слегка уменьшить, если не заниматься таблицами, в которых отражено субъективное мнение авторов с оценкой по системе плюсов-минусов.
Да и прочие таблицы, содержащие казалось бы объективную информацию, не безупречны. Я поупражнялся с таблицей распределения авиаполков (до остального пока руки не доходят), так там элементарно не сходятся суммы в рядах и колонках.

С уважением, Глеб Бараев
http://rkka.ru

От Исаев Алексей
К Дм. Журко (02.04.2003 19:48:31)
Дата 02.04.2003 20:02:25

С каким % ошибок?

Доброе время суток

Не придется потом долго и нудно вычитывать?

С уважением, Алексей Исаев

От Константин Федченко
К Исаев Алексей (02.04.2003 20:02:25)
Дата 02.04.2003 20:16:48

думаю, с незначительным

>Доброе время суток

>Не придется потом долго и нудно вычитывать?

ИМХО, если из ПДФа вынимается графика с 300 дпи, то она распознается лучше, чем распечатка.

>С уважением, Алексей Исаев
С уважением

От damdor
К Константин Федченко (02.04.2003 18:58:47)
Дата 02.04.2003 19:32:17

Re: по книге...

Доброго времени суток!

Я использовал для получения PDF Fine Reader 6.0


С уважением, damdor

От Константин Федченко
К damdor (02.04.2003 19:32:17)
Дата 02.04.2003 19:38:33

Re: по книге...

>Доброго времени суток!

>Я использовал для получения PDF Fine Reader 6.0

В результате чего получился компактный, но тяжелый в использовании файл. Нужную таблицу или кусок текста из него так просто не вытянешь.

>С уважением, damdor
С уважением

От damdor
К Константин Федченко (02.04.2003 19:38:33)
Дата 02.04.2003 23:41:08

Re: по книге...

Доброго времени суток!

По-моему, для нормальной ссылки на источник лучше PDF

Правда, по-меньше его ещё бы научиться делать.
С уважением, damdor


От Константин Федченко
К damdor (02.04.2003 23:41:08)
Дата 03.04.2003 10:21:25

PDF, да не тот

>Доброго времени суток!

>По-моему, для нормальной ссылки на источник лучше PDF

Что Вы имеете в виду? Для нормальной ссылки на источник достаточно привести его выходные данные. Можно и страницу, с которой взята цитата, а номера страниц вводятся в файл любого формата (см., как это сделано на Милитере - с разделителями, например {26}).
Если же Вы имеете в виду файл как электронный неизменный носитель, защищенный от исправлений - то, извините, реализованный вариант - все равно им не является.
А вот пользоваться им, повторяю в очередной раз - неудобно.

>Правда, по-меньше его ещё бы научиться делать.

Поменьше - не надо. А вот научиться делать PDF, в котором можно делать поиск по тексту и копирование (по образцу
https://vif2ne.org/nvk/forum/2/archive/photo/Issue02doc.zip ) очень советую. Рустам Мугинов вполне может объяснить, что и как делается. Только не здесь - а то администрация за технические подробности начнет репрессии и выгонит на техфорум.

>С уважением, damdor

С уважением