От apple16
К ttt2
Дата 06.11.2007 15:19:23
Рубрики Администрации;

Стремление сэкономить место

часто заставляет пережимать фотографии.
Также некоторые дожимают так, что и по тексту OCR толком не работает.
Поэтому наилучшим форматом для первичного распостранения является
скан в jpeg качества 8-10 на 300 DPI (Если мелованное фото - 600)

djvu это эрзац для ленивых -
Нажал педаль - книжка небольшого размера
которую можно читать готова. А то, что потом ни фотографий
из книжки выдрать, ни текст распознать - побоку.
Нет возможности маневра информацией в djvu
- электроные книжки не для того чтобы их читать, а чтобы драть из них
и искать в них. :)


От Salex
К apple16 (06.11.2007 15:19:23)
Дата 08.11.2007 09:47:58

Re: Стремление сэкономить...

>часто заставляет пережимать фотографии.

>Также некоторые дожимают так, что и по тексту OCR толком не работает.

>djvu это эрзац для ленивых -

>из книжки выдрать, ни текст распознать - побоку.

>Нет возможности маневра информацией в djvu
>- электроные книжки не для того чтобы их читать, а чтобы драть из них
>и искать в них. :)

Формат djvu разработан и предназначен специально для текстов, распознование которых изначально трудоемко и проблематично или вообще невозможно. Т.е. рукописей, текстов изобилующих формулами, спецсимволами, разнообразными буквицами в т.ч. числе рукописными, схемами, чертежами, рисунками от руки и т.п. Поэтому и имеет соответствующий функционал.

А все ваши притензии к нему - несостоятельны. Вы просто используете его не по назначению.

От PK
К apple16 (06.11.2007 15:19:23)
Дата 06.11.2007 16:03:01

См мой коммент

... по поговорке: "жай дураку стеклянный.... кружку - разобьёт и ж-пу порежет".


>Также некоторые дожимают так, что и по тексту OCR толком не работает.
дожать до беспредела можно что угодно.


>Поэтому наилучшим форматом для первичного распостранения является
>скан в jpeg качества 8-10 на 300 DPI (Если мелованное фото - 600)

Вообще-то сканы для распознания стОит делать/хранить не в jpeg а в TIFF - потому что жпег тоже, между прочим, информацию теряет. Причём будучи форматом, заточенным для КАРТИНОК, с множеством цветов и плавными градациями, для ТЕКСТА (два цвета, НЕТ градаций) принципиально менее пригоден нежели другие алгоритмы, в т.ч. используемые в дежавю.


>djvu это эрзац для ленивых -
>Нажал педаль - книжка небольшого размера
>которую можно читать готова. А то, что потом ни фотографий
>из книжки выдрать, ни текст распознать - побоку.

Не так. При наличии желания можно сделать дежавюку которая с фото высокого качества, и подложенным распознанным текстом. При наличии уже готового дежавюшного файла можно распечатать его в набор картинок и распознать текст, и так далее. Было бы желание.


>Нет возможности маневра информацией в djvu
есть возможности.

>- электроные книжки не для того чтобы их читать, а чтобы драть из них
>и искать в них. :)

ну или печатать в высоком качестве и хранить.

В общем, ДеЖаВю есть формат принципиально ЛУЧШЕ заточенный для сканов книжек чем жпег. Ну а если матчасть неизучена...

От Дм. Журко
К PK (06.11.2007 16:03:01)
Дата 06.11.2007 19:04:33

Не TIFF, а PNG.

Здрамвствуйте, уважаемый PK.

Не тематика Форума, но знания надо распространять современные.

>Вообще-то сканы для распознания стОит делать/хранить не в jpeg а в TIFF - потому что жпег тоже, между прочим, информацию теряет. Причём будучи форматом, заточенным для КАРТИНОК, с множеством цветов и плавными градациями, для ТЕКСТА (два цвета, НЕТ градаций) принципиально менее пригоден нежели другие алгоритмы, в т.ч. используемые в дежавю.

TIFF кругом плох. Самая малая степень упаковки JPEG лучше любого TIFF, если он не индексирован. Индексированный (чё1рно-белый, серый) лучше PNG и даже GIF.

>Не так. При наличии желания можно сделать дежавюку которая с фото высокого качества, и подложенным распознанным текстом. При наличии уже готового дежавюшного файла можно распечатать его в набор картинок и распознать текст, и так далее. Было бы желание.

Есть уже средства правки Djvu. Развивается направление хорошо. Например -- LizardTech Document Express Editor -- www.lizardtech.com.

>В общем, ДеЖаВю есть формат принципиально ЛУЧШЕ заточенный для сканов книжек чем жпег. Ну а если матчасть неизучена...

Всё равно не факт. JPEG совместим, средств работы с ним тысячи, иногда прекрасных средств. Начиная с FineReader.

Дмитрий Журко

От Constantin
К Дм. Журко (06.11.2007 19:04:33)
Дата 07.11.2007 00:35:15

Re: Не TIFF,...


>Всё равно не факт. JPEG совместим, средств работы с ним тысячи, иногда прекрасных средств. Начиная с FineReader.

я извиняюсь, но сам FineReader при создании пакетов сохраняет картинку в tiff 4-й группы компрессии. И потом с той картинкой Фотошоп работать не хочет. (мне принцип нравится - тексты в графике получаются весьма компактные, А4 весит менее 100 кило. да и печатаются хорошо) А распознает он вполне нормально что tiff, что jpeg, что pdf. Разницы в качестве распознования практически не замечал. Дежавю распозновать не пытался.
Сейчас заявляют что могут распознавать даже с фотографии сделанной цифровиком.

От iggalp
К Constantin (07.11.2007 00:35:15)
Дата 07.11.2007 13:31:03

Re: Не TIFF,...

>Сейчас заявляют что могут распознавать даже с фотографии сделанной цифровиком.

Проверено неоднократно. Я сейчас во все присутственные места, где надо образцы заявлений и прочей дряни со стенки переписывать, только с камерой и хожу.

От amyatishkin
К Constantin (07.11.2007 00:35:15)
Дата 07.11.2007 04:04:05

Это у вас какой Фотошоп? 3.05?


>я извиняюсь, но сам FineReader при создании пакетов сохраняет картинку в tiff 4-й группы компрессии. И потом с той картинкой Фотошоп работать не хочет. (мне принцип нравится - тексты в графике получаются весьма компактные, А4 весит менее 100 кило. да и печатаются хорошо) А распознает он вполне нормально что tiff, что jpeg, что pdf. Разницы в качестве распознования практически не замечал. Дежавю распозновать не пытался.

4.0 и выше тифы от ФР легко открывает. Сохранять не хочет, это правда.

От PK
К Дм. Журко (06.11.2007 19:04:33)
Дата 06.11.2007 20:24:24

Знания не стареють :-)

... и да простят нам оффтопик.

>Не тематика Форума, но знания надо распространять современные.
Знания не стареют. Даже в мире ИТ.



>TIFF кругом плох. Самая малая степень упаковки JPEG лучше любого TIFF, если он не индексирован. Индексированный (чё1рно-белый, серый) лучше PNG и даже GIF.

Вы не поняли. TIFF (как и приведённый вами PNG и разумеется BMP) имеют от JPEG принципиальное отличие: они не теряют информацию. А жпег теряет, причём таким образом что затрудняет распозновение образов (букафф) потому что считает картинку именно картинкой с плавными отображениями цвета, а не изображением текста. Различия в размере файла оставим пока побоку. ТИФФ я назвал как пожалуй самый распростарнённый формат, с которым у меня не было проблем (с ПНГ были) на самых разных платформах. Кстати, в ТИФФе тоже есть ЗИПовский компрессор.






>Есть уже средства правки Djvu. Развивается направление хорошо. Например -- LizardTech Document Express Editor -- www.lizardtech.com.

Спасибо за ссылку, но речь шла о формате данных, а не о программаю для работы с ними.



>>В общем, ДеЖаВю есть формат принципиально ЛУЧШЕ заточенный для сканов книжек чем жпег. Ну а если матчасть неизучена...

>Всё равно не факт. JPEG совместим, средств работы с ним тысячи, иногда прекрасных средств. Начиная с FineReader.
Опять таки, речь шла о формате данных. ЖПЕГ (а так же ПДФ с компрессией через тот же ЖПЕГ) принципиально хуже для текста чем ДеЖаВю (или опять таки ПДФ с JBIG). Потому что ЖПЕГ и на нём основанные форматы-контейнеры ТЕРЯЮТ часть информации.


т.о. самым правильным будет путь
1. сканер --- ТИФФ --- ДеЖаВю+распознание либо
либо
2. сканер --- ТИФФ --- ПДФ/JBIG + распознание.

Многие выбират второй путь, но вместо JBIG пользуюутся JPG "патамушта там галка стоит". Ну и зря...

В общем, можно и не пользоватся ДеЖаВюкой и получать сравнимые результаты как по качетсву так и по размеру. Надо просто знать что делать. А если не знать и не уметь то....




http://www.djvuzone.org/support/tutorial/chapter-intro.html#intro-what
http://en.wikipedia.org/wiki/JBIG

От Дм. Журко
К PK (06.11.2007 20:24:24)
Дата 06.11.2007 21:00:02

Тогда медленно и под счёт.

Здравствуйте, уважаемый PK.

1. TIFF _во всём_ хуже PNG.
2. Индескированный TIFF _во всём_ хуже даже GIF, а GIF во всём важном (кроме анимации и слегка совместимости) хуже PNG.
3. TIFF -- "рамочный" нежёсткий формат с придурью и несовместимостью. То есть существуют способы упаковки TIFF, которые почти нигде не поддерживаются. Устарел давно.

>Спасибо за ссылку, но речь шла о формате данных, а не о программаю для работы с ними.

Речь об удобстве, выразительности. Обсуждать красоту замысла здесь совсем неуместно.

1. Полноцветный JPEG с наименьшей упаковкой во всём лучше устарелого TIFF.
2. Но, если сомнения гложат, можно использовать полноцветный PNG.
3. PNG во всём лучше TIFF. (Разве только многостраничных PNG не бывает, но и хорошо.)

Таким образом, не надо распространять устарелые сведения и недостаточный опыт. Доводом в пользу идиотского TIFF может быть только лень переставить галочку в программе к сканеру или неумение преобразовать устарелый TIFF в замечательный PNG или, в случае с полноцветом, в JPEG.

Дмитрий Журко

От eagle852
К Дм. Журко (06.11.2007 21:00:02)
Дата 06.11.2007 22:25:16

Мдя.....

>1. TIFF _во всём_ хуже PNG.

Что лучше, круглое или квадратное? Ответ - кому как. Одна любит арбуз, другая офицера. Это разные форматы для разных целей.

>2. Индескированный TIFF _во всём_ хуже даже GIF, а GIF во всём важном (кроме анимации и слегка совместимости) хуже PNG.

Индексированный TIFF обычно таки непакованный, а посему весит больше. Проблема в том, что бывший когда-то бесплатным GIF теперь под копирайтом. Да, не проблема найти и программно реализовать GIF паковщик-распаковщик. Вот только я это могу сделать лично для себя и под одеялом с фонариком. В общее пользование, даже под GNU лицензией я такую программу пустить не могу. В итоге, GIF просто начал тихо помирать лет десять назад, и, полагаю, в обозримом будущем таки помрет. Аминь...
PNG - по сути дела расширенная и альтернативная верси GIFа под GNU лицензией. Да - лучше GIFа, ибо живет и развивается.

>3. TIFF -- "рамочный" нежёсткий формат с придурью и несовместимостью. То есть существуют способы упаковки TIFF, которые почти нигде не поддерживаются. Устарел давно.

TIFF не "рамочный", а так называемый - тэгированный формат файла (Tagged Image File Format). По такому-же принципу устроен формат 3DS. Да, тоже старенький, но все еще весьма распространенный, особенно для перекачки данных между трехмерными пакетами. По такому-же принципу устроен и формат IGES - формат для перекачки данных между инженерными пакетами. Их вообще много - тегированных форматов файлов.
Неумение программ читать продвинутые тэги из тегированных файлов обычно связано не с "плохостью" формата, а с леностью разработчиков ПО, которым лень лезть в дебри.

>1. Полноцветный JPEG с наименьшей упаковкой во всём лучше устарелого TIFF.
>2. Но, если сомнения гложат, можно использовать полноцветный PNG.
>3. PNG во всём лучше TIFF. (Разве только многостраничных PNG не бывает, но и хорошо.)
>Таким образом, не надо распространять устарелые сведения и недостаточный опыт. Доводом в пользу идиотского TIFF может быть только лень переставить галочку в программе к сканеру или неумение преобразовать устарелый TIFF в замечательный PNG или, в случае с полноцветом, в JPEG.

Мдя, молодежь, молодежь...

TIFF - непакованный формат, который поддерживает 16 бит представление цвета по RGB.
GIF и PNG - компрессия без потери качества. GIF при том, в силу своей устарелости ориентирован на вами называемый "индексированный цвет", а правильнее говоря - палитровое предстваление картинки. По-моему, PNG уже поддерживает теперь и JPEG компрессию, но, извините, проверять сейчас не полезу...
JPEG - всегда компрессия с потерей качества. Алгоритм так устроен.

>Таким образом, не надо распространять устарелые сведения и недостаточный >опыт. Доводом в пользу идиотского TIFF может быть только лень >переставить галочку в программе к сканеру или неумение преобразовать >устарелый TIFF в замечательный PNG или, в случае с полноцветом, в JPEG.

Каждому формату свое, ибо ужатое до безобразия, с потерей информации, джипегой - "взад" не вернуть уже никакой магией.
Столь охаянный вами TIFF, мы, например, используем для хранения оцифрованных изображений с электронного микроскопа, да еще в 16 бит. Одна картиночка по 500 мегабайт весит. И не пакуем, потому как будучи запакованными в ZIP эти картиночки ужимаются лишь на 10%. Овчинка выделки не стоит.
Хотите, на стандартных изображениях коэффициет компрессии порядка двойки -пакуйте в PNG. И качество будет, и компрессия.
Хотите все картинки по 32 килобайта - жмите джипегой раз в десять, теряя и качество, и даже растр нормальный. Да, вот об этом самом растре, испорченном артефактами джипег компресси и шла речь. Пережатые до умопомрачения джипегом картинки имеют характерные артефакты - точка превращается в точку, окруженную набором окружностей. Так называемые на жаргоне - функции обрыва дискретного преобразования Фурье. Функция рассеяния точки меняется. Нет, сам пиксель, естесвенно, как был квадратным - так и останется (в этом смысле растр конечно останется), но вот одиночный пиксель на белом поле будет иметь характерные оконтуривания, которых небыло при сканировании (в этом смысле растр и будет нарушен) и которые сведут с ума распознаватель текста. И самое главное, никакими хитрыми чистками от этого уже не избавиться, и утерянную информацию, повторюсь, не вернуть.
Тот, кто дорожит качеством оригинальных сканов - тот хранит TIFF. Было бы желание, а место найдется. Кому надо побыстрее, повеселее, и думать поменьше - тот жмет пресловутую кнопочку и сканирует сразу в JPEG, и жмет раз в пять.

Каждому - свое.


От Дм. Журко
К eagle852 (06.11.2007 22:25:16)
Дата 06.11.2007 23:24:55

Ваши пророчества устарели на 10 лет, протухли. Почитайте что-нибудь свежее 1997. (-)


От СОР
К Дм. Журко (06.11.2007 23:24:55)
Дата 07.11.2007 04:46:58

Для мастер сканов только тифф, пнг это для другого

ЖПЕГ это от безисходности, цены на НДД и мощности копьютеров снимают основную проблему ТИФФа но никак не сделают ЖПЕГ лучше.

От PK
К Дм. Журко (06.11.2007 23:24:55)
Дата 07.11.2007 02:27:16

А Вы для начала почитайте что есть ЖПЕГ и с каким маёнезом его едят (+)

... а потом можете и попробовать попоучать.

Учите матчасть, в общем.

От eagle852
К Дм. Журко (06.11.2007 23:24:55)
Дата 06.11.2007 23:41:09

Понял, отстал. (-)


От tarasv
К Дм. Журко (06.11.2007 23:24:55)
Дата 06.11.2007 23:34:12

Re: Зря вы на tiff бочку катите - png ему совсем не конкурент.

и никогда не будет, слишком дорого стоит замена всего tiff совместимого софта а уж про оборудование и речи не идет.

Орфографический словарь читал - не помогает :)

От eagle852
К eagle852 (06.11.2007 22:25:16)
Дата 06.11.2007 22:57:45

Меня тут поправили...

"GIF не был патентованой технологией, однако с 1994 года Unisys пыталась брать роялити за свой патент на LZW сжатие которое используется в GIF но ее публично смешали с дерьмом. Насколько я знаю срок ее патента истек в 2003 и сейчас можно спокойно писать опенсоурсные либы кодирующие GIF."

Именно, камнем преткновения стал LZW компрессор. Тем не менее, имея GNU библиотеки для TIFF, JPEG и PNG, библиотеки, которые прекрасно собираются на всех платформах, народ с GIF уже в-общем, и не особо желает связываться. Зачем надо разработчику конкретного приложения кодировать формат, когда есть прекрасные библиотеки? Спасибо, конечно, Адобу, что Фотошоп с GIF работает.