От Дмитрий Кропотов
К Сергей Вадов
Дата 05.06.2006 12:26:15
Рубрики Ссылки; Тексты;

Фотоизображения

Привет!
непригодны для распознавания.
> Вопрос - насколько реалистично в 1991 году отсканировать 7000 документов и сколько времени это могло бы занять?
Ручным сканером с портативным компьютером - несколько месяцев.

>Можно высказать оценку снизу - ясно, что ручной сканер работал не хуже, чем фотоаппарат (иначе бы зачем им вообще пользоваться). Фотоаппаратом я неоднократно переснимал интересующие части книг, это вполне работает.
Переснятое непригодно для распознавания текста - перекосы, сбои в фокусе и т.д.

> Если на пересъемку страницы с учетом перелистывания отвести 10 секунд (эта оценка завышена, если потратить время и сделать удобный штатив, будет быстрее), на 7000 страниц нужно 70000 секунд, т.е. 19 часов рабочего времени.

> Даже если считать, что замена пленки и поход на новым томом занимают столько же времени, выйдет 38 часов = меньше недели работы (hm, даже забавно, а на что Буковский 2 месяца потратил?).
Сканирование на компьютере - _гораздо_ более времяемкий процесс, чем фотографирование.
Даже совр. планшетный сканер любительского класса сканирует одну страницу от полминуты до минуты, реально не получается сканировать быстрее, чем страницу в минуту. С ручным сканером ситуация еще хуже, так как, зачастую, одного прохода для скана страницы недостаточно - нужно две полосы просканировать.

Т.е. умножьте ваше время на 100.

Дмитрий Кропотов, www.avn-chel.nm.ru

От Сергей Вадов
К Дмитрий Кропотов (05.06.2006 12:26:15)
Дата 05.06.2006 12:51:29

Дела технические.

Дмитрий, добрый день!

Трудно вести дискуссию с человеком, который лучше разбирается в сканировании и вообще (в отличие от меня) знает физику ;-). Расскажу лишь о собственном опыте: переснимаемое на цифровой фотоаппарат распознается программой FineReader начиная с разрешения 1600x1200; после сегодняшней камеры (4-мегапискельной) как русский, так и английский текст распознается вполне качественно. На планшетном сканере Canon (модели 2001 года) можно добиться сканирования за 12 секунд, если отключить цвет, отключить глубину (т.е. выставить monochrome, а не greyscale), выставить низкое разрешение (вместо 1200x1200 поставить 300x300). Мне ответил коллега, у которого есть ручной сканер HP capshare 910. Скорость сканирования страницы A4: 6 секунд (он сразу сканирует, понимая, что это текст, а не фотография, я не пользовался приборчиком, но видел файлы, они сразу маленькие).

Кроме того, если Ваша оценка верна, и Буковскому было нужно несколько месяцев для сканирования 7000 документов - не видно противоречия (казалось бы, у него и было несколько месяцев) ?

Позвольте спросить, какова Ваша точка зрения - Вы считаете, что Буковский приврал, рассказывая, что все отсканировал сам (а реально, например, заплатил еще 3 девочкам), или же что сами его файлы получены не с оригиналов в архиве ЦК КПСС и архиве Президента РФ, а фальшивки, созданные на компьютере ?

Сергей Вадов

От Дмитрий Кропотов
К Сергей Вадов (05.06.2006 12:51:29)
Дата 05.06.2006 14:17:06

Re: Дела технические.

Привет!

> Расскажу лишь о собственном опыте: переснимаемое на цифровой фотоаппарат распознается программой FineReader начиная с разрешения 1600x1200;
Для этого нужно весьма точное позиционирование, скажем, укрепление камеры на штативе. С рук добиться качественного фотоизображения, пригодного для файнридера не получится.

> после сегодняшней камеры (4-мегапискельной) как русский, так и английский текст распознается вполне качественно. На планшетном сканере Canon (модели 2001 года) можно добиться сканирования за 12 секунд, если отключить цвет, отключить глубину (т.е. выставить monochrome, а не greyscale), выставить низкое разрешение (вместо 1200x1200 поставить 300x300). Мне ответил коллега, у которого есть ручной сканер HP capshare 910. Скорость сканирования страницы A4: 6 секунд (он сразу сканирует, понимая, что это текст, а не фотография, я не пользовался приборчиком, но видел файлы, они сразу маленькие).
Capshare - это довольно продвинутая модель. С ручными сканерами 90х годов надо сравнивать, скорее, планшетные любительские сегодняшние.
http://www.ixbt.com/digimage/hp-capshare910.html


Есть, безусловно, сканеры промышленного класса, предназначенные для быстрого сканирования. Но речь-то о том, что обычный любительский сканер такой скорости не показывает.



>Кроме того, если Ваша оценка верна, и Буковскому было нужно несколько месяцев для сканирования 7000 документов - не видно противоречия (казалось бы, у него и было несколько месяцев) ?
Для сканирования и обработки 1 (одной) страницы документа (с учетом сохранения в памяти компьютера) требовалось на том уровне техники не менее 1 минуты.
Лично мне не удавалось сканировать на любительском сканере быстрее, чем 2 страницы в минуту (опыт сканирования - несколько десятков книг) без распознавания) - но это на совр. компьютере, с совр. планшетным (хотя и любительского уровня) сканером.
Поэтому я категорически не верю в возможность сканирования 7000 тыс. документов менее чем за 7 тыс. минут.


>Позвольте спросить, какова Ваша точка зрения - Вы считаете, что Буковский приврал, рассказывая, что все отсканировал сам (а реально, например, заплатил еще 3 девочкам), или же что сами его файлы получены не с оригиналов в архиве ЦК КПСС и архиве Президента РФ, а фальшивки, созданные на компьютере ?
История введения документов в оборот, обозначенная Буковским, вызывает слишком много вопросов. До прояснения этой истории к этим документам нельзя относится без недоверия.
Если неясно, как документы были введены в научный оборот - доверия к ним нет.
Вполне возможно, что вся история была затеяна для легализации нескольких фальшивок, например, такого уровня, как катынские документы.

>Сергей Вадов
Дмитрий Кропотов, www.avn-chel.nm.ru

От Сергей Вадов
К Дмитрий Кропотов (05.06.2006 14:17:06)
Дата 05.06.2006 15:12:33

Пусть будет так.

>> Расскажу лишь о собственном опыте: переснимаемое на цифровой фотоаппарат распознается программой FineReader начиная с разрешения 1600x1200;
> Для этого нужно весьма точное позиционирование, скажем, укрепление камеры на штативе. С рук добиться качественного фотоизображения, пригодного для файнридера не получится.

Естественно, снимать удобнее со штативом (но, к слову, и без штатива распознается, хотя и не так хорошо). FineReader - великая вещь.

> Есть, безусловно, сканеры промышленного класса, предназначенные для быстрого сканирования. Но речь-то о том, что обычный любительский сканер такой скорости не показывает.

Думаю, Буковский мог найти спонсоров на любой сканер, который был нужен.

> История введения документов в оборот, обозначенная Буковским, вызывает слишком много вопросов. До прояснения этой истории к этим документам нельзя относится без недоверия. Если неясно, как документы были введены в научный оборот - доверия к ним нет. Вполне возможно, что вся история была затеяна для легализации нескольких фальшивок, например, такого уровня, как катынские документы.

Что ж, доверяю Вам тут, как специалисту - история сканирования вызывает вопросы. Хочу обратить Ваше внимание на другой аспект проблемы - эти документы фигурировали в "деле КПСС", рассматривавшемся в Конституционном Суде. Т.е. дальнейшая их секретность с точки зрения интересов страны бессмысленна - слишком много людей их видело или могло видеть, ясно, что если ЦРУ для чего-то нужен был какой-то документ, его в тот момент пересняли. В США в такой ситуации можно ожидать, что документы будут доступны в интернете на сайте министерства юстиции. У нас нет ничего подобного - и именно поэтому мы вынуждены пользоваться сканами Буковского с его вызывающей вопросы техникой сканирования. Если бы на государственном сайте в РФ можно было бы ознакомиться с этими документами - никаких вопросов бы не возникало. Но нет, у нас так не делают, увы.

Сергей Вадов

От Дмитрий Кропотов
К Сергей Вадов (05.06.2006 15:12:33)
Дата 05.06.2006 15:32:07

Это еще полбеды

Привет!

документы, представленные на процессе КПСС (например, катынский пакет) не проходили экспертизу на подлинность.
Т.е. суд не назначил этой экспертизы, т.к. после высказывания претензий, обвинение сняло эти документы.

>сканирования. Если бы на государственном сайте в РФ можно было бы ознакомиться с этими документами - никаких вопросов бы не возникало. Но нет, у нас так не делают, увы.

>Сергей Вадов
Дмитрий Кропотов, www.avn-chel.nm.ru

От Сергей Вадов
К Дмитрий Кропотов (05.06.2006 15:32:07)
Дата 06.06.2006 16:27:15

Весьма печально.

> документы, представленные на процессе КПСС (например, катынский пакет) не проходили экспертизу на подлинность. Т.е. суд не назначил этой экспертизы, т.к. после высказывания претензий, обвинение сняло эти документы.

Дмитрий, добрый день!

Эти подробности весьма печальны. Очень жаль, что у нас нет традиции помещения имеющих важность документов в общественный доступ. И даже по такому знаковому делу имеются расхождения не то что на уровне оценок - даже на уровне документов. Весьма грустно.

Сергей Вадов