От Hoaxer
К All
Дата 17.01.2002 08:34:03
Рубрики Прочее;

ocr посредством цифр. фотоапп. нужен совет

Доброе утро!

Если кто-нибудь использовал цифр. аппарат для фотографирования страниц книг с последующим OCR, т.е., чтобы картинки были не разрешщением не ниже 400 dpi, поделитесь опытом, пожалуйста.

Какой аппарат лучше, каковы результаты сканирования-распознавания, какие проблемы.


От Hoaxer
К Hoaxer (17.01.2002 08:34:03)
Дата 19.01.2002 12:10:38

Все же не совсем ясно

Спасибо всем, кто откликнулся. Однако, полной ясности по данному вопросу у меня не наступило.

Вот вопрос: можно ли на Olympus 3040 (или сходном агрегате, по цене 700-900 долл. США) фотографировать текст (с каким-нибудь штативом, например), чтобы потом его распознать? Т.е., чтобы картинка была разрешением в 400 dpi (или, хотя бы в 300)

Очень прошу не теоретических рассуждений, а практических советов.


От Сергей Зыков
К Hoaxer (19.01.2002 12:10:38)
Дата 19.01.2002 18:14:21

Ясность начнёт проступать после практических занятий. ;с)

Надо знать возможности аппарата, обьектива? с какой высоты снимать для резкости и кадрирования (для шпиёнских "миноксов" использовалась изьячная цепура с метками расстояний. возможно тут сгодится) Штатив конечно здорово, главное чтоб обьектив еще позволял брать с такого расстояния.
Кстати 300 dpi для ФайнРидера хватает "за глаза".

Вот допустим некая камера берет кадр 1200 х 900 пикселей.
Ну и что... количество пикселей остается то прежним, т.е. 1080000 - миллион грубо.
при размере картинки 10,16 х 7,62 см вы будете иметь 300 dpi
при картинке размером 7,62 х 5,72 см вы получаете вожделённые 400 dpi
А хотите 600 пикселей на дюйм? Пожалуйста! при кадре 5 х 3,8 см.

По сути то ничего-то не меняется кроме соотношения между размерами и пикселями! Вполне читаемо, но файнридер постоянно ругался.

Поэтому я и начал закидывать картинку в фотошоп. При формате А4 (чуть больше, для гарантированного захвата) это ~ 96-100 dpi. Практика показывает, что предел - 72 dpi на формат А4, - а это камера которая дает 800 х 600. Еле-еле удавалось вытягивать в фотошопе на распознавание, при соблюдении качественной сьемки.

в "размере изображения" включаем "интерполяцию" и ставим нужное (300) число пикселей.
Обычно нужно еще и фото подправить - перевести в режим "градации серого" с "цветного"
и поработать в "коррекция" - "уровни". Зачастую бывает достаточно.

Не знаю, может у кого другие "фокусы" были при сьемке цифровой камерой.
Еще можно снимать текст фотокамерой когда она в режиме видео соединена с компьютером.

От Shapr (Юрий)
К Hoaxer (17.01.2002 08:34:03)
Дата 18.01.2002 05:58:18

Re: ocr посредством...


>Доброе утро!

>Если кто-нибудь использовал цифр. аппарат для фотографирования страниц книг с последующим OCR, т.е., чтобы картинки были не разрешщением не ниже 400 dpi, поделитесь опытом, пожалуйста.

>Какой аппарат лучше, каковы результаты сканирования-распознавания, какие проблемы.

Я иногда таким образом использую свой Olympus 3040. Особых проблем нет. Желательно только положить на книжку кусок обычного оконного стекла, чтобы страницы на развороте были ровными.

От Сергей Зыков
К Hoaxer (17.01.2002 08:34:03)
Дата 17.01.2002 14:51:55

Re: ocr посредством...

Это возможно, (снимал А4 при 1600х1200 и 1300х~1000) но каждую страницу нужно после этого дожевать в фотошопе( читая мантры ;с) и и не забыть добавить dpi в картинке, до - 300 на дюйм), для страховки можно делать дубли при сьемке. Хотя по работе в Шопе надо отдельно писать.
Конечно вручную пришлось еще править, но это было не утомительно.. Есть еще ручной (вроде как для штрих-кода) сканер, сам запоминает несколько страниц текста. Могу поискать инфу на него.

Еще какая, то из камер СОНИ имеет доп. возможности. Завтра уточню

От Сергей Зыков
К Сергей Зыков (17.01.2002 14:51:55)
Дата 17.01.2002 15:35:01

Re: ocr посредством...

нашел название камеры - SONY DSC-S70
Вот цитатка в из "подводной лодки" №11-2000: "для пересьемки текстов и решения других подобных задач имеется экономичный черно-белый режим с записью в GIF" а статью думаю можно найти на www.submarine.ru. Но наверняка через "фотошоп" каждый кадр прогонять надо.

От РВТ
К Hoaxer (17.01.2002 08:34:03)
Дата 17.01.2002 11:51:50

В архиве поработать надо? Ж;-) >>

Доброе время суток, коллеги!

Во многих архивах на старые документы запрещено воздействовать светом, например, сканировать их или ксерить. В Музее Артиллерии приобрели (или им "спонсоры" подарили - не помню :) комплект для оцифровки старых документов с уифровой камерой стоимостью в несколько десятков килобаксов...

>Если кто-нибудь использовал цифр. аппарат для фотографирования страниц книг с последующим OCR, т.е., чтобы картинки были не разрешщением не ниже 400 dpi, поделитесь опытом, пожалуйста.
>Какой аппарат лучше, каковы результаты сканирования-распознавания, какие проблемы.

Пробовал 2-мегапиксельным, по 2 снимка на страницу. Результаты плохие.

Сейчас есть в наличии обычный фотоаппарат + слайд сканер Acer 2720S (2700 dpi) - рузльтаты хорошие. Сканер дает 3800 х 2550 точек, что применительно к формату А4 дает разрешение примерно 300 пикс/дюйм.

Сканер стоит 295 у.е.

Штатив (или его подобие из подручных материалов:) обязателен.

С уважением, Вадим Степанов

От РВТ
К Hoaxer (17.01.2002 08:34:03)
Дата 17.01.2002 11:49:23

Это для того чтобы в архиве поработать? =:-) >>

Доброе время суток, коллеги!

Во многих архивах на старые документы запрещено воздействовать светом, например, сканировать их или ксерить. В Музее Артиллерии приобрели (или им "спонсоры" подарили - не помню :) комплект для оцифровки старых документов с уифровой камерой стоимостью в несколько десятков килобаксов...

>Если кто-нибудь использовал цифр. аппарат для фотографирования страниц книг с последующим OCR, т.е., чтобы картинки были не разрешщением не ниже 400 dpi, поделитесь опытом, пожалуйста.
>Какой аппарат лучше, каковы результаты сканирования-распознавания, какие проблемы.

Пробовал 2-мегапиксельным, по 2 снимка на страницу. Результаты плохие.

Сейчас есть в наличии обычный фотоаппарат + слайд сканер Acer 2720S (2700 dpi) - рузльтаты хо

От Ingvar
К РВТ (17.01.2002 11:49:23)
Дата 17.01.2002 12:11:34

Знаем мы эти музейные штучки :-)


>Доброе время суток, коллеги!

>Во многих архивах на старые документы запрещено воздействовать светом, например, сканировать их или ксерить. В Музее Артиллерии приобрели (или им "спонсоры" подарили - не помню :) комплект для оцифровки старых документов с уифровой камерой стоимостью в несколько десятков килобаксов...

Да, цены где-то такие. А в состав комплекта наверняка еще входит пара люминесцентных осветителей ватт на 700. Таких, что темные очки надеть хочется...

От Василий Фофанов
К Ingvar (17.01.2002 12:11:34)
Дата 17.01.2002 14:09:17

Люминесцентных на 700 ватт??? Смилуйтесь... (-)


От Ingvar
К Василий Фофанов (17.01.2002 14:09:17)
Дата 17.01.2002 15:14:25

Давайте посчитаем

Я же написал осветителя, а не лампочки.
Давайте считать. Например модель "Videssence B330". Используем два осветителя, в каждом 6 ламп по 55 ватт. Итого 660 ватт. Данная модель осветителей рекомендована изготовителем камер.

От pas
К Hoaxer (17.01.2002 08:34:03)
Дата 17.01.2002 09:32:01

А зачем?

Сканер - $50, а хорошая цифровая камера - не меньше $300, за эти деньги можно 6 сканеров купить.

Т.е. проще купить дешевый сканер и самую дешевую цифровую камеру для фоток для семьи (вместе обойдется в $150) чем крутую камеру за $300.

От Hoaxer
К pas (17.01.2002 09:32:01)
Дата 17.01.2002 09:51:09

Есть материалы, которые сканером не посканируешь... (-)

чЭ

От pas
К Hoaxer (17.01.2002 09:51:09)
Дата 17.01.2002 10:00:57

Re: Есть материалы,

Тогда обычный фотоаппарат (плюс сканнер) и сканировать фотографии. Разница в цене покрывает расходы на много тысяч фотоснимков (если в России нет проблемм с черно-белой пленкой, бумагой, и ее проявкой-печатью, не в курсе) или тысячу-две цветных, еше и фотографии на память останутся, и на батарейки тратиться не нужно, и приличный фотоаппарат - вещь вечная, а цифровой устареет за год морально.

От Валерий Мухин
К pas (17.01.2002 10:00:57)
Дата 17.01.2002 10:57:39

Поддерживаю, с маленьким дополнением (+)

>Тогда обычный фотоаппарат (плюс сканнер) и сканировать фотографии. ....приличный фотоаппарат - вещь вечная, а цифровой устареет за год морально.

Лучше купить приличный сканер с разрешением 2400 dpi и дополнительным источником для сканирования прозрачных материалов. Им можно будет СРАЗУ сканировать проявленные пленки. При этом возможно вытягивать даже те кадры которые запорчены для обыной печати из-за неправильной экспозиции.
Например можно купить HP5470C - $242.


C уважением, Валерий Мухин.
http://mukhin.vif2.ru

От Исаев Алексей
К Hoaxer (17.01.2002 08:34:03)
Дата 17.01.2002 09:17:39

А имеет ли смысл вообще сканировать?

Если это не книги, то проще отснять на фотоаппарат и читать джипеги.

От Hoaxer
К Исаев Алексей (17.01.2002 09:17:39)
Дата 17.01.2002 09:52:00

Нужно именно распознать, т.е., текст (-)

ы

От SerB
К Hoaxer (17.01.2002 08:34:03)
Дата 17.01.2002 08:43:09

Нереально.

Даже в идеальном случае - при наилучшей на сегодня камере с матрицей 3Кх2К у Вас получится 3000 пикселей на 12 дюймов (формат А4), т.е. меньше 400 пикселей на дюйм.

Т.е. даже на супердорогой технике тривиальный лист А4 надо снимать в 2 кадра, и то до 400dpi не дотягиваем (3000/8). При меньшей матрице - соответственно.

При этом штатив - необходим, снимать с рук даже и не думайте. Проверено.

Тем не менее - всяческих удач.
SerB

От Ingvar
К SerB (17.01.2002 08:43:09)
Дата 17.01.2002 09:21:29

Реально, только дорого


>Даже в идеальном случае - при наилучшей на сегодня камере с матрицей 3Кх2К у Вас получится 3000 пикселей на 12 дюймов (формат А4), т.е. меньше 400 пикселей на дюйм.

Ох не люблю я слова "идеальная" и "наилучшая". :-)
Бывает такая штука, называется сканирующая камера. Моя, например, дает 3500*3500 пикселей. Называется PhaseOne Studiokit. Предназначена для съемки неподвижных объектов в студийных условиях. Я ею всякие древние книги, карты, фотки снимаю...

Извините за офф-топик...

От Hoaxer
К Ingvar (17.01.2002 09:21:29)
Дата 17.01.2002 09:56:41

Re: Реально, только...

Ну, я не могу на это дело 20 штук потратить, это перебор. Максимум, тысячу. Если в этих пределах задачу решить нельзя, то буду искать другой способ. Ручной сканер, например. А камера за 20-25.000... Лучше уж купить планетарный сканер, типа BookEye, за 18.000.

От SerB
К Ingvar (17.01.2002 09:21:29)
Дата 17.01.2002 09:29:20

Дык он видимо хочет камеру протащить туда, куда со сканером не пустют Ж;o) (-)


От Hoaxer
К SerB (17.01.2002 08:43:09)
Дата 17.01.2002 09:16:18

Re: Нереально.

Я сейчас погружусь в этот вопрос, думаю, чеез пару дней буду знать точно, реально или нет. Есть же аппараты с функцией