От Дмитрий Козырев
К Dargot
Дата 16.10.2013 18:04:13
Рубрики Суворов (В.Резун); Локальные конфликты; 1917-1939;

Re: Это деспотия

>>Напротив объем задач корпораций требует высокой их автоматизации.
> Функций по контролю, я имею в виду.

и функций по контролю - тоже.

>>У тебя какое то ограниченное воображение зачем нужно распознавание лиц. Я совершено о другом - я ровно о том, что даже небольшие объемы анализа уже существующие показывают технологическую предельность доступных ресурсов - а их требуется увеличивать не просто на порядки, а на многие порядки.
> "Объем анализа" чего?

Информации, собранной от детекторов.

>А то, извини, можно из того, что поиск оптимального решения задачи коммивояжера для жалких 50 городов - задача неподъемная, сделать вывод, что вообще все методы оптимизации - фу и бесполезны. Однако, это будет неправильно.

Я не понял к чему этот аргумент. У этой задачи минимальный набор входных данных. Хдесь весь вопрос только в ее алгоритмизации.

>>>Эффект масштаба он и в обратном направлении работает - Интернет - нечто качественно большее, чем "соединенные друг с другом компьютеры".
>>не понял существо этого аргумента.
>
> Это к возражениям в стиле: "А я спрячусь от камеры", "Иногда камеры бьют", "Телефон не всегда работает" и пр.

В упрощенном виде это действительно так. Естественое поведение людей - примеры которого приводятся препятсвует их достоверной верификации или (в соответсвии с твоими преждложениями) создает сврехпоток "инцидентов", по которым требуется принятие решения человеком.

>>ты опять не о том. В этом пункте я говорю о том, что прежде чем перейти к анализу - нужно обеспечить сбор и систематизацию (пригодность и доступность для анализа) хреналионного объема сырых данных.
>>Ты знаешь сколько занимает запись видео на единицу времени? в разрешении чтобы надежно распознавалось лицо (ну или фигура), чтобы не было пропусков за счет сокращения числа кадров?
> Как раз количество кадров не так важно, мы же не кино показываем. Достаточно нескольких в секунду максимум.

ага, сразу видно, что с видео с камер наблюдения ты не работал и с ситуациями "в этом кадре половина фигуры входит, а в следующем половина фигуры выходит" ты не сталкивался.

> Оценим так. Пусть 1 камера генерирует в сутки 1 гигабайт видео (с учетом малой частоты кадров).

я даже тебя обрадую - в 2-3 раза меньше.

>> А перемножить это на число камер работающих в режиме 24х7? А выстроит на все это дело индексы?
> Количество камер в Великобритании оценивается в 4-6 миллионов. Пусть 5 миллионов.
> Все камеры всей Великобритании генерируют 5 петабайт в сутки. Это много, да. 2.5 Рутрекера в день, 0.2 дневного потока данных через сервера гугла.

Это не "поток"! Его нужно не "пропустить", а записать, проиндексировать, закешировать! О чем и речь - нужен гугл на среднее административное образование (и это только по видео!) - хотя ты сам говоришь что камер надо больше, в разы если не на порядок.

> Однако:
>1) В первом приближении сырое видео можно хранить только на локальных серверах какое-то время (как оно сейчас, собственно, и делается). А "наверх" для анализа отсылать только уже обработанные и почищенные данные - лица людей, номера машин.

>2) Конкретно для сжатия видео камер наблюдения, которые большую часть времени показывают одно и то же, могут и должны использоваться специфические алгоритмы сжатия.

детекторы движения там используются - запись по факту изменения картинки, но это вырожденный случай - тебя же интересует тотальный контроль перемещений - значит в режиме 24х7 надо писать городские площади, переходы метро, с разных ракурсов чтобы видеть лица.
Кстати а в дождь оно работает? когда люди идут под зонтами :)))

>3) Ты сам сказал - экспонента.

ты сам сказал "удваивается каждый год", я принял на веру.

>>... работает на множестве десятков-сотен объектов.
> В день под камерами казино проходит отнюдь не сотня людей.

не думаю чт одаже крупные казино имеют больше сотЕН посетителей в день.
И потом тут то задача другая им надо сопоставить паттерну подозрительного со всеми входящими.
Явное несовпадение - отбрасывается, на сходство - сигнал охране. простейший алгортм.
В твоем случае надо _верифицировать_ _каждого_ попавшего в объектив. Т.е. записать лицо, запросить "ценральную базу данны" и решить задачу распознавание образов _над ВСЕЙ_ базой.

>>> Да, что немаловажно, реальность, данная нам в ощущениях, такова, что значительную долю информации, попадание которой в третьи руки может поставить под угрозу личную жизнь пользователей, контролируется негосударственными организациями - Майкрософт, Эппл, Гугл...
>>это не значительная доля информации.
> Значительная-значительная. Электронная переписка, разговоры по скайпу, контакты в социальных сетях.

Это не значительная доля информации. Хотя да, позволяет таргетировать рекламу.

> Еще раз, на пальцах. В отличие от принципиально нечетких и неформализуемых критериев, применяемых сейчас, для некоего паттерна поведения мы можем точно сказать, с какой надежностью следование ему характеризует пациента как нежелательный элемент. 1%, 30%, 90%... Последних не надо проверять, надо сразу арестовывать.

Если человек настолько глуп что своей сетевой деятельностью набрал себе на состав по УК то он сам себе злобный буратино.
Я же говорю как раз о тех случаях которые "требуют дополнительной проверки".

> Я предлагаю собирать эту статистику в автоматическом режиме и сразу с определением доверительной вероятности.

ее и сейчас можно собрать.
Ты говоришь на мой взгляд о другом.
Для попадания в аналитику органов - нужно сначала привлечь к себе внимание этих органов каким то явным криминалом "встать на учет".
ты же сейчас говоришь об обратном - о том что "тотальный контроль" позволит "ставить на учет" в автоматическом режиме - иначе все эти меры лишены смысла при неэпических затратах.

От Dargot
К Дмитрий Козырев (16.10.2013 18:04:13)
Дата 16.10.2013 18:51:51

Re: Это деспотия

Приветствую!

>>>Напротив объем задач корпораций требует высокой их автоматизации.
>> Функций по контролю, я имею в виду.
>и функций по контролю - тоже.
А функции по контролю в масштабах компании автоматизировать мало смысла.
Ну например, то же распознавание лиц на камерах. Зачем оно в компании?

>>>У тебя какое то ограниченное воображение зачем нужно распознавание лиц. Я совершено о другом - я ровно о том, что даже небольшие объемы анализа уже существующие показывают технологическую предельность доступных ресурсов - а их требуется увеличивать не просто на порядки, а на многие порядки.
>> "Объем анализа" чего?
>Информации, собранной от детекторов.
Какой информации? Порядка петабайта в год, ЕМНИП, генерит БАК - а получаемая от него информация вполне анализируется, причем, грубо говоря, одним суперкомпьютером, а не сетью раскиданных по всей стране вычислительных мощностей разного уровня.

>>>>Эффект масштаба он и в обратном направлении работает - Интернет - нечто качественно большее, чем "соединенные друг с другом компьютеры".
>>>не понял существо этого аргумента.
>> Это к возражениям в стиле: "А я спрячусь от камеры", "Иногда камеры бьют", "Телефон не всегда работает" и пр.
>
>В упрощенном виде это действительно так. Естественое поведение людей - примеры которого приводятся препятсвует их достоверной верификации или (в соответсвии с твоими преждложениями) создает сврехпоток "инцидентов", по которым требуется принятие решения человеком.
То, что некоторые ездят с грязными номерами - а некоторые специально их пачкают - не отменяет идеи автомобильных номеров.

>>>ты опять не о том. В этом пункте я говорю о том, что прежде чем перейти к анализу - нужно обеспечить сбор и систематизацию (пригодность и доступность для анализа) хреналионного объема сырых данных.
>>>Ты знаешь сколько занимает запись видео на единицу времени? в разрешении чтобы надежно распознавалось лицо (ну или фигура), чтобы не было пропусков за счет сокращения числа кадров?
>> Как раз количество кадров не так важно, мы же не кино показываем. Достаточно нескольких в секунду максимум.
>ага, сразу видно, что с видео с камер наблюдения ты не работал и с ситуациями "в этом кадре половина фигуры входит, а в следующем половина фигуры выходит" ты не сталкивался.
Когда камер много - ничего страшного. На эту не войдет - на другую попадется.

>> Оценим так. Пусть 1 камера генерирует в сутки 1 гигабайт видео (с учетом малой частоты кадров).
>я даже тебя обрадую - в 2-3 раза меньше.
Это неважно, нам же порядок определить.

>>> А перемножить это на число камер работающих в режиме 24х7? А выстроит на все это дело индексы?
>> Количество камер в Великобритании оценивается в 4-6 миллионов. Пусть 5 миллионов.
>> Все камеры всей Великобритании генерируют 5 петабайт в сутки. Это много, да. 2.5 Рутрекера в день, 0.2 дневного потока данных через сервера гугла.
>
>Это не "поток"! Его нужно не "пропустить", а записать, проиндексировать, закешировать! О чем и речь - нужен гугл на среднее административное образование (и это только по видео!) - хотя ты сам говоришь что камер надо больше, в разы если не на порядок.

Я не вижу, что тут страшного. Мы же не гоним весь этот поток в один центр по одному каналу.
Пусть цифровой "паспорт" лица состаляет 1 кБайт (на самом деле - меньше, думаю). Пусть в мы хотим хранить 100 миллионов лиц на всю Британию. 100гБайт данных, вообще ни о чем. 100 миллионов записей. Это не очень большая БД, которую можно тупо раскопировать по всей стране на каждый сервер, контролирующий десяток-другой камер и раз в сутки апдейтить. Запросов к ней будет тоже не очень много - не так много лиц в секунду каждая камера видит.

>детекторы движения там используются - запись по факту изменения картинки, но это вырожденный случай - тебя же интересует тотальный контроль перемещений - значит в режиме 24х7 надо писать городские площади, переходы метро, с разных ракурсов чтобы видеть лица.
Детекторы движений - само собой, но я конкретно об алгоритмах зжатия типа H.264.

>Кстати а в дождь оно работает? когда люди идут под зонтами :)))
В метро и автобусе - да:)

>не думаю чт одаже крупные казино имеют больше сотЕН посетителей в день.
>И потом тут то задача другая им надо сопоставить паттерну подозрительного со всеми входящими.
>Явное несовпадение - отбрасывается, на сходство - сигнал охране. простейший алгортм.
>В твоем случае надо _верифицировать_ _каждого_ попавшего в объектив. Т.е. записать лицо, запросить "ценральную базу данны" и решить задачу распознавание образов _над ВСЕЙ_ базой.
См. выше. На каждом локальном сервере будет не больше нескольких десятков запросов в секунду.

>>>> Да, что немаловажно, реальность, данная нам в ощущениях, такова, что значительную долю информации, попадание которой в третьи руки может поставить под угрозу личную жизнь пользователей, контролируется негосударственными организациями - Майкрософт, Эппл, Гугл...
>>>это не значительная доля информации.
>> Значительная-значительная. Электронная переписка, разговоры по скайпу, контакты в социальных сетях.
>Это не значительная доля информации. Хотя да, позволяет таргетировать рекламу.
Может, в твоей терминологии, личная переписка не является значительным куском личной информации - но в моей является:)

>> Еще раз, на пальцах. В отличие от принципиально нечетких и неформализуемых критериев, применяемых сейчас, для некоего паттерна поведения мы можем точно сказать, с какой надежностью следование ему характеризует пациента как нежелательный элемент. 1%, 30%, 90%... Последних не надо проверять, надо сразу арестовывать.
>Если человек настолько глуп что своей сетевой деятельностью набрал себе на состав по УК то он сам себе злобный буратино.
Ну, народу и такие примеры известны.
Однако же, речь идет не о "набрал на состав по УК", когда пишущий книжку про бандитов ВНЕЗАПНО оказывается под следствием как бандит. Речь идет о выявлении соответствия паттернов безобидных в отдельности действий - посещений сайтов, перемещений, телефонных звонков, социальных контактов и пр. противоправному поведению.

>> Я предлагаю собирать эту статистику в автоматическом режиме и сразу с определением доверительной вероятности.
>ее и сейчас можно собрать.
Сейчас не так много информации для анализа.

>Ты говоришь на мой взгляд о другом.
>Для попадания в аналитику органов - нужно сначала привлечь к себе внимание этих органов каким то явным криминалом "встать на учет".
>ты же сейчас говоришь об обратном - о том что "тотальный контроль" позволит "ставить на учет" в автоматическом режиме - иначе все эти меры лишены смысла при неэпических затратах.
Именно.

С уважением, Dargot.

От Дмитрий Козырев
К Dargot (16.10.2013 18:51:51)
Дата 16.10.2013 21:22:20

Re: Это деспотия


>>>>Напротив объем задач корпораций требует высокой их автоматизации.
>>> Функций по контролю, я имею в виду.
>>и функций по контролю - тоже.
> А функции по контролю в масштабах компании автоматизировать мало смысла.

ну как же мало-то? Сейчас целая масса стандартов по информационной безопасности требует функций контроля и если их не автоматизировать - никакого персонала не напасешься.

> Ну например, то же распознавание лиц на камерах. Зачем оно в компании?

например для физического контроля доступа в защищенные зоны производства или к критичному оборудованию.
Разного рода смарткарты невполне подходят - сотрудники склонны передавать их друг другу. нужна биометрия.
Есть изуверы контролирующие присутсвие на рабочих местах - пока правда обходятся радиометками - но опять же не существует прямой связи между ней и человеком.


>>> "Объем анализа" чего?
>>Информации, собранной от детекторов.
> Какой информации?

о которой ты говоришь - распознавание изображений в онлайн, их корреляция с данными мобильных операторов, перемещением автомобиля, посещаемостью и активностью в сети, связями с другими людьми и их поведением.



>>> Это к возражениям в стиле: "А я спрячусь от камеры", "Иногда камеры бьют", "Телефон не всегда работает" и пр.
>>
>>В упрощенном виде это действительно так. Естественое поведение людей - примеры которого приводятся препятсвует их достоверной верификации или (в соответсвии с твоими преждложениями) создает сврехпоток "инцидентов", по которым требуется принятие решения человеком.
> То, что некоторые ездят с грязными номерами - а некоторые специально их пачкают - не отменяет идеи автомобильных номеров.

идея паспортов тоже существует давно.
Речь идет про тотальный онлайн контроль.
Такой контроль номеров автомашин с помощью камер стал возможен сравнительно недавно. И то там используется распознавание ограниченного набора стандартных символов, в опредленной точке пространства.
И то это сразу столкнулось с целым набором методов противодействия.
Ты же предлагаешь распознавать лицо, объект априори нечеткий, многообразный, имеющий совпадения (двойники и близнецы), находящийся под произвольным углом к камере (голова подвижна), скрываемый даже неумышленно очками или элементами одежды, подверженный изменениям ((не)бритье, косметология, биологические изменения, травмы).


>>> Как раз количество кадров не так важно, мы же не кино показываем. Достаточно нескольких в секунду максимум.
>>ага, сразу видно, что с видео с камер наблюдения ты не работал и с ситуациями "в этом кадре половина фигуры входит, а в следующем половина фигуры выходит" ты не сталкивался.
> Когда камер много - ничего страшного. На эту не войдет - на другую попадется.

А в чем смысл контроля если между фиксацией соседних камер будет несколько часов?



>>Это не "поток"! Его нужно не "пропустить", а записать, проиндексировать, закешировать! О чем и речь - нужен гугл на среднее административное образование (и это только по видео!) - хотя ты сам говоришь что камер надо больше, в разы если не на порядок.
>
> Я не вижу, что тут страшного. Мы же не гоним весь этот поток в один центр по одному каналу.

То есть как? Обязан гнать - каждая камера каждое лицо должна гнать в центр.

> Пусть цифровой "паспорт" лица состаляет 1 кБайт (на самом деле - меньше, думаю).

Чтоты собираешься распознать по изображению в 1 К? :)



>>Кстати а в дождь оно работает? когда люди идут под зонтами :)))
> В метро и автобусе - да:)

Там люди спят подняв воротник и натянув капюшон :)))

>>В твоем случае надо _верифицировать_ _каждого_ попавшего в объектив. Т.е. записать лицо, запросить "ценральную базу данны" и решить задачу распознавание образов _над ВСЕЙ_ базой.
> См. выше. На каждом локальном сервере будет не больше нескольких десятков запросов в секунду.

Тогда ты не учитываешь "стоимость владения" такой системой. Сколько нужно админов на поддержку - чтобы делать регулярные процедуры. апддейты и т.п (это тоже можно просчитать по ИТИЛ :)


>>> Значительная-значительная. Электронная переписка, разговоры по скайпу, контакты в социальных сетях.
>>Это не значительная доля информации. Хотя да, позволяет таргетировать рекламу.
> Может, в твоей терминологии, личная переписка не является значительным куском личной информации - но в моей является:)

Видишь ли цифровая диктатура невозможна без диктатру обычной, государственной. Т.е. когда государство активно вмешивается в личную и общественную жизнь, устанавливает свои нормы и правила и применяет репрессалии к нарушителям.
Т.е. в этой перписке должно быть нечто противозаконное, чтобы посик его с такой затратой ресурсов был оправдан.
Ну и что это у тебя? :)


>>Если человек настолько глуп что своей сетевой деятельностью набрал себе на состав по УК то он сам себе злобный буратино.
> Ну, народу и такие примеры известны.
> Однако же, речь идет не о "набрал на состав по УК", когда пишущий книжку про бандитов ВНЕЗАПНО оказывается под следствием как бандит. Речь идет о выявлении соответствия паттернов безобидных в отдельности действий - посещений сайтов, перемещений, телефонных звонков, социальных контактов и пр. противоправному поведению.

Можно это как то поконкретнее изложить. Вот человек регулярно читает экстремизм и ходит в стрелковый клуб.
Вот это установлено - что дальше?

>>> Я предлагаю собирать эту статистику в автоматическом режиме и сразу с определением доверительной вероятности.
>>ее и сейчас можно собрать.
> Сейчас не так много информации для анализа.

Но и не мало.
Просто в большинтсве случаев это пустышка, не представляющая интереса с одной стороны или тщательно скрываемая с другой.
И твои страхи состоят в том, что бы для самоцели реализовать космическую программу. Удовлетворить свое любопытсво :)

>>Ты говоришь на мой взгляд о другом.
>>Для попадания в аналитику органов - нужно сначала привлечь к себе внимание этих органов каким то явным криминалом "встать на учет".
>>ты же сейчас говоришь об обратном - о том что "тотальный контроль" позволит "ставить на учет" в автоматическом режиме - иначе все эти меры лишены смысла при неэпических затратах.
> Именно.

Что "именно". Я об этом уже писал.
10 тыс срабатываний в день на 100 "контролеров" - и что им с этим делать?
А завтра еще +10 тыс.