НовостиОбзорыСобытияIT@WorkРеклама
Идеи и практики автоматизации:

Блог

Копаемся в шпионских данных

Серия свежих инициатив по созданию продвинутых движков поиска, аналитики и раскопки данных предпринята департаментом директора национальной разведки США ODNI, согласно отчета (pdf) этой службы Конгрессу. Больше всего интересна эта деятельность, конечно, с технической точки зрения -- как такие системы организуются инфраструктурно, решается ли задача взрывных объемов только масштабированием ЦОДов, или же находятся-разрабатываются качественно новые подходы. Сведения об этом по понятным причинам отсутствуют, но можно предположить, что мощность наращивается, но прежде всего алгоритмы новые придумываются, да и какие-нибудь старые находки, ранее не реализованные из-за нехватки производительности, тоже откапываются и реализуются. Тем не менее общее представление о происходящем в этой сфере из имеющегося отчета вполне можно получить, и на соответствующую практику при создании собственных движков сориентироваться -- тем паче, что подобные технологии нередко достаточно быстро переползают в корпоративный сектор, а то и вдохновляют FOSS-разработчиков на построение не менее функциональных свободных версий.

Всего сообщается о пяти проектах под эгидой ODNI. Для сравнения, что происходило в США в этой сфере четыре года назад.

[spoiler]Программа DataSphere Национального антитеррористического центра США предназначена для выявления новых связей между террористами, идентификации ранее неизвестных террористов и нахождения террористической информации путем анализа трафика сетей связи (электронных и виртуальных всех видов) и транспортных БД.

Программа Catalyst, организованная CIO ODNI, занимается слиянием и анализом разнородных данных, позволит ведомствам оперативно делиться содержимым ныне разрозненных репозиториев, устранит неоднозначности в подобных БД, даст возможность аналитикам поизучать структуру всевозможных взаимосвязей с учетом геопространственных и временных параметров. Запуск ее намечен на 2013-й. Реализуются технологии систематического слияния внушительных массивы данных, сопоставления с образцом, синхронизации БД по открытым стандартам, корреляции данных из "несоизмеримых" ранее источников (например, видео и геопространственные), разделения уровней доступа и т. п.

Проект Knowledge Discovery and Dissemination разведагентства информационных исследований IARPA стартовал как научный в середине 2000-х гг. Он отвечает за анализ объемных, сложных и меняющихся данных в объемах, которым пока не было аналогов. Разработчики, в частности, пытаются автоматизировать задачу понимания, есть ли новое содержание в очередной порции данных, и как это новое быстро и корректно интегрировать с существующими данными. Более того, они активно изучают методы конструирования средств автоматического анализа, эффективно работающих на массивах самых разных структур, и когда станет понятно, как же это делать, соответствующий мета-процесс также можно будет автоматизировать и получить абстрактный компилятор высокоуровневых запросов в код, оптимизированный под конкретную аналитическую задачу.

Другой исследовательский проект IARPA -- Automated Low-level Analysis and Description of Diverse Intelligence Video (ALADDIN Video), который получает полноценный статус в 2011-м, нацелен на поиск заданных по смыслу моментов в объемных видеопотоках. Создаются алгоритмы скоростной видеообработки и технология поиска по аналогии -- заданием видеоклипов-примеров.

Третий проект IARPA -- Automatic Privacy Protection, подразумевает разработку протоколов защищенных запросов к серверу (провайдеру данных), применяемых таким образом, чтобы сам сервер не мог "понять" ни смысл запроса, ни содержание формируемого им результата. С клиентской стороны могут отправляться только авторизованные запросы, и только по доступной пользователю теме. Разрабатываются также, видимо, достаточно оригинальные системы публикации по подписке, доставки э-почты и организации хранилищ данных у вешнего провайдера-аутсорсера, основной акцент в которых сделан на закрытости и безопасности. Дополнительно обеспечивается шифрование запросов и гомоморфное шифрование для выполнения запросов над закодированными данными.

Не отстает от коллег ФБР: последние детали технических способов виртуального шпионажа бюро за американскими гражданами.

Едва ли не вечная проблема подобных систем поиска правонарушителей -- сложность настройки уровня ложных срабатываний. Что хуже -- ошибочно принять невиновного за террориста, или, наоборот, пропустить преступника? Поиск ведется по нечетким профилям, пропускать злоумышленников в любом случае нежелательно, и при сканировании миллиардов ежедневных текстовых, аудио- и видео-событий и иной сырой информации в результате ежедневно выдаются тысячи ошибочных предупреждений, каждое из которых приходится проверять вручную.

Впрочем, волнуют ли подобные накладные расходы сильных мира сего? Как выяснилось, система ThinThread Агентства национальной безопасности, официально позиционировавшаяся как средство слежения за интернет-трафиком и социальными сетями вне США, на самом деле уже давно следит за самими американцами.

Технологии эти будут, без сомнения, совершенствоваться самым активным образом. Bill Binney, ведущий специалист исследовательского центра автоматизации сигнальной разведки АНБ, рассказывает в приведенной выше статье, что несколько десятков собранных в АНБ лучших математиков мира бьются над проблемой обработки объемной информации. Каждую минуту на Земле прокручивается 20 терабайтов данных, и подобные ведомства по всему миру вовсю трудятся над созданием глобальных систем реалтаймовой картографии и аналитики Интернета и сетей связи. Раз данные конечны, говорит Binney, значит, решить эту задачу нам вполне по силам.