АНАЛИЗ НЕСТРУКТУРИРОВАННЫХ МАССИВОВ ДАННЫХ АНАНЬЕВА А.Г., АРТАМОНОВ А.А., КШНЯКОВ Д.О., ТРЕТЬЯКОВ Е.С. Кафедра №65 «Анализ конкурентных систем» НИЯУ «МИФИ» МУЛЬТИАГЕНТНАЯ ИНФОРМАЦИОННОАНАЛИТИЧЕСКАЯ СИСТЕМА • Система сбора данных и подготовки их для оценки научно-технического потенциала зарубежных стран • Позволяет осуществлять тематическую информационную поддержку различных организаций в полуавтоматическом режиме • Итоговые материалы в виде объектных дайджестов, семантических сетей, динамического досье МИАС - 20 февраля 2015 г. 2 ФУНКЦИИ МИАС • Агентный поиск информации в открытых источниках (настройка оператором) • Эффективные инструменты визуализации информации (семантические сети, геокарты и т.д.) • Мониторинг различных внешних информационных ресурсов (автоматический режим) • Автоматизированное выделение фактографических данных из информационных ресурсов • Анализ состояния и прогноз развития научной и промышленной базы по основным отраслям знаний (привлекаются эксперты) • Интеллектуальная обработка и анализ больших объёмов неструктурированной информации • Анализ документов с целью извлечения значимой прогнозно-аналитической информации МИАС - 20 февраля 2015 г. 3 ИСТОЧНИКИ ДАННЫХ И ОБРАБОТКА • Сайты организаций и лабораторий • Патентные БД и национальные патентные бюро • Базы знаний и публикаций, в т.ч. НИР и НИОКР (Web of Science) • Конкурсная документация по выбранным проектам и/или технологиям • Базы данных торговых марок и технологических решений • Информационные материалы по итогам конференций и выставок • Новости крупных коммерческих компаний, госкорпораций и ТНК • Периодические новостные издания • Все источники проходят проверку на достоверность и актуальность публикуемых данных • Данные проходят обработку в соответствии с поставленной в каждом конкретном случае задачей • Для получения специализированного научно-технического отчёта могут использоваться различные виды анализа включая статистику, SWOT- и PEST-анализ, выделение фактографии • Досье на объекты исследования (персона, организация, технология, проект, событие) МИАС - 20 февраля 2015 г. 4 Базы конкурсной документации Охват информационного поля Ключевые слова и кодификаторы 6 12 29 12 18 МИАС - 20 февраля 2015 г. Web of Science Неявные закономерности через связи между объектами Открытые патентные базы 23 Интуитивный поиск 5 Временные затраты Поиск источников мониторинга 2 18 20 Обработка Настройка роботов 60 Скачивание МИАС - 20 февраля 2015 г. 6 АЛГОРИТМИЗАЦИЯ РАБОТ • Все источники проходят проверку в рейтинговой системе Alexa • Используются кодификаторы и аббревиатуры международных систем классификации и кодификации • Словарь ключевых слов выбирается на основе уникального для исследуемого объекта информационного кластера • Используются нестандартные поисковые системы (DuckDuckGo, Startpage) • Используются proxy-серверы для поиска данных на сайтах с ограниченным доступом (Браузер Tor, анонимайзеры) • Используется синтаксис расширенного поиска (поиск по домену, поиск по .pdf, .doc) • Используются связи между организациями, проектами и персонами для поиска релевантных данных, которые не попадают в стандартные поисковые наборы МИАС - 20 февраля 2015 г. 7 ПРОВЕРКА ИСТОЧНИКОВ В ALEXA Сайт Рейтинг в стране http://www.dtic.mil/ http://www.darpa.mil/ http://www.northropgrumman.com/ http://www.dod.mil http://gcn.com/ http://www.spacenews.com http://www.spaceref.com http://www.compositesworld.com/ 51435 65147 97486 113349 128475 138342 204917 282188 19438 68148 32503 28621 68104 57451 81947 130584 http://www.homelandsecuritynewswire.com/ http://www.militaryaerospace.com/ http://www.spacewar.com/ http://www.ir.bbn.com 303146 308402 342293 373873 92537 158561 80906 187144 http://www.swri.org/ 469563 114825 2638066 3123343 5231587 17569220 0 363323 0 0 http://www.agriculturedefensecoalition.org/ http://www.irconnect.com/ http://www.govbudgets.com http://innoflight.com/ МИАС - 20 февраля 2015 г. Глобальный рейтинг Рубрика Пресса Организация Организация Организация Пресса Пресса Пресса Пресса Пресса Пресса Пресса Пресса Исследовательский институт Сообщество по с\х Организация Организация 8 ЭФФЕКТИВНОСТЬ РАБОТЫ • Собрана база конкурсов DARPA с детализацией • Часть найденных документов невозможно обнаружить при прямом поиске (источник нерелевантен поисковой задаче) • Найдены технологии и патенты по исследуемым тематикам • Выявлены основные компании, участвующие в проектах • Проведён анализ бюджетов и результатов по каждому из проектов 9 МИАС - 20 февраля 2015 г. ПРИМЕР ДАЙДЖЕСТА Рубрикация: Новости компаний и новости в мире науки МИАС - 20 февраля 2015 г. 10 СЕМАНТИЧЕСКИЕ СЕТИ И ИХ ВИЗУАЛИЗАЦИЯ МИАС - 20 февраля 2015 г. 11 МИАС - 20 февраля 2015 г. Пример семантической сети – VTOL X-Plane 12 МИАС - 20 февраля 2015 г. Пример семантической сети – T3 13 АЛГОРИТМ СОЗДАНИЯ ТЕМАТИЧЕСКОГО ДАЙДЖЕСТА МИАС - 20 февраля 2015 г. 14 Начало поиска ИМ Алгоритм поисковых мероприятий при создании тематического дайджеста Ввод ключевых слов и тематических областей Нет Формирование поискового запроса в WoS Да Полнота найденных данных Формирование отчёта Нет Поиск патентов google.ru/patents Да Оценка результатов Полнота найденных данных Да Кластер аннотаций Поиск полнотекстовых публикаций Кластер патентов Конец поиска ИМ Полнота найденных данных Да Нет Анализ документов на выявление кодификаторов Формирование поискового запроса по ключевым словам в сети Интернет Наличие кодификаторов Кластер ИМ по ключевым словам Нет Кластер полнотекстовых публикаций Кластер аннотаций Отчёт Нет Полнота найденных данных Да Формирование поискового запроса в сети Интернет по кодификаторам Кластер дополнительных материалов с использованием кодификаторов Алгоритм – работа с Web of Science Начало поиска ИМ Поиск полнотекстовых публикаций Ввод ключевых слов и тематических областей Кластер аннотаций Кластер полнотекстовых публикаций Кластер аннотаций’ Формирование поискового запроса в WoS Нет Оценка результатов Полнота найденных данных Да МИАС - 20 февраля 2015 г. 16 Таблица аннотаций’ по тематическому направлению: Active thermal protection МИАС - 20 февраля 2015 г. 17 Алгоритм – формирование отчёта Полнота найденных данных Нет Да Поиск патентов google.ru/patents Кластер патентов Формирование отчёта Полнота найденных данных Нет Да Формирование поискового запроса по ключевым словам в сети Интернет Нет Отчёт Кластер ИМ по ключевым словам Да Конец поиска ИМ Полнота найденных данных Нет Анализ документов на выявление кодификаторов Наличие кодификаторов Да Формирование поискового запроса в сети Интернет по кодификаторам МИАС - 20 февраля 2015 г. Кластер дополнительных материалов с использованием кодификаторов 18 DARPA SYSTEM F6 МИАС - 20 февраля 2015 г. 19 ПОСТАНОВКА ЗАДАЧИ • Найти среди открытых источников Интернет достоверную, актуальную, технически значимую информацию о проекте, включая данные: • • • • • • • Описание проекта Бюджет и сроки реализации Результаты Контракты и участники Публикации Патенты и технологии Аналоги • Произвести оценку источников информации по системе Alexa • Проверить релевантность информации по ключевым словам, организациям, персонам • Произвести систематизацию информации • Оценить охват информационного поля МИАС - 20 февраля 2015 г. 20 ОПИСАНИЕ ПРОЕКТА • Цель System F6 (Future, Fast, Flexible, Fractionated, Free-Flying) – демонстрация возможностей кластерной спутниковой архитектуры, в которой функциональность аналогичная традиционным КА достигается за счет объединения модулей, соединенных беспроводной связью и способных делиться своими ресурсами между собой • Первые контракты – февраль 2008 г.* • * Данные FedBizOpps МИАС - 20 февраля 2015 г. 21 ОСНОВНЫЕ СВЕДЕНИЯ • Менеджеры программы: с 2007 года Пол Еременко (Paul Eremenko), в 2008 году - Оуен Браун (Owen Brown), с 2011 года - Джон Лозински (John Losinski) • В основе программы System F6 лежит разработка стандартов открытого интерфейса • Программа должна была завершиться демонстрацией кластерной системы спутников на орбите в 2015 году • Задачи демонстрации: • Полуавтономное длительное обслуживание кластера и кластерной сети, добавление и удаление модулей КА в/из кластера и сети кластеров. • Безопасный обмен ресурсами внутри сети в режиме реального времени во время полезных нагрузок или нахождение пользователей в нескольких доменах безопасности • Перенастройка кластера при сохранении критически важных функций безопасности в условиях деградации сети или сбое в работе компонентов • Возможность осуществить разброс и сбор кластера на случай манёвра по уклонению от космического мусора МИАС - 20 февраля 2015 г. 22 БЮДЖЕТ SYSTEM F6, МЛН. ДОЛЛАРОВ • По официальным данным, общий бюджет проекта с 2006 года по 2014 год составил 292,229 млн долл., в 2014 году финансирование составило 3 млн долл., планы на 2015 не предусматривают финансирования 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 3 0 79 44.675 21.095 9.235 12.224 МИАС - 20 февраля 2015 г. 35 40 48 23 УЧАСТНИКИ ПРОГРАММЫ С 2008 ПО 2013 ГГ. 1. Orbital Sciences Corp 16. University of Southern California 2. Boeing 17. University of Virginia 3. Lockheed Martin Space Systems 18. Referentia Systems Inc. 4. Lockheed Martin Integrated and Global Systems 19. Southwest Research Institute 5. Aurora Flight Sciences 20. Space Micro Inc. 6. Colbaugh & Heinsheimer Consulting 21. The University of Pittsburgh 7. Vanderbilt University 22. mZeal Communications Inc. 8. Northrop Grumman Space and Mission Systems 23. Raytheon BBN Technologies Corp. 9. Alliant Tech Systems 24. Carnegie Mellon University 10. Juniper Networks 25. Stevens Institute of Technology 11. L3 Communications 26. Aeronix Inc. 12. BAE Systems 27. Palo Alto Research Center 13. Cornell University 28. QinetiQ North America 14. Jet Propulsion Laboratory 29. Emergent Space Technologies Inc 15. Massachusetts Institute of Technology 30. Innoflight, Inc. МИАС - 20 февраля 2015 г. 24 ДОСТИГНУТЫЕ РЕЗУЛЬТАТЫ ЗА ПОСЛЕДНИЕ ГОДЫ • 2013: • Завершён первоначальный вариант программного обеспечения для разработчиков (FDK/MDK) и продемонстрирована функциональность в представленных орбитальных условиях • Завершён начальный релиз FDK • Проведён предварительный Design Review (PDR) для F6TP • Проведён критический Design Review (CDR) для F6TP • Завершена FDK документация для беспроводной межмодульной связи и информационного обеспечения архитектурной платформы • 2014 (планы): • Завершить разработку инженерной части технологического пакета F6TP • Создать лётную единицу постоянного широкополосного наземного терминала подключения для фракционированных кластеров • Завершить полнофункциональную, хорошо документированную архитектуру и дизайн инструмента для адаптации космических систем МИАС - 20 февраля 2015 г. 25 ПРОЕКТ СЕЙЧАС • 17 мая 2013 года директор офиса ТТО DARPA Бред Тусли (Brad Tousley) объявил о том, что программа System F6 досрочно закрыта в связи с рядом факторов, среди которых указал, в частности, отсутствие организации, которая могла бы объединить технологические усилия по созданию спутниковой системы • Переориентация: DARPA Airborne Launch Assist Space Access (ALASA) – проект по созданию ракеты, способной менее чем за 1 млн долл. вывести спутник массой 100 фунтов на НОО • Переориентация: DARPA Phoenix, проект, целью которого является модификация разрушенных спутников для создания новых активов на орбите • Дополнительная космическая программа DARPA - SeeMe (Space Enabled Effects for Military Engagements), предназначенная для обеспечения в режиме реального времени тактической разведки, с использованием малых спутников на орбите МИАС - 20 февраля 2015 г. 26 АНАЛИЗ КОНТРАКТОВ DARPA SYSTEM F6 • 54 конкурса объявлено, 26 – реализовано в виде контрактов • В рамках одного конкурса могли проходить несколько тендеров, в т.ч. в DARPA-BAA-11-01 было объявлено 20 тендеров • Коды NAICS: • 541712 – Research and Development in the Physical, Engineering, and Life Sciences (except Biotechnology) – 20 конкурсов • 334419 – Other Electronic Component Manufacturing – 1 конкурс, BAE Systems • 517410 – Satellite Telecommunications – 1 конкурс, Vanderbilt University • Проводился поиск целевой информации по уникальному словарю проекта и конкурсным кодам МИАС - 20 февраля 2015 г. 27 ТЕХНОЛОГИИ И РАЗРАБОТКИ • Всего обнаружено: 19 • Innoflight Inc: архитектура 32-разрядного двухъядерного процессора на базе ARM CortexA9, который может работать в режимах AMP, SMP с поддержкой Linux, а также аппаратный криптографический ускоритель. Системы Space Ethernet Switch, Payload Interface Controller (PIC) и Flight article modular payload interface electronics (PIE) • Aurora Flight Sciences Corporation: Scalable Cluster Flight Algorithm • Referentia Systems Inc.: система LiveAction, обеспечивающая защиту от кибератак высокого уровня • Southwest Research Institute: радиосистема в К-диапазоне, включая постоянно действующий канал связи с помощью протоколов Time Division Multiple Access (TDMA), протокол беспроводной межмодульной системы связи F6WICS, включающий уровень управления передачей данных, интегрируемый с сетевыми протоколами более высокого уровня 28 МИАС - 20 февраля 2015 г. ТЕХНОЛОГИИ И РАЗРАБОТКИ • Space Micro Inc.: блок интерфейса попутной полезной нагрузки (HPIU), модификацию IPC-5000 (Image Processing Computer), Proton 400K SBC в комплекте с периферийным устройством, включая цифровую плату ввода/вывода и MIL-STD-1553 I/F борт • Vanderbilt University: вычислительная платформы DREMS. Платформа использует программное обеспечение стандарта ARINC 653 для планирования и пространственно-временной изоляции приложений • Stevens Institute of Technology: концепция Модульного пространства (Modular Space Initiative), которая будет основана на теории Независимой модульной структуры (Emergent Modularity) с использованием методологии транзакций затрат в экономике и теории сетей, а также на основе некоторых новых разработок в эволюционной биологии МИАС - 20 февраля 2015 г. 29 ПАТЕНТЫ • US 6633745 B1 от 14 октября 2003 г. – Satellite cluster comprising a plurality of modular satellites (Спутниковый кластер, включающий в себя множество модульных спутников) • US 20040192197 A1 от 30 сентября 2004 г. – Geostationary satellite system with satellite clusters having intra-cluster local area networks and inter-cluster wide area network (Геостационарная спутниковая система со спутниковыми кластерами, имеющими внутри кластера локальные сети и межкластерные каналы связи) • US 6847867 B1 от 25 января 2005 г. - Satellite communication with low probability of detection (Спутниковая связь с малой вероятностью обнаружения) • US 20040093132 A1 от 13 мая 2004 г. – Space-based integrated multi-mission broadband architecture (Интегрированная космическая многоцелевая широкополосная архитектура) • US 8401466 B2 от 19 марта 2013 г. – Scalable high speed MIMO-satellite communication system (Масштабируемая высокоскоростная система спутниковой связи MIMO) МИАС - 20 февраля 2015 г. 30 ПУБЛИКАЦИИ • Всего выявлено – 39 (1998 – 2014) • Организации: MIT Space Systems Laboratory, US Air Force Academy, Booz Allen Hamilton, Lockheed Martin Advanced Technology Laboratories, Aurora Flight Science, Boeing Company, Georgia Institute of Technology, The French Aerospace Lab, Value-Driven Design Institute, Raytheon BBN Technologies, Stevens Institute of Technology, Jet Propulsion Laboratory, European Space Agency • Наиболее часто публикующиеся авторы по тематике: Owen Brown, Paul Eremenko, Roshanak Nilchiani, Daniel E. Hastings, Tatiana Kichkaylo, Babak Heydari, Kia Dalili, Abhishek Dubey, William Otte, Gabor Karsai МИАС - 20 февраля 2015 г. 31 СПАСИБО ЗА ВНИМАНИЕ! Viam supervadet vadens – Дорогу осилит идущий Путь у каждого свой – Будда Верный алгоритм поискового пути приведёт к наименьшим затратам в дороге – команда МИАС МИАС - 20 февраля 2015 г. 32 КОНТАКТНЫЕ ДАННЫЕ • Кшняков Дмитрий Олегович • Моб.тел.: +7 (916) 604-24-49 • e-mail: [email protected] МИАС - 20 февраля 2015 г. 33