Технология UNISAT
Технология UNISAT - это технология построения унифицированных систем ведения сверхбольших распределенных архивов разнородных спутниковых данных. Ключевыми преимуществами этой технологии является поддержка механизма "виртуальных информационных продуктов", т.е. продуктов, которые динамически формируются по запросу пользователя на основе обработки имеющихся в архивах спутниковых данных, а также поддержка инструментов для удаленного анализа и обработки данных.
Данная технология (UNISAT) подробно описана в работе Прошин А.А., Лупян Е.А., Балашов И.В., Кашницкий А.В., Бурцев М.А. Создание унифицированной системы ведения архивов спутниковых данных, предназначеннодля построения современных систем дистанционного мониторинга // Современные проблемы дистанционного зондирования Земли из космоса. 2016. Т.13. № 3. С. 9-27.
В последние десятилетия наблюдается активное развитие спутниковых систем дистанционного зондирования Земли (ДЗЗ). Существенно возросло число космических систем ДЗЗ, постоянно увеличивается как их производительность, так и качество получаемых с них данных. Стремительное увеличение объемов получаемой информации ДЗЗ и расширение круга ее использования (Budget, 2012; Ramapriyan, 2011), потребовало создания новых подходов и методов к организации работы с данными дистанционного мониторинга. Работы в данном направлении в интересах решения широкого круга научных и реальных прикладных задач активно ведутся в Институте космических исследований Российской академии наук (ИКИ РАН) на протяжении последнего десятилетия (Лупян, Саворский, Шокин и др., 2012; Лупян, Балашов и др., 2015). Система ведения архивов спутниковых данных - один из наиболее существенных блоков, во многом определяющий эффективность работы с информацией ДЗЗ. Для того, чтобы соответствовать современным требованиям по организации доступа к данным ДЗЗ, в данном направлении должны быть разработаны и внедрены новые элементы, позволяющие эффективно вести работу со сверхбольшими, распределенными, постоянно пополняющимися архивами спутниковых данных. Для решения этих задач в ИКИ РАН была разработана унифицированная система ведения архивов спутниковых данных (UNISAT). В рамках решения этой задачи на основе анализа основных направлений развития современных систем доступа к данным ДЗЗ были сформированы новые требования, которым должны удовлетворять перспективные системы, обеспечивающие работу со спутниковыми данными. На базе этих требований была выработана общая архитектура построения систем ведения архивов спутниковых данных и были определены основные подходы к построению таких систем.
Актуальные направления развития современных систем доступа к спутниковым данным
Одним из основных требований к современным системам ведения архивов спутниковых данных является поддержка работы с широким спектром данных ДЗЗ, получаемых приборами с различными техническими характеристиками (частота наблюдения, пространственное разрешение, повторяемость наблюдений и т.д.). Хотя системы доступа к спутниковым данным, оптимизированные для работы с одним конкретным типом информации, по-прежнему остаются востребованными, в последние годы все активнее развиваются информационные системы, одновременно использующие в своей работе различные типы информации и позволяющие производить их совместный анализ. Такие системы занимают все большую нишу в сфере использования информации ДЗЗ. Быстрое развитие и внедрение подобных систем приводит к необходимости построения унифицированных схем ведения архивов спутниковых данных, которые позволяли бы максимально однотипно работать с достаточно разнородной информацией.
Стремительный рост объемов данных ДЗЗ приводит к необходимости эффективного решения задач по организации сверхбольших архивов данных. Отметим, что развитие информационных технологий и сетевой инфраструктуры в последние десятилетия позволило организовать доступ к распределенным архивам спутниковых данных на новом уровне. В результате, для пользователя уже не имеет большого значения, где именно физически располагаются те или иные спутниковые данные. В качестве примеров информационных систем доступа к сверхбольшим архивам спутниковых данных можно привести web-порталы Google Earth Engine (Gorelick, 2013), EOSDIS (NASA) (Ramapriyan et al., 2010) и ESA (https://scihub.copernicus.eu/), а также такие российские системы, как Объединенная система доступа к архивам данным центрам приема НИЦ "Планета" (Антонов и др., 2010; Бурцев и др., 2012; Лупян, Милехин и др., 2014), центр коллективного пользования "ИКИ-Мониторинг" (ЦКП ИКИ "Мониторинг") (Лупян, Бурцев и др., 2015) и Геопортал Роскосмоса (http://gptl.ru/) (Носенко, Лошкарев, 2010).
За последние годы радикально поменялись и требования по обеспечению доступа к информации. Если раньше потребители спутниковых данных в основном довольствовались получением исходных данных для использования их в своих системах обработки и анализа, то сейчас их все больше интересуют возможности работы с готовыми информационными продуктами различного уровня обработки (Лупян, Саворский, 2012), причем число таких информационных продуктов, необходимых для решения различных задач, постоянно растет. Следует отметить, что, так как спутниковые данные, как правило, имеют значительный объем, хранение всех возможных информационных продуктов, получаемых на основе одних и тех же исходных данных, становится нецелесообразным и, во многих случаях, технически невозможным. Традиционным способом предоставления доступа к таким продуктам является заказ на обработку выбранных исходных данных, как, например, в системе NASA GIOVANNI (Acker, Leptoukh, 2007). Однако с развитием информационных технологий и аппаратного обеспечения все более актуальным становится предоставление доступа пользователям к «виртуальным» продуктам, т.е. продуктам, которые динамически формируются на основе исходных данных в режиме реального времени. Это приводит к необходимости организации производства информационных продуктов только на момент их запроса. В результате, пользователям предоставляются фактически те же возможности по работе с информационными продуктами, как если бы они физически хранились в архивах.
Одним из наиболее актуальных направлений развития современных систем доступа к спутниковым данным, на наш взгляд, является создание различных инструментов для работы со спутниковыми данными и их анализа, которые ранее были доступны только в настольных приложениях. Если до недавнего времени пользователь сначала был вынужден скачивать требуемые спутниковые данные, а затем при помощи специализированного программного обеспечения занимался их обработкой и анализом, то теперь он может решать такие задачи непосредственно в рамках специализированного интерфейса доступа к спутниковым данным. Реализуемые посредством таких интерфейсов инструменты для анализа данных позволяют обрабатывать большие объемы имеющейся спутниковой информации, используя при этом мощности центров предоставления данных. Наиболее яркими представителями подобных систем, на наш взгляд, являются Google Earth Engine (Moore, Hansen, 2011; https://earthengine. google.org) и система «Вега-Science» (Толпин, Балашов, Лупян и др., 2011), реализованная в рамках ЦКП "ИКИ-Мониторинг" (Лупян, Бурцев и др., 2015). В системе Google Earth Engine доверенные пользователи могут запускать любые обработки над всем архивом данных, доступных в системе, на кластере компании Google и в режиме реального времени получать требуемые результаты прямо в используемом интерфейсе. В системе «Вега-Science» реализован несколько другой подход. Пользователю предоставляется фиксированный набор различных инструментов для обработки и анализа данных, который при необходимости может быть расширен, но при этом они могут быть использованы гораздо более широким кругом пользователей, так как не требуют такого высокого уровня компетенции в области программирования и разработки специальных процедур обработки спутниковых данных.
Наряду с развитием универсальных систем доступа к спутниковым данным особую актуальность приобретают специализированные системы, предназначенные для решения задач в той или иной научной или прикладной области. Это связано с тем, что для решения разных задач зачастую требуются отличающиеся наборы данных и инструменты для работы с ними. При этом, естественно, нет никакой необходимости разворачивать отдельные архивы и мощности по обработке и анализу данных для каждой из таких систем. Гораздо более продуктивным является использование данных из одних и тех же архивов в большом числе различных специализированных систем, использующих спутниковую информацию. Естественно, что для реализации такого подхода системы ведения архивов должны поддерживать необходимый для этого набор сервисов для работы с данными.
Основные требования к новой системе ведения архивов спутниковых данных
Одним из наиболее распространенных подходов к построению архивов спутниковых данных и результатов их обработки является построение специализированных систем ведения архивов, предназначенных для работы с различными типами информации, отличающимися как по структуре поступающих в архив данных, так и по задачам обеспечения к ним доступа. Это позволяет максимально оптимизировать структуру базы данных и используемое программное обеспечение под особенности конкретных данных, информационных продуктов, а в ряде случаев - и задач, стоящих перед конкретной информационной системой.
Развитие информационных систем доступа к спутниковым данным в направлении предоставления пользователям все более сложных инструментов для работы с данными привело к необходимости существенного расширения функционала специализированных систем хранения спутниковых данных. В первую очередь это касается реализации механизма доступа к «виртуальным» продуктам, т.е. продуктам, которые динамически формируются по запросу пользователя, а также поддержки инструментов для анализа и обработки данных в режиме «реального времени» с использованием распределенных вычислительных ресурсов. Эти возможности востребованы как информационными системами, так и отдельными пользователями применительно к работе с различными типами спутниковых данных и результатами их обработки. Поддержка такого сложного функционала для большого числа различных, нестандартизованных архивов данных становится достаточно трудоемкой задачей, также как и ведение большого числа распределенных специализированных архивов данных, каждый из которых обладает своей спецификой. Таким образом, все большую актуальность приобретает задача унификации подходов к архивации различных типов спутниковых данных и организации доступа к ним. Для решения данной задачи необходима разработка такой структуры БД, которая позволила бы эффективно работать с широким набором различных спутниковых данных и результатов их обработки. Кроме этого, требуется унификация механизмов ведения справочной информации о спутниках, приборах, источниках информации, исходных спутниковых данных и информационных продуктах, которые могут быть получены на их основе. Для решения этой задачи целесообразно использовать единую базу данных, содержащую всю необходимую справочную информацию, включая информацию о «виртуальных» продуктах и правилах их построения.
При планировании и реализации унифицированной системы ведения архивов, также необходимо было предусмотреть специальные процедуры для миграции в нее данных из действующих специализированных архивов данных. С учетом того, что действующие архивы данных могут иметь существенный объем, реализация процедур миграции должна ориентироваться на преобразование метаданных в новую структуру (в том числе и с учетом необходимости их расширения), и, по возможности, исключать дублирование файлов спутниковых данных, изменение мест и структуры их хранилищ. Должны быть также предусмотрены возможности одновременного ведения архивов в новых и старых структурах. Это, в первую очередь, необходимо на этапах отладки и опытной эксплуатации новой унифицированной системы. Для того, чтобы упростить переход на новую унифицированную систему хранения, целесообразно поддержать в ней архивацию всех ранее используемых входных форматов поступления спутниковых данных и продуктов их обработки.
На основе анализа вышеперечисленных задач, а также задач, решаемых в рамках различных специализированных информационных систем, использующих в своей работе данные ДЗЗ, к новой унифицированной системе хранения спутниковых данных были предъявлены следующие требования:
- Использование унифицированной структуры БД для хранения спутниковых данных, которая позволила бы обеспечить работу с широким набором различных спутниковых данных и результатов их обработки без существенного проигрыша в производительности;
- Использование единой справочной БД, содержащей всю необходимую информацию, в том числе, о центрах приема, спутниках, приборах, продуктах, включая «виртуальные» продукты и правила их построения;
- Предоставление доступа к спутниковым данным различных типов на основе унифицированного программного обеспечения, реализующего весь необходимый функционал, имеющийся в специализированных системах ведения архивов спутниковых данных;
- Поддержка единого для всех типов спутниковых данных механизма предоставления доступа к «виртуальным» продуктам, позволяющего гибко задавать правила получения новых информационных продуктов на основе имеющихся в архиве данных;
- Поддержка сервисов предоставления расширенных метаданных, необходимых для работы инструментов анализа данных и проведения обработки данных в режиме «реального времени»;
- Максимальная унификация программного обеспечения, предназначенного для архивации спутниковых данных и ведения распределенных архивов, при сохранении совместимости с существующими форматами поступления данных в архивы;
- Реализация программных средств, обеспечивающих миграцию данных из существующих архивов спутниковых данных в архивы, построенные по новой схеме.
Реализация унифицированной системы ведения архивов спутниковых данных
Реализация новой унифицированной системы ведения архивов спутниковых данных (UNISAT) базируется на использовании технологий и программного обеспечения, которые были разработаны в ИКИ РАН в последние десятилетия (Балашов и др., 2008; Ефремов и др., 2004; Лупян, Балашов и др., 2015).
Общая архитектура системы UNISAT
Общая архитектура узла распределенной системы ведения архивов UNISAT приведена на рис.1. Данные могут поступать в архивы, как от подсистемы обработки спутниковых данных, так и от внешних поставщиков спутниковых данных. В левой части схемы изображены программные компоненты, отвечающие за архивацию спутниковых данных и обмен данными с другими информационными центрами. В средней части схемы приведена справочная БД unisat_catalog, БД unisat, содержащая метаданные имеющихся в архиве данных и связанное с ней файловое хранилище, в котором непосредственно находятся файлы спутниковых данных. В правой части схемы изображены основные сервисы, предназначенные для обеспечения доступа к данным в архиве. Картографический WEB интерфейс является основным инструментом для предоставления доступа пользователям, как к самим спутниковым данным, так и к сервисам, предназначенным для работы с ними. На схеме пунктирными стрелками показаны запросы на получение данных или метаданных, сплошными стрелками – метаданные, а полыми стрелками – данные. Внешние компоненты, непосредственно не входящие в состав системы ведения архивов, показаны пунктирными фигурами.
Рис. 1. Общая архитектура системы ведения архивов UNISAT
Унифицированная структура БД UNISAT для хранения спутниковых данных
Разные типы спутниковых данных могут не только обладать разными атрибутами, но и быть представлены в виде разной логической структуры. При создании структуры унифицированной БД UNISAT мы, в первую очередь, ориентировались на поддержку архивов данных, накопленных в ЦКП "ИКИ-Мониторинг" (Лупян, Бурцев и др., 2015) и Объединенной системе архивов данных центров НИЦ "Планета" (Бурцев и др., 2012; Лупян, Милехин и др., 2014). В настоящее время эти системы архивации данных обеспечивают работу в прямом доступе более чем с петабатом информации, полученной от более, чем 20 различных систем наблюдения. В тоже время мы учитывали и возможность расширения состава данных в создаваемой БД UNISAT.
Как правило, большая часть спутниковых данных в архивах представляет собой информационные продукты по отдельным фрагментам (сценам), обладающие полным набором атрибутов. В то же время хранение остальных данных организовано по "сеансам", состоящим из множества фрагментов, имеющих общие атрибуты. Несколько иначе устроены так называемые "композитные" продукты, которые реализованы в виде фрагментов, имеющих фиксированное пространственное разбиение. Для повышения скорости визуализации спутниковой информации в больших масштабах наряду с пирамидой разрешений, реализуемой на базе форматов хранения изображений, используются прореженные версии информационных продуктов. При этом для разных типов данных методика их использования может быть также различной. По вышеизложенным причинам, структуры баз данных в специализированных системах ведения архивов существенно отличались для достижения максимального быстродействия. Ключевое требование на унификацию структуры баз данных привело к необходимости выработки компромиссного решения, которое было бы достаточно эффективным для всех имеющихся у нас типов спутниковых данных. На основе серии экспериментов с различными типами данных была выработана унифицированная структура БД, почти не уступающая по производительности специализированным базам данных, оптимизированным для работы с конкретными типами информации.
Для описания унифицированной структуры БД введем несколько обозначений. Сеанс – это набор данных, однозначно идентифицируемый полями: дата и время (dt), спутник (satellite), станция (station), прибор (device). Фрагмент – это пространственная часть сеанса. При этом сеанс может состоять как из одного фрагмента, так и из множества фрагментов. БД UNISAT включает в себя две основные таблицы для хранения метаданных: таблица fragments предназначена для описания фрагментов, а таблица fragment_products – для описания информационных продуктов, относящихся к соответствующим фрагментам.
Структура таблицы fragments приведена в таблице 1. Первичным ключом таблицы является поле fragment_id, выделенное полужирным шрифтом, а уникальный ключ состоит из выделенных курсивом полей: dt, satellite, station, device, fragment_type, fragment_number, где fragment_type – это тип фрагмента, а fragment_number – это номер фрагмента в сеансе. В случае, когда сеанс состоит из одного фрагмента, в таблицу прописывается одна запись с указанием типа фрагмента “single_fragment”. Если же сеанс состоит из множества фрагментов, то каждому из них будет соответствовать отдельная запись с типом фрагмента “fragment” и отличающимся номером фрагмента. Для обеспечения эффективного доступа к таким данным в таблицу также заносятся фрагменты типа “products_contour”, описывающие интегральные контура продуктов или групп продуктов по сеансу. Это позволяет при запросе данных из архива ограничиться только типом фрагментов “single_fragment” и “products_contour”.
Структура таблицы fragmеnt_products приведена в таблице 2. Первичным ключом таблицы является поле ID, а уникальный ключ состоит из полей: fragment_id, product_type_id, scale_level. Поле product_type_id обозначает идентификатор типа продукта, а поле scale_level используется для идентификации прореженных версий информационных продуктов. Использование прореженных версий данных является общепринятым решением, позволяющим радикально увеличить скорость получения требуемых изображений в масштабах, существенно больших, чем разрешение самих спутниковых данных. Наряду с этим подходом, для ускорения доступа к данным также используется хранение изображений с построенной пирамидой разрешений. Отметим, что одни и те же данные по сеансу в разных масштабах могут иметь разное разбиение на фрагменты, что особенно актуально для информационных продуктов, в которых базовый масштаб реализован в виде очень большого количества фрагментов. Так, например, исходные данные композитного продукта могут быть представлены в виде тысяч отдельных фрагментов, а для доступа к обзорному изображению в большом масштабе могут использоваться всего несколько прореженных фрагментов, что кардинально увеличивает скорость его отображения.
Таблица реализована на основе технологии FDB (File Data Base), разработанной в ИКИ РАН (Ефремов и др., 2004) и предназначенной для построения архивов данных, в которых метаданные содержатся в БД, а сами файлы данных помещаются в специальное файловое хранилище.
Таблица 1. Структура таблицы fragments
Название поля |
Назначение поля |
fragment_id |
Идентификатор фрагмента |
dt |
Дата и время фрагмента |
satellite |
Дата и время фрагмента |
device |
Прибор |
station |
Станция приема |
fragment_type |
Тип фрагмента:
single_fragment
fragment
products_contour |
fragment_number |
Номер фрагмента |
owner |
Центр-владелец продукта |
revolution |
Виток |
min_lon100 |
минимальная долгота * 100 |
max_lon100 |
максимальная долгота * 100 |
min_lat100 |
минимальная широта * 100 |
max_lat100 |
максимальная широта * 100 |
contour |
контур фрагмента |
source_info |
Информация об исходных данных |
cloudiness |
Процент облачности |
corrected |
Признак коррекции |
daynight |
Время суток |
extra_parameters |
Параметры в формате JSON |
mtime |
Время модификации записи |
Таблица 2. Структура таблицы fragment_products
Название поля |
Назначение поля |
ID |
FDB. Идентификатор продукта
по фрагменту |
fragment_id |
Идентификатор фрагмента |
product_type_id |
Идентификатор типа продукта |
scale_level |
Уровень разрешения (0 - базовый) |
product_NAME |
FDB. Имя файла с изображением |
product_SIZE |
FDB. Размер файла |
product_VOLUME |
FDB. Том хранения |
product_STORAGEFILE |
FDB. Файл в хранилище |
product_MD5 |
FDB. Контрольная сумма файла |
hist_NAME |
FDB. Имя файла с «гистограммой» |
hist_SIZE |
FDB. Размер файла |
hist_VOLUME |
FDB. Том хранения |
hist_STORAGEFILE |
FDB. Файл в хранилище |
hist_MD5 |
FDB. Контрольная сумма файла |
mtime |
Время модификации записи |
Разработанная структура позволила достаточно эффективно реализовать запросы на получение метаданных как по отдельным сценам, так и по сеансам, представленным в виде очень большого числа отдельных фрагментов. К преимуществам описываемой структуры также относится гибкая поддержка разных вариантов прореженных версий информационных продуктов, позволяющая максимально оптимизировать скорость выдачи спутниковых изображений.
Структура единой справочной БД unisat_catalog
База данных unisat_catalog предназначена для ведения всей необходимой справочной информации о станциях приема, спутниках, характеристиках спутниковых приборов и др., а также содержит информацию о типах продуктов, хранящихся в архивах и правилах получения на их основе «виртуальных» информационных продуктов. Ниже в таблице 3 приводится состав и назначение основных таблиц БД unisat_catalog с указанием типа хранимой в них справочной информации.
Таблица 3. Состав и назначение таблиц БД unisat_catalog
Тип справочной информации |
Таблица |
Назначение таблицы |
Общая справочная информация |
satellite |
информация о спутниках |
satellite_device |
информация о приборах, установленных на спутниках |
device |
информация о спутниковых приборах |
band |
информация о каналах спутниковых приборов |
station |
информация о станциях приема спутниковых данных |
center |
информация об информационных центрах |
Описание типов продуктов, хранящихся в архивах |
product |
описание типов информационных продуктов |
product_cases |
информация о типах продуктов, построенных на основе данных разных спутниковых приборов |
product_level |
информация о «прореженных» масштабах продуктов |
channel |
информация о каналах информационных продуктов |
Правила получения «виртуальных» продуктов на основе обработки продуктов, имеющихся в архиве |
vproduct |
описание типов виртуальных продуктов |
vproduct_cases |
варианты реализации виртуальных продуктов в зависимости от типов спутниковых приборов, имеющихся в архиве данных |
vchannel |
правила получения каналов виртуальных продуктов |
Ключевым отличием предложенной структуры «справочной» базы данных является интеграция общей информации о спутниках, приборах и соответствующих им типах данных с информацией, необходимой для получения «виртуальных» информационных продуктов.
Поддержка доступа к «виртуальным» информационным продуктам
В рамках новой унифицированной системы ведения архивов вся информация, необходимая для использования виртуальных продуктов, содержится в единой справочной БД unisat_catalog, которая используется всеми архивами, построенными по новой технологии. На основе сопоставления этой информации и данных о конкретных экземплярах продуктов, имеющихся в архиве, определяются формализованные правила для получения требуемого «виртуального» продукта. Использование таких правил позволило реализовать универсальную программную компоненту, отвечающую за визуализацию как реальных, так и «виртуальных» продуктов. Задача динамического формирования производных информационных продуктов рассматривалась нами в статье (Балашов и др., 2008).
Сервисы для получения расширенных метаданных
Для того чтобы реализовать инструменты анализа и обработки спутниковых данных непосредственно в рамках картографического интерфейса недостаточно знать только стандартные для систем доступа к спутниковым данным атрибуты выбранных пользователем информационных продуктов, таких, как дата, время, спутник, прибор и тип продукта. Требуется также детальная информация о правилах построения выбранного информационного продукта, а также технические характеристики всех каналов соответствующих ему исходных спутниковых данных. Для предоставления всей информации, необходимой для работы инструментов анализа и обработки спутниковых данных в новой унифицированной системе ведения архивов был реализован сервис выдачи расширенных метаданных. Вопросам создания инструментов для удаленной обработки спутниковых данных посвящена статья (Кашницкий и др., 2015).
Реализация распределенных архивов спутниковых данных
Как уже выше отмечалось, современные архивы спутниковых данных зачастую являются распределенными. Описанию одного из таких архивов, разработанных в ИКИ РАН, посвящена, в частности, работа (Антонов и др., 2010). На рис. 2 приведена принципиальная схема построения распределенных архивов, реализованная в новой унифицированной системе ведения архивов. На схеме указаны основные потоки данных и метаданных, реализуемые в рамках распределенного архива. Данные могут поступать в архивы информационных центров как из внешних центров данных, так и с локальных станций приема. Для каждого информационного центра может быть индивидуально определена политика экспорта данных или метаданных в остальные центры распределенного архива, но в самом простом варианте в каждом центре содержится вся информация об имеющихся в распределенном архиве данных. В каждом центре может быть реализован свой набор различных архивов спутниковых данных, но при этом обязательно содержится синхронизируемая с центрального сервера справочная БД unisat_catalog.
Основным преимуществом представленной реализации распределенного архива спутниковых данных является высокая степень гибкости в определении того, какие типы метаданных и данных должны передаваться между информационными центрами, входящими в состав распределенного архива, что практически недостижимо при использовании стандартных инструментов репликации баз данных.
Рис. 2. Принципиальная схема построения распределенных архивов спутниковых данных
Программные средства для импорта метаданных из ранее реализованных архивов спутниковых данных
В соответствии с требованиями, предъявляемыми к новой системе ведения архивов, для каждого из реализованных ранее архивов спутниковых данных был разработан специальный программный инструментарий, позволяющий не только импортировать метаданные, но и синхронизовать их состояние в постоянном режиме. Так как архивы спутниковых данных имеют очень большой объем, сами файлы спутниковых данных при этом не копируются. Ведение новых архивов в параллельном режиме позволило осуществить плавный переход на новую схему ведения архивов.
Технологическая и программная реализация унифицированной системы ведения архивов
Унифицированная система ведения архивов спутниковых данных построена на базе технологий и базового программного обеспечения, разработанного в ИКИ РАН. Хранение файлов в архивах построено на основе использования программного пакета FDB (Ефремов и др., 2004). Для диспетчеризации потоков данных и метаданных используется программный пакет DDS (Data Distribution System). Для контроля за функционированием программ, запускаемых в автоматическом режиме, используется система PMS (Process Monitoring System) (Балашов и др., 2011). Для решения задач документирования и контроля за функционированием распределенной системы ведения архивов используется Система документирования и контроля проектов (СДКП) (Мамаев и др., 2008). Конфигурирование распределенных программных компонент базируется на использовании гибкого механизма проектных настроек, позволяющего централизованно управлять настройками всех серверов, зависящими от того, задачи какого проекта выполняются на них в данный момент.
Доступ к данным и метаданным в архивах спутниковых данных реализован на основе технологии SMISWMS, за основу которой были взяты стандарты Open Geospatial Consortium. Эта технология является одной из ключевых компонент системы доступа к спутниковым данным GEOSMIS (Толпин, Балашов, Ефремов и др., 2011).
Программное обеспечение системы UNISAT функционирует под управлением операционной системы UNIX (FreeBSD). В качестве сервера СУБД в настоящее время используется MySQL или MariaDB, а в качестве WEB сервера – Apache. В качестве основного формата хранения спутниковых данных используется формат GeoTIFF с поддержкой пирамиды разрешений, однако система может работать с данными хранящимися и в других форматах. Большая часть программного обеспечения разработана на языках программирования Perl и Си.
Внедрение
В настоящее время созданная унифицированная система ведения архивов спутниковых данных внедрена и успешно используется в целом ряде специализированных информационных систем дистанционного мониторинга, предназначенных для решения различных научных и прикладных задач. Наиболее значимыми из них являются:
- Информационная система дистанционного мониторинга Федерального агентства лесного хозяйства ИСДМ Рослесхоз (http://www.pushkino.aviales.ru) (Барталев и др., 2010; Лупян, Барталев и др., 2015; Барталев и др., 2008);
- Различные информационные системы семейства ВЕГА (http://szv-vega.ru/systems.shtml) (Барталев и др., 2012; Лупян, Барталев и др., 2014; Толпин, Балашов, Лупян и др., 2011);
- Информационная система «Дистанционный мониторинг активности вулканов Камчатки и Курил» VolSatView (http://volcanoes.smislab.ru/) ( Ефремов и др., 2012);
- Объединенный каталог данных региональных центров ФГБУ «НИЦ «Планета» (Бурцев и др., 2012; Лупян, Милехин и др., 2014);
- Спутниковый сервис Sее Tне Sеа (STS, http://ocean.smislab.ru/) (Лупян, Матвеев и др., 2012; Mityagina et al., 2014).
На базе использования новой системы ведения архивов спутниковых данных в настоящее время функционирует также «Центр коллективного пользования» ИКИ РАН (Лупян, Бурцев и др., 2015), предназначенный для обеспечения доступа специалистов, ведущих различные научные и исследовательские проекты, к архивам спутниковых данных и информации, получаемой на их основе, а также к инструментам для их обработки и анализа.
Опыт внедрения и использования системы UNISAT показал, что выбранные подходы и решения для ее построения являются достаточно эффективными, а созданная система может использоваться для ведения различных архивов спутниковых данных и результатов их обработки для широкого круга различных систем и сервисов дистанционного мониторинга. При этом созданная система обладает целым рядом преимуществ перед традиционными системами организации хранения спутниковой информации. Наглядно эти преимущества можно увидеть на основе приведенного в таблице 4 сравнения реализации базовых функций в новой системе ведения архивов спутниковых данных с реализацией их в традиционных системах ведения архивов спутниковых данных.
Таблица 4. Сравнение реализаций базовых функций по работе с архивами спутниковых данных ДЗЗ в новой системе с традиционными системами ведения архивов спутниковых данных.
Новая система ведения архивов |
Традиционные системы ведения архивов |
Хранение данных |
В основном исходные данные (подготовленные продукты не исключаются, но не являются основой архива) |
В основном заранее заготовленные и обработанные конкретным образом продукты |
Экономия средств хранения из-за отсутствия необходимости хранить продукты, перевод их на виртуальную схему |
При широком диапазоне использования существенное возрастание объемов хранения из-за множества продуктов |
Создание новых продуктов |
Создание нового продукта заключается лишь в описании правил его получения |
Существенные затраты на подготовку и предварительную обработку |
Гибкая схема – продукт можно добавить или поменять в любой момент |
Негибкая схема – для изменений необходима переобработка |
Предоставление данных |
Возможность динамического формирования практически неограниченного числа различных информационных продуктов (может требовать значительных вычислительных ресурсов) |
Представление ограниченного числа статических информационных продуктов |
Особенности использования |
Весь анализ и обработку можно проводить удаленно только через браузер |
В основном только для поиска в web и последующей закачки для работы в настольных ГИС |
Анализ и работа непосредственно в web-интерфейсе |
Формирование локальных архивов. Наличие специального ПО |
Возможность решения глобальных задач по большим территориям с использованием больших объемов информации |
Большинство пользователей может решать задачи только с ограниченным набором данных |
Быстрое и не требующее работы от пользователя внедрение новых данных, продуктов, способов анализа |
Уникальная схема работы с каждым новым типом информации |
Список литературы
- Антонов А.В., Бурцев М.А., Ефремов В.Ю., Калашников А.В., Крамарева Л.С., Крашенинникова Ю.С., Лупян Е.А., Матвеев А.М., Прошин А.А., Флитман Е.В. Построение объединенного каталога распределенных архивов спутниковых данных различных центров // Современные проблемы дистанционного зондирования Земли из космоса, 2010. Т.7. № 2. С.84-89.
- Балашов И.В., Бурцев М.А., Ефремов В.Ю., Лупян Е.А., Прошин А.А., Толпин В.А. Построение архивов результатов обработки спутниковых данных для систем динамического формирования производных информационных продуктов // Современные проблемы дистанционного зондирования Земли из космоса, 2008. Выпуск 5. Т. 1. С.26-31.
- Балашов И.В., Ефремов В.Ю., Мазуров -мл. А.А., Мамаев А.С., Матвеев А.М., Прошин А.А. Особенности организации контроля и управления распределенных систем дистанционного мониторинга // Современные проблемы дистанционного зондирования Земли из космоса. 2011. Т.8. № 3. С.161-166.
- Барталев С.А., Ершов Д.В., Коровин Г.Н., Котельников Р.В., Лупян Е.А., Щетинский В.Е. Основные возможности и структура информационной системы дистанционного мониторинга лесных пожаров Федерального агентства лесного хозяйства (ИСДМ Рослесхоз) // Современные проблемы дистанционного зондирования Земли из космоса, 2010. Т.7. № 2. С.97-105.
- Барталев С.А., Ершов Д.В., Коровин Г.Н., Котельников Р.В., Лупян Е.А., Щетинский В.Е Информационная система дистанционного мониторинга лесных пожаров Федерального агентства лесного хозяйства (Состояние и перспективы развития). // Современные проблемы дистанционного зондирования Земли из космоса. 2008. Т. 5. № 2. С. 419-429.
- Барталев С.А., Ершов Д.В., Лупян Е.А., Толпин В.А. Возможности использования спутникового сервиса ВЕГА для решения различных задач мониторинга наземных экосистем // Современные проблемы дистанционного зондирования Земли из космоса, 2012. Т. 9. № 1. С.49-56.
- Бурцев М.А., Антонов В.Н., Ефремов В.Ю., Кашницкий А.В., Крамарева Л.С., Лупян Е.А., Мазуров А.А., Матвеев А.М., Милехин О.Е., Прошин А.А., Соловьев В.И. Система работы с распределенными архивами результатов обработки спутниковых данных центров приема НИЦ "Планета" // Современные проблемы дистанционного зондирования Земли из космоса, 2012. Т.9. № 5. С.55-76.
- Ефремов В.Ю., Гирина О.А., Крамарева Л.С., Лупян Е.А., Маневич А.Г., Мельников Д.В., Матвеев А.М., Прошин А.А., Сорокин А.А., Флитман Е.В. Создание информационного сервиса "дистанционного мониторинга активности вулканов Камчатки и Курил" Современные проблемы дистанционного зондирования Земли из космоса. 2012. Т. 9. № 5. С. 155-170.
- Ефремов В.Ю., Лупян Е.А., Мазуров А.А., Прошин А.А., Флитман Е.В. Технология построения автоматизированных систем хранения спутниковых данных // Современные проблемы дистанционного зондирования Земли из космоса, 2004. Выпуск 1. Т.1. С.437-443.
- Кашницкий А.В., Балашов И.В., Лупян Е.А., Толпин В.А., Уваров И.А. Создание инструментов для удаленной обработки спутниковых данных в современных информационных системах // Современные проблемы дистанционного зондирования Земли из космоса, 2015. Т.12. № 1. С.156-170
- Лупян Е.А., Балашов И.В., Бурцев М.А., Ефремов, Крашенинникова Ю.С., Мазуров А.А., Матвеев А.М. Назиров Р.Р., Прошин А.А., Толпин В.А., Уваров И.А., Флитман Е.В. Создание технологий построения информационных систем дистанционного мониторинга // Современные проблемы дистанционного зондирования Земли из космоса, 2015. Т.12. № 5. С. 53-75.
- Лупян Е.А., Барталев С.А., Ершов Д.В., Котельников Р.В., Балашов И.В., Бурцев М.А., Егоров В.А., Ефремов В.Ю., Жарко В.О., Ковганко К.А., Колбудаев П.А., Крашенинникова Ю.С., Прошин А.А., Мазуров А.А., Уваров И.А., Стыценко Ф.В., Сычугов И.Г., Флитман Е.В., Хвостиков С.А., Шуляк П.П. Организация работы со спутниковыми данными в информационной системе дистанционного мониторинга лесных пожаров Федерального агентства лесного хозяйства (ИСДМ-Рослесхоз) // Современные проблемы дистанционного зондирования Земли из космоса. 2015. Т.12. № 5. С.222-250.
- Лупян Е.А., Барталев С.А., Толпин В.А., Жарко В.О., Крашенинникова Ю.С., Оксюкевич А.Ю. Использование спутникового сервиса ВЕГА в региональных системах дистанционного мониторинга // Современные проблемы дистанционного зондирования Земли из космоса, 2014. Т. 11. №. 3. С.215-232.
- Лупян Е.А., Бурцев М.А., Балашов И.В., Барталев С.А., Ефремов В.Ю., Кашницкий А.В., Мазуров А.А., Матвеев А.М., Суднева О.А., Сычугов И.Г., Толпин В.А., Уваров И.А. Центр коллективного пользования системами архивации, обработки и анализа спутниковых данных ИКИ РАН для решения задач изучения и мониторинга окружающей среды // Современные проблемы дистанционного зондирования Земли из космоса. 2015. Т.12. № 5. С.263-284.
- Лупян Е.А., Матвеев А.М., Уваров И.А., Бочарова Т.Ю., Лаврова О.Ю., Митягина М.И. Спутниковый сервис See the Sea - инструмент для изучения процессов и явлений на поверхности океана // Современные проблемы дистанционного зондирования Земли из космоса, 2012. Т. 9. № 2. С.251-262.
- Лупян Е.А., Милехин О.Е., Антонов В.Н., Крамарева Л.С., Бурцев М.А., Балашов И.В., Толпин В.А., Соловьев В.И. Система работы с объединенными информационными ресурсами, получаемыми на основе спутниковых данных в центрах НИЦ “ПЛАНЕТА” // Метеорология и гидрология, 2014. № 12. С.89-97.
- Лупян Е.А., Саворский В.П. Базовые продукты обработки данных дистанционного зондирования Земли // Современные проблемы дистанционного зондирования Земли из космоса. 2012. Т. 9. № 2. С.87-97.
- Лупян Е.А., Саворский В.П., Шокин Ю.И., Алексанин А.И., Назиров Р.Р., Недолужко И.В., Панова О.Ю. Современные подходы и технологии организации работы с данными дистанционного зондирования Земли для решения научных задач // Современные проблемы дистанционного зондирования Земли из космоса, 2012. Т. 9. № 5. С.21-44.
- Мамаев А.С., Прошин А.А., Флитман Е.В. Создание системы документирования и контроля распределенных информационных систем // Современные проблемы дистанционного зондирования Земли из космоса, 2008. Выпуск 5. Т. 2. С.557-560.
- Носенко Ю.И., Лошкарев П.А. Единая территориально-распределенная информационная система ДЗЗ – проблемы, решения, перспективы (часть 1) // Геоматика. 2010. № 3. С.35-43.
- Толпин В.А., Балашов И.В., Ефремов В.Ю., Лупян Е.А., Прошин А.А., Уваров И.А., Флитман Е.В. Создание интерфейсов для работы с данными современных систем дистанционного мониторинга (система GEOSMIS) // Современные проблемы дистанционного зондирования Земли из космоса, 2011. Т.8. № 3. С.93-108.
- Толпин В.А., Балашов И.В., Лупян Е.А., Савин И.Ю. Спутниковый сервис "Вега" // Земля из космоса, 2011. Выпуск 9. Весна. С.32-37.
- Acker J. G., Leptoukh G. Online analysis enhances use of NASA earth science data // Eos, Transactions American Geophysical Union. 2007. Vol. 88. No. 2. P. 14-17.
- Budget Activity: National Environmental Satellite, Data, and Information Service. 2012. http://www.corporateservices.noaa.gov/nbo/fy13_presidents_budget/7_NESDIS.pdf
- Gorelick N. Google Earth Engine //EGU General Assembly Conference Abstracts. 2013. Vol. 15. P. 11997.
- Mityagina M.I., Lavrova O. Yu., Uvarov I.A. "See the Sea": Multi-user information system for investigating processes and phenomena in coastal zones via satellite remotely sensed data, particularly hyperspectral data // Remote Sensing of the Osean, Sea Ice, Coastal Waters, and Large WaterRegions Location, Book Series: Proceedings of SPIE, Netherlands, Amsterdam, Article number: 92401C, 2014. Vol.9240.
- Moore R. T., Hansen M. C. Google Earth Engine: a new cloud-computing platform for global-scale earth observation data and analysis // AGU Fall Meeting Abstracts, 2011. Vol. 1. P.2.
- Ramapriyan H. K., Behnke J., Sofinowski E., Lowe D., Esfandiari M. A. Evolution of the earth observing system (EOS) data and information system (EOSDIS) // Standard-Based Data and Information Systems for Earth Observation / Eds Di Liping, H.K. Ramapriyan. 2010. P. 63–92.
- Ramapriyan H. K. Development, Operation and Evolution of EOSDIS – NASA’s major capability for managing Earth science data // Presented at CENDI/NFAIS Workshop on Repositories in Science & Technology: Preserving Access to the Record of Science November 30. 2011.