Loading
Пропустить Навигационные Ссылки.

Авторизоваться
Для зарегистрированных пользователей

Развитие системы контроля работоспособности распределенных систем дистанционного мониторинга.


Крупные информационные системы дистанционного мониторинга  обычно включают в себя десятки серверов и станций обработки спутниковых данных, расположенных в территориально разнесенных центрах приема и обработки спутниковых данных. При этом в каждом из центров оперативно обновляются данные более чем в десяти различных базах данных. Для надежного функционирования таких сложных распределенных программно-аппаратных комплексов должен быть реализован максимально автоматизированный контроль за различными показателями его работы и оперативное оповещение операторов о возникших неполадках и документирование возникших сбоев и реакций на них. 

Для решения задач контроля за функционированием распределенных информационных систем мониторинга ИКИ РАН совместно с партнерами был создан специализированный программный пакет PMS (Process Monitoring System). Пакет позволяет контролировать правильность и своевременность выполнения программ на серверах и станциях обработки. В дополнение к этому пакету была разработана система контроля за наличием поступления данных в системы хранения. Использование этой системы позволяет повысить надежность детектирования сбойных ситуаций и предоставляет дополнительную диагностическую информацию, необходимую для их устранения. Для работы с данными о состоянии различных элементов систем мониторинга был также разработан базовый WEB интерфейс. В этом интерфейсе отображается информация о работе каждой из компонент системы контроля. Для документирования сбойных ситуаций и отслеживания их устранения была разработана система ведения сбоев.

Программный пакет PMS (Process Monitoring System), в основном, предназначен для контроля за правильностью и своевременностью выполнения программ на серверах и станциях обработки. Для контроля за процессами, запускаемыми на UNIX серверах, и для запуска этих процессов используется специальная программа, которая сохраняет в БД протоколы их выполнения и возвратные коды. В пакете реализован также механизм контроля за указанными группами процессов. Доступ к информации о выполнении программ реализован при помощи специализированного WEB интерфейса, позволяющего, в частности, задать критерии детектирования ошибок для каждого процесса.

Для проверки своевременного поступления информационных продуктов в базы данных разработана система контроля за наличием данных. Доступ к информации о системе контроля за наличием данных осуществляется при помощи специализированного WEB интерфейса, позволяющего задать для каждого из типов продуктов допустимую «давность».  Контроль за наличием данных наряду с контролем за выполнением процессов, осуществляемым при помощи системы PMS, позволяет существенно повысить надежность детектирования сбоев в работе комплекса, а также предоставляет важную диагностическую информацию, необходимую для их устранения. На рисунке 1 приведен пример работы с WEB интерфейсом системы. В левом фрейме приведены базы данных выбранного информационного центра, а в правом -  информация о «давности» данных продуктов, относящихся к выбранной БД. Красным цветом помечены продукты, для которых не обнаружены «свежие данные». Получение информации о наличии заданных информационных продуктов в базах данных производится при помощи специальной программы, автоматически запускаемой по расписанию через небольшие интервалы времени.

 


Рис. 1. Пример работы интерфейса системы контроля за наличием данных.

В системе также организован блок ведения сбоев, предназначенный для документирования сбоев, детектированных как автоматически, так и в результате визуальных проверок, а также для отслеживания их устранения. В процессе документирования сбоя оператор указывает специалистов, ответственных предположительно за устранение данного сбоя; после этого им автоматически направляется соответствующее электронное письмо. После успешного устранения неполадок специалист помечает сбой как исправленный и заносит информацию о принятых им мерах.

Принципиальная схема   организации контроля за функционированием системы мониторинга приведена на рисунке 2. В верхней части на ней показаны основные источники поступления информации о неполадках в работе системы, в нижней части – система ведения информации о сбоях.

  


Рис. 2. Принципиальная схема организации контроля за работой ИСДМ Рослесхоз.

Разработанные методы контроля за функционированием различных систем мониторинга, как правило, позволяют своевременно выявлять сбойные ситуации в работе систем  и отслеживать процесс их устранения.