Разработка принципов построения и реализация прототипа системы обеспечения оперативного контроля и эффективной автономной работы суперкомпьютерных комплексов

  • Александр Сергеевич Антонов
  • Вадим Владимирович Воеводин
  • Владимир Валентинович Воеводин
  • Сергей Анатольевич Жуматий
  • Дмитрий Александрович Никитенко
  • Сергей Игоревич Соболев
  • Константин Сергеевич Стефанов
  • Павел Артемович Швец

Аннотация

Современный суперкомпьютерный комплекс – это сложная, дорогостоящая и крайне энергонасыщенная система. Каждый из компонентов комплекса потенциально ненадежен и может выйти из строя практически в любой момент. Последствия могут быть различными, от завершения отдельных заданий до выхода из строя всего комплекса, поэтому необходим оперативный контроль, позволяющий гарантировать сохранность компонентов и эффективную автономную работу суперкомпьютера в целом. В НИВЦ МГУ разрабатывается программный комплекс для оперативного контроля и автоматического реагирования на аварийные ситуации в работе суперкомпьютерных систем. В основу комплекса положена модель суперкомпьютерной системы, представленная в виде мультиграфа. Такой подход позволяет обеспечить полноту определения аварийных ситуаций, а также вести учет накопленного опыта эксплуатации больших и сверхбольших вычислительных систем. Работа рекомендована Программным комитетом Международной суперкомпьютерной конференции «Научный сервис в сети Интернет: все грани параллелизма». 
 
Опубликована
2018-23-10
Как цитировать
АНТОНОВ, Александр Сергеевич et al. Разработка принципов построения и реализация прототипа системы обеспечения оперативного контроля и эффективной автономной работы суперкомпьютерных комплексов. Вестник УГАТУ, [S.l.], v. 18, n. 2 (63), p. 227-236, окт. 2018. ISSN 1992-6502. Доступно на: <http://journal.ugatu.ac.ru/index.php/Vestnik/article/view/1755>. Дата доступа: 21 ноя. 2018
Раздел
******************************