КаталогИндекс раздела

          

Самоизлечивающаяся компьютерная система

Linda Dailey Paulson

Computer System, Heal Thyself
Опубликовано в: Computer, August 2002, pp.20-22

Компьютерные системы становятся настолько большими, сложными и быстрыми и берут на себя так много важных задач, что когда что-то в них идет не так, обслуживающий персонал часто бывает перегружен и не может исправить ошибки достаточно быстро для того, чтобы обойти критически важные проблемы.

А возрастание потока данных, увеличение числа подключенных устройств, и непредсказуемость Internet добавляют еще больше проблем.

По этой причине исследователи активизируют работу по созданию систем, осуществляющих самомониторинг (self-monitoring) и самоизлечение (self-healing), которые обнаруживают проблемы и продолжают работать, исправляя или просто обходя ошибки, без вмешательства человека. Хотя самоизлечение делает систему более дорогой, этот подход не только уменьшает потенциально катастрофические задержки или ошибки в критических системах, но также и сберегает деньги за счет уменьшения потребности в обслуживании.

Исследователи изучали технологии самоизлечения уже примерно 20 лет. "Все эти технологии были предсказаны очень давно," - говорит менеджер исследовательской лаборатории HP Labs Marsha Duro. Теперь, объясняет она, производитель систем должны делать обоснованный выбор технологий, моделировать их, проверять их и убеждаться в их работе.

Вместе с тем, они должны также обходить помехи, которые возникают в технологиях. (См. Проблемы, возникающие в технологиях самоизлечения).

IBM

Фирма IBM является лидером в исследованиях по самоизлечению, и она разработала несколько подходов к этой технологии. Например, пользователь может разделить сервер компании (x440 server - на базе Intel, но достигающий класса мейнфрейма) на 4 аппаратные и 64 программные виртуальные машины. Этот подход поддерживается встроенными средствами, и они позволяют увеличить надежность путем автоматического переключения системного переключателя на при сбое одной виртуальной машины на другую.

eLiza и автономные вычисления

Лидирующие исследования IBM по самоизлечению воплотились в проекте eLiza и ряде проектов автономных вычислений. Рисунок 1 показывает две технологии самоизлечения IBM.

Проект eLiza является попыткой создать такие серверы, мейнфреймы и другие системы, обслуживаемые IBM Global Servics, которые реагируют на непредвиденные требования и системные проблемы без человеческого вмешательства. Фирма предлагает также карту адаптера для не-IBM-овских систем.

Автономные вычисления концентрируются на путях, следуя которым, компьютеры могут выполнять необходимые задачи автоматически, примерно так же, как человеческая автономная нервная система регулирует дыхание и другие функции.

eLiza и проекты автономных вычислений используют искусственный интеллект для изучения серверной вычислительной среды и того, как она изменяется, например, в нее включаются новые компьютеры. IBM Research разработала обучающийся алгоритм, который определяет, когда в системе возникают проблемы и как лучше перераспределить ресурсы, чтобы обойти трудности. Технология самоизлечения затем может послать в систему команды для реализации этого решения.

E-business Management Services в IBM Global Srevices предлагает компаниям прогнозировать, обнаруживать и решать технологические проблемы в реальном времени. Этот подход определяет заблаговременно, как должна работать система, содержащая множество устройств. Затем он обеспечивает мониторинг системы и, если устройство начинает терять производительность, переключает ресурсы на другую машину прежде чем произойдет авария.

IBM Global Srevices также продает Enterprise Workload Manager, базирующийся на eLiza - самооптимизирующееся программное обеспечение и службы, которые могут удаленно обнаруживать и устранять проблемы. Программное обеспечение генерирует сообщения об ошибках и периодически передает их в одно из 10 отделений IBM, где другое программное обеспечение пытается исправить ошибки прежде, чем они станут критическими.

Если этого сделать нельзя, например, невозможно найти альтернативный процессор или сетевой узел, программа автоматически генерирует журнал ошибок и связывается с IBM через Internet или интранет для получения другого решения, говорит Joe Winkelbauer, технический стратег (technical strategist) IBM по сетевым вычислениям и eLiza.

IBM Global Srevices также бесплатно предлагает со многими своими серверами программное обеспечение Electronic Service Agent. Если эта программа обнаруживает проблему, она передает информацию о ней в виде журнала ошибок на сервер IBM через Internet или интранет.

"Он проверяет эти данные, чтобы определить серьезность проблемы и проверить, не встречались ли мы с этой проблемой ранее," - объясняет Kent Holcomb, директор по стратегии (director of strategy) IBM Integrated Technology Services. "Если мы ее встречали, мы уже решали ее раньше." Система тогда посылает исправления покупателю для их внедрения. Если IBM раньше не решала такую проблему, необходимо вмешательство человека.

Самоизлечивающаяся память

IBM разработала систему Активной Памяти (Active Memory), которая продолжает работать даже при выходе из строя чипа памяти. Модуль памяти имеет много чипов, и если один из них вышел из строя, он может переключиться на другой прежде, чем произойдет крах системы. Если система не может автоматически исправить ошибку, она свяжется с IBM для удаленного человеческого вмешательства или вызова обслуживания.

Blue Gene

100-миллионный проект IBM Blue Gene подвергнет строгому тестированию многие фирменные идеи фирмы в области автономных вычислений. Суперкомпьютер Blue Gene/L, содержащий 65000 процессоров, который IBM разрабатывает с Lawrence Livermore National Laboratory, должен иметь производительность 200 терафлоп, когда он начнет работать в 2005 году.

Несколько позже IBM надеется запустить Blue Gene/P, который будет обеспечивать 1000 терафлоп при моделировании полного процесса сворачивания белков. Поскольку люди не смогут выявлять и устранять проблемы достаточно быстро для того, чтобы дать возможность петафлопному компьютеру продолжать функционировать эффективно, IBM использует принципы автономных вычислений для обеспечения его самоизлечивания и самоподдержки.

ДРУГИЕ ДОСТИЖЕНИЯ В САМОИЗЛЕЧЕНИИ

Кроме IBM, несколько других компаний работают над технологиями самоизлечения. Например, некоторые обеспечивают возможности самоизлечения на малых масштабах, такие как предложение пользователю переустановить свою систему в то состояние, в котором она в последний раз правильно работала.

Sun Microsystems

Фирма Sun Microsystems имеет два подхода к самоизлечению

ONE и N1. Проект ONE (Open Net Environment) и сетевая операционная система следующего поколения N1 соответствуют технологиям самоизлечения Sun.

ONE будет добавлять XML в Java-базированные сетевые службы для создания Web-платформы, которая будет интегрировать устройства, базы данных и сети в единую виртуальную вычислительную фабрику, к которой пользователь сможет иметь доступ через браузер.

Проект N1 будет включать в себя уровень системного программного обеспечения, работающего как операционная система для сети. В сущности, он будет позволять администратору управлять сетью, а не компонентами.

С подходом Sun группы компьютеров будут функционировать как единый пул процессорных возможностей и памяти в комбинации с сетевыми каналами и соединениями, поясняет менеджер группы Adam Hawley. Таким образом, если один компьютер или важный элемент выйдет из строя, система может переключиться на другой.

Sun пока отказывается давать больше комментариев.

Jini. Sun также использует свою специальную сетевую технологию Jini для создания самоизечивающихся приложений. С Jini пользователь может подключать серверы, ПК, принтеры и другие устройства прямо к сети, и они сами определят себя в регистре. Любое другое устройство и пользователь сети могут прочитать регистр и почувствовать, что новое устройство добавлено и доступно.

Системы с возможными отказами элементов будут использовать чувствительные возможности Jini для того, чтобы найти в сети компоненты, которые все еще функционируют, и затем выполнить программные команды для перераспределения ресурсов на них, говорит Mark Hodapp, главный техн8ический менеджер (senior engineering manager) Sun по сетевой технологии Jini.

Возможно, наибольшим отличием подходов IBM и Sun является то, что Jini не использует удаленный или централизованный мониторинг, говорит Jennifer Kotzen, маркетинговый менеджер продукта (product marketing manager) по сетевой технологии Jini. "Вместо этого", - говорит она, - "компоненты сами управляют своим членством в системе".

Кроме того, замечает она, в то время, как некоторые подходы к самоизлечению ищут замену отказавшим компонентам в заранее определенном месте, Jini ищет любой доступный компонент где угодно в сети.

Hewlett-Packard

HP Labs разработала Super-dome, крупномасштабный Unix-сервер, который может разделять 64 процессора на большое число виртуальных машин, которые включают в себя несколько чипов. Отказ одного раздела не окажет влияния на другие разделы, рассказывает Rich Friedrich, директор лаборатории Internet-систем и памяти в HP Labs.

HP использует технологии самоизлечения - включая возможность коррекции однобитной ошибки в кеше ЦП и замены процессора при слишком большом количестве ошибок - в некоторые из своих новых серверов.

Blue Ocean Software

Вдобавок к инсталляции и модификации приложений программа Track-It!Deploy от Blue Ocean Software автоматически проверяет программы и устраняет проблемы.

Менеджер продукта Val O'Relly говорит, что данный инструмент проверяет программное обеспечение, а не список файлов, которые должны быть у приложения. Если, например, Track-It!Deploy обнаруживает, что Microsoft Office вышел из строя потому, что отсутствует файл библиотеки динамической компоновки, программа переустанавливает именно этот файл через Internet или локальную сеть, экономя, таким образом, время и трафик.

ПРЕПЯТСТВИЯ, КОТОРЫЕ ПРЕДСТОИТ ПРЕОДОЛЕТЬ

Для широкого распространения самоизлечения существует много технологических и маркетинговых препятствий.

Одним из наибольших препятствий является стоимость, - говорит Jim Cassel, вице-президент Dataquest research, фирмы, специализирующейся на анализе рынка. Тем не менее, со временем, по мере того, как эти технологии будут созревать, цены будут падать, - говорит аналитик Rob Enderle из Giga Information Group, другой аналитической фирмы.

Однако, - добавляет он, - имеется риск и того, что технологии, которые отслеживают, поддерживают и лечат систему так, как они могут, могут также повредить систему - например, внеся в нее ошибки, удалив важные системные установки или исполняемые компоненты. "Требуется время, чтобы оценить самоизлечивающиеся системы и удостовериться в них", - говорит он.

Тем временем, замечает Cassel, компании работают над сложными проблемами, возникающими при интеграции технологий самоизлечения с системами и обеспечении их совместной работы.

В настоящее время, однако, эти технологии еще преждевременны для принятия их многими компаниями, говорит Enderle. "Вам нужна намного большая степень уверенности в том, что они будут делать только то, что они должны делать и ничего больше", - объясняет он. - "Важным обстоятельством является их новизна. Никто не хочет быть первым."

По мнению Cassel, развертывание самоизлечивающихся систем главных их производителей должно начаться позже в этом году, а широкое их внедрение произойдет в 2005 году.

Пользователи будут внедрять технологии самоизлечения, несмотря на потенциальные трудности, говорит Enderle. Другие обозреватели соглашаются с ним, говоря, что эти технологии будут необходимы для упрощения операций в информационных технологиях и для работы с компьютерами будущего, которые будут слишком быстрыми, сложными и важными для того, чтобы зависеть от человеческого вмешательства.

"Это - будущее применения компьютеров", - говорит Enderle. - "Не вопрос - должны ли мы идти по этому пути. Существенно то, насколько быстро это станет реальностью. Через 20 лет мы поглядим назад и удивимся, почему мы не сделали этого раньше."


КаталогИндекс раздела