КаталогИндекс раздела

          

Федеративный подход расширяет технологию доступа к базам данных

David Geer

Federated Approach Expands Database-Access Technology
Опубликовано в: Computer, May, 2003, pp. 18-20

Современные информационные системы организаций накапливают и увеличивают объемы данных из растущего числа структурированных и неструктурированных источников на разных платформах. У них есть данные на почтовых серверах, Web-серверах, распределенные данные, файлы приложений и файлы на мейнфреймах. Банк, например, может иметь информацию об одном клиенте во многих таких источниках, - говорит Jonathan Eunice, ведущий аналитик и консультант по IT фирмы Illuminata, которая занимается исследованиями и консультациями в области IT.

Часто типы источников данных различаются потому, что компании используют разные системы или в результате покупки нового бизнеса или слияния с другими компаниями, которые используют другие системы или технологии.

Это может сделать поиск заданной информации во множественных источниках данных времяемким, в основном потому, что пользовательский запрос традиционно обращается к одному источнику данных за раз.

В ответ на эту проблему многие производители разработали продукты с федеративной технологией доступа к базам данных: промежуточное программное обеспечение Liquid Date фирмы BEA Systems, промежуточное программное обеспечение DB2 Information Integrator (II) фирмы IBM, следующий SQL Server фирмы Microsoft, названный Yukon и СУБД Oracle 9i - которые дают возможность пользователям запрашивать одновременно разные, гетерогенные источники данных.

Сегодняшние федеративные технологии - не первая попытка воплотить этот подход, но это первая успешная попытка. Более ранние воплощения могли в некоторых случаях обращаться более чем к одному репозиторию данных, не интегрировались адекватно с множественными источниками.

Требования к технологии федеративного доступа будут гораздо большими для систем, которые управляют содержимым в Web. Кроме того, компании захотят использовать этот подход в системах управления отношениями с покупателями, которые обычно работают с денными из множественных источников, - говорит Ted Friedman из Gartner Inc., фирмы, занимающейся исследованиями рынка.

Производители могут интенсивно продвигать федеративные технологии как способ выиграть в жесткой конкурентной борьбе на рынке баз данных.

"Неудивительно, что мы видим такой рост федеративных систем баз данных," - говорит Eunice.

ТЕХНОЛОГИЯ ИЗНУТРИ

Традиционные системы данных (пример показан на Рис.1) обращаются только к одному источнику данных за раз, потому что до сих пор не было универсального языка данных и качественных метаданных. Без точных, качественных метаданных для описания хранимых данных по всем платформам пользователь будет иметь проблемы при слиянии нужных ему данных из множественных источников. Вместе с тем, мощность или функциональность аппаратных и программных средств недостаточны для выполнения обращений к распределенным данным.

Рис.1. Традиционно пользователь (например, сервисный представитель покупателя), который хочет получить информацию из множественных источников, может обращаться только к одному за раз, что делает процесс медленнее и дороже, чем одновременное обращение к множественным источникам. В этом процессе программное обеспечение интеграции корпоративной информации (EAI) и Java Database Connectivity (JDBC) помогают пользователям обращаться к информации в отдельных базах данных.

Разработчики используют самостоятельно сделанные адаптеры для работы с данными из множественных источников через API источников. Но самодельные адаптеры не приспосабливаются автоматически к изменениям API и поэтому должны регулярно переделываться.

Централизованный подход

Централизованный подход в доступе к данным, находящимся в множественных источниках, обычно включает в себя дублирование, а затем собирание копий данных в одной или нескольких (немногих) базах данных. Пользователи затем обращаются к этим базам данных, называемым иногда хранилищами данных.

Наличие данных, объединенных в одном источнике, данных ускоряет пользовательский доступ к данным и упрощает нормализацию и другие подобные процессы по сравнению с данными, разбросанными по разным системам.

Однако объединение информации в централизованном источнике требует, чтобы данные, которые часто бывают в разных форматах, были приведены к единому формату, а этот процесс может привести к ошибкам, - говорит Eunice.

Также для хранилища может быть трудным работать с новыми источниками данных в незнакомых форматах. Более того, стоимость обработки часто повышается из-за необходимости дублировать данные и обрабатывать два набора данных.

Федеративный подход

Федеративный подход (на Рис.2 показан Liquid Data фирмы BEA Systems) непосредственно обращается к данным в совершенно разных источниках, создавая единый виртуальный репозиторий. Разработчики могут обращать все свои запросы к федеративной системе данных, службы которой играют роль промежуточного звена, по существу, создавая абстрактные соединения с различными серверами источников данных.

Рис.2. Технология федеративного доступа к базам данных дает возможность пользователям (таким, как сервисный представитель покупателя), обращаться к множественным, гетерогенным источникам одновременно. В технологии Liquid Data фирмы BEA Systems архитектор данных строит стандартизованные представления данных, так что пользователь может увидеть разнообразные данные одним способом. Система объединяет данные для представления логических видов на информацию, таких как сведение вместе всей информации о пользователях и сведение вместе всей информации о заказах. Таким образом, пользователи могут прозрачно обращаться к множественным, гетерогенным источникам в одном запросе к серверу Liquid Data.

Федеративные технологии обычно быстрее, дешевле и менее подвержены ошибкам, потому что данные остаются на своих исходных местах. Кроме того, при этом могут легко обрабатываться новые источники данных. Однако, - говорит Friedman из Gartner, - процесс собирания данных из множественных источников создает дополнительную нагрузку на систему. Также, - объясняет он, - выполнение "в полете" распределения запроса по множественным источникам данных потребует передачи больших объемов данных по сетям, что может значительно снизить производительность. Кроме того, при использовании федеративного подхода труднее выполнять нормализацию и другие подобные работы.

Между 1998 и 2001 годами несколько компаний попытались выйти на рынок со своими разработками федеративных технологий. Однако часто эти системы были слишком сложны и распределенные запросы в них выполнялись неэффективно.

Сегодня есть два подхода к технологиям федеративного доступа к базам данных.

Подход на основе сервера создает физические пути объединения данных для одновременного доступа к гетерогенным данным из множественных источников. Производители при этом дорабатывают свои серверы баз данных так, что они могут более эффективно работать непосредственно с другими серверами.

Подход на основе промежуточного программного обеспечения использует программные средства для обеспечения связей между пользователями и источниками данных. Промежуточное программное обеспечение, а не аппаратные средства дают здесь возможность серверам обращаться друг к другу.

ОБЕСПЕЧИВАЮЩИЕ ТЕХНОЛОГИИ

Несколько технологических достижений последних лет сделали возможным одновременное обращение в запросе к гетерогенным данным из множественных источников.

Например, оптимизаторы запросов, программное обеспечение, которое оптимизирует запросы на основе набора правил, усовершенствованы лучшими алгоритмами. Также стали быстрее процессоры и жесткие диски, обеспечивая лучшую производительность.

Хотя технология федеративного доступа в некоторых частях может работать с данными, записанными на почти любом языке, ключевым обеспечением технологии стал XML.

Разработка XML открыла двери для технологий федеративного доступа. XML, упрощенная версия SGML, является гибким средством для создания общих форматов информации и совместного использования и форматов, и данных через Web, интранет и что угодно еще.

XML использует теги, обеспечивающие семантику данных, которую могут распознавать гетерогенные системы. XML, таким образом, облегчает выполнение запросов, которые могут обращаться к информации из множественных источников на разных платформах.

XML помогает системе понимать данные из гетерогенных источников, а сети и многопоточные операционные системы параллельно обрабатывают пользовательские запросы на данные из множественных репозиториев.

Язык XQuery, стандартизированный World Wide Web Consortium (W3C) обещает стать важной технологией для федеративного доступа. XQuery - это язык, который позволяет пользователям выполнять запросы на информацию, которая хранится, изменяется и представляется из разнообразных источников с использованием XML.

Специальный язык запросов для файлов XML важен потому, что данные в них имеют иерархическую структуру, а она не укладывается в реляционную модель данных, для которой обычно используется SQL.

Современные технологии баз данных нуждаются в новом языке, - говорит Eunice из Illuminata, - также и потому, что SQL был разработан в конце 1970-х годов, когда еще не было таких достижений, как Internet и XML.

Производители начинают добавлять в приложения интерфейс Xquery для расширения их возможностей поиска баз данных.

ПРОДУКТЫ С ФЕДЕРАТИВНЫМ ДОСТУПОМ

Есть четыре основных продукта с федеративным доступом к базам данных

Liquid Data - BEA Systems

Фирма BEA Systems выпустила Liquid Data для платформы WebLogic Enterprise - стратегического сервера приложений фирмы.

Liquid Data - продукт федеративного доступа к базам данных на основе промежуточного программного обеспечения, который работает как интерфейс между пользователем и распределенными серверами, - говорит Ajay Patel, вице-президент и генеральный менеджер по Liquid Data.

Технология соединяет XML и Web-серверы для определения мощных метаданных, а затем применяет их для получения данных из множественных источников. Данные из разных баз данных автоматически переводятся в XML.

DB2 Information Integrator - IBM

DB2 II фирмы IBM - федеративный сервер интеграции информации. Система запрашивает данные с их естественного места хранения, а затем использует серверы СУБД для консолидации результатов.

Система работает как часть общего добавления интерфейса XQuery в фирменную платформу DB2, которая до сих пор работала с SQL.

DB2 II использует упаковки, чтобы дать возможность запросу соединяться с источниками данных от других фирм. "Если идет речь об источнике данных Oracle, применяется упаковка для этого источника," - говорит Laura Hass, ведущий инженер IBM.

Yukon - Microsoft

В конце этого года фирма Microsoft планирует выпустить бета-версию Yukon, реализацию фирменной СУБД SQL Server, которая, среди прочего, облегчает обработку данных в разных форматах и из разных источников.

Возможности XML в SQL Server будут в Yukon расширены интерфейсом XQuery, так что он будет работать и с SQL, и с XQuery. Вдобавок, Yukon будет поддерживать и федеративную, и централизованную модели доступа.

Microsoft планирует выпустить Yukon с версией Windows, имеющей кодовое имя Longhorn и планируемой к выпуску в 2005 г.

Oracle 9i

Согласно Sandeepan Banerjee, менеджеру управления продуктом для серверных технологий Oracle, платформа СУБД Oracle 9i для параллельного доступа к данным из множественных, гетерогенных источников реализует и серверный подход, и подход на базе промежуточного программного обеспечения.

Oracle 9i изначально использует централизованный подход хранилища данных. Однако, - говорит Robert Thome, менеджер группы распределенных баз данных, - если вы хотите применять федеративный подход, мы имеем возможность, названную Распределенный SQL. Распределенный SQL интегрирует множественные источники данных.

Oracle 9i также работает со словарем данных для запросов к удаленной базе данных, чтобы, например, выбрать информацию о таблицах и именах столбцов. Это позволяет Oracle 9i понимать данные, которые он получает, - замечает Thome.

Продукт использует технологию Oracle Streams, которая вылавливает изменения в удаленных базах данных и сохраняет их в запросах. Пользователи могут затем синхронизировать изменения с их собственными системами, будучи уверенными в том, что данные, полученные из разных источников, сохраняют актуальность.

 

Поскольку технологии федеративного доступа к базам данных включают в себя значительные коммуникации между пользователями и источниками данных, они подразумевают задержки и накладные расходы. Кроме того, серверы должны получать и обрабатывать запросы и должны преобразовывать, очищать и оптимизировать данные. Эти факторы снижают производительность.

Если потребность в технологиях федеративного доступа будет расти в следующие пять лет, это может помочь рынку баз данных. И W3C работает над стандартизацией XQuery, которая может привлечь больше производителей на рынок технологий федеративного доступа.

По мере того, как процессоры и алгоритмы кеширования будут становиться быстрее, технологии федеративного доступа к базам данных также будут совершенствоваться, - говорит Philip Russom, директор по исследованиям фирмы Giga Information Group, занимающейся исследованиями рынка.

Stephen O'Grady, аналитик из RedMonk, фирмы, занимающейся исследованиями рынка, выражает оптимизм относительно будущего технологий федеративного доступа к базам данных. "Поскольку решения от разных производителей отличаются друг от друга," - говорит он, - "время федеративного управления данными в любом случае настанет, и его технические возможности должны в итоге прийти в соответствие потребностям. Поскольку бизнесмены рассматривают доступность информации в тесной связи с конкурентными преимуществами корпорации, эти продукты будут наращивать свои возможности по требованию".


КаталогИндекс раздела