Полуструктурированная информация

Базы данных являются основой всех современных информационных систем и до сих пор СУБД неплохо справлялись с этой функцией. Но с уничтожением информационных границ возникают новые виды информации, которые требуют обработки. СУБД работают с реляционной моделью, т.е., с данными, хорошо структурированными. В современный информационный оборот включается неструктурированная информация (большие тексты, мультимедийные файлы) и, что более интересно - полуструктурированная.

Информацию можно считать полуструктурированной, если она удовлетворяет хотя бы одному из следующих условий

  • информация имеет структуру, но эта структура различна в различных источниках; при интеграции информации из разных источников приведение их к единой структуре может оказаться дорогостоящим (случай, типичный для федеративных баз данных: одни и те же по смыслу данные о людях, например в разных источниках имеют разный формат);
  • структура информации неявна, то есть, не имеет достаточно четкого описания (например, текстовый документ/книга имеет разделы и подразделы, но описания этой структуры нет);
  • информация структурирована частично, в одном документе имеются как структурированные части, так и неструктурированные (типичный пример - HTML-страница);
  • структура информации может достаточно часто изменяться (причинами этого может быть. изменение спецификаций, например, внешних требований, необходимость интеграции с новыми источниками и т.д.).