|
Полуструктурированная информация
Базы данных являются основой всех современных информационных систем и до сих пор СУБД неплохо справлялись с этой функцией. Но с уничтожением информационных границ возникают новые виды информации, которые требуют обработки. СУБД работают с реляционной моделью, т.е., с данными, хорошо структурированными. В современный информационный оборот включается неструктурированная информация (большие тексты, мультимедийные файлы) и, что более интересно - полуструктурированная.
Информацию можно считать полуструктурированной, если она удовлетворяет хотя бы одному из следующих условий
- информация имеет структуру, но эта структура различна в различных источниках; при интеграции информации из разных источников приведение их к единой структуре может оказаться дорогостоящим (случай, типичный для федеративных баз данных: одни и те же по смыслу данные о людях, например в разных источниках имеют разный формат);
- структура информации неявна, то есть, не имеет достаточно четкого описания (например, текстовый документ/книга имеет разделы и подразделы, но описания этой структуры нет);
- информация структурирована частично, в одном документе имеются как структурированные части, так и неструктурированные (типичный пример - HTML-страница);
- структура информации может достаточно часто изменяться (причинами этого может быть. изменение спецификаций, например, внешних требований, необходимость интеграции с новыми источниками и т.д.).
|