Опрацювання невизначеної інформації у геоінформаційних системах

Проаналізовано проблеми, що виникають під час опрацювання даних у геоінформаційних системах. Наведено структури даних геоінформаційної системи. Проаналізовано методи збільшення інформативності геоінформаційних систем.

ВСТУП

Головна відмінність ГІС-технологій від технологій сховищ даних, побудованих на основі реляційної моделі, полягає у встановленні зв'язку між картографічною інформацією та тематичними даними в формі реляційних баз данних. Це дозволяє в інтерактивному режимі легко переходити від табличного подання данних до картографічного і навпаки, або суміщувати їх. Тому можливість комбінувати геометричні та атрибутивні дані визначає якісно новий підхід до аналізу данних з метою прийняття на його основі обгрунтованого рішення.

Важливими особливостями ГІС є можливість забеспечення комплексного уведення, контролю, зберігання, відображення і аналізу різної семантичної та картографічної інформації, підготовка картографічних матеріалів для аналітичної обробки, що також забезпечує прийняття ефективних рішень на основі аналізу та інтерпретації просторово розподілених даних. Власне різнорідність інформації, якою повинна оперувати систтема, і призводить до виникнення ряду проблем, одним із найголовніших серед яких є опрацювання невизначеної інформації та проблема пошуку інформації.

Стаття присвячена розгляду вищенаведених проблем та побудові методів їх вирішення.

1. АКТУАЛЬНІСТЬ РОБОТИ

Головною проблемою, яка постає під час розробки ГІС, є відсутність єдиної системи та політики інтегрування розрізнених геоінформаційних даних з метою їх загального використання. Зрозуміло, що неузгоджене створення, накопичення та актуалізація великого обсягу такої інформації потребує витрачання зайвих коштів і не дає очікуваного результату. Виходячи з цього, сьогодні на теренах України немає системи, яка б могла використовуватись для комплексного інформаційного забезпечення, формування аналітичних та прогнозних даних та підтримки прийняття рішень стосовно гармонійного розвитку регіону [1].

Розгляд проблеми опрацювання невизначеності дозволить вирішити питання підвищення достовірності та надійності інформації, а, отже, підвищить ефективність рішень, вироблених системою.

2. ПОСТАНОВКА ЗАДАЧІ

Отже, геоінформаційна система (ГІС) опрацьовує різнорідну за структурою та формою подання вхідну інформацію: картографічна, числова, текстова, графічна тощо. Виникає необхідність збереження великих чисел (протяжність кордонів адміністративної одиниці, чисельність населення, обсяг продукції тощо); надзвичайно малих (величина викидів небезпечних речовин, вміст мінеральних речовин у грунті тощо); інтервальних (температура повітря); лінгвістичних оцінок (якість) – оскільки проектована система є людино-машинною, і тому згенеровані рішення повинні видаватися у термінах, звичних для людини; неточних даних (заміри, виконані у надзвичайних умовах).

Засобами сучасних СКБД не можна забезпечити коректного зберігання невизначеної інформації. Крім того, низький рівень достовірності (точності даних) призводить до зниження якості рішень, згенерованих системою.

Отже, виникають наступні задачі:

1. Коректного подання та зберігання відсутніх, нечітких, недостовірних, інтервальних, лінгвістичних та інших невизначених даних;

2. Коректного опрацювання невизначеності – виникає через ряд факторів

  • Застосування операцій інтервальної алгебри призводить до постійного розширення інтервалу, а отже, зниження довіри до результату (наприклад, операція множення для формування результату обирає найменший та найбільший з усіх добутків),
  • Виконання арифметичних операцій над точними даним призводить до зниження точності через заокруглення,
  • Застосування операцій над значеннями атрибутів, які містять ступені довіри, призводить до постійного зменшення довіри (грунтується на властивостях логічного І для логік будь-якого порядку);

3. Усунення чи зменшення невизначеності (корекції даних у системі РАПІД) з метою підвищення інформативності вхідних даних та покращення якості прийнятих рішень – прийняття рішень на основі видобування нових знань залежить від якості вхідної інформації (чим більша кількість вхідних даних і чим більший ступінь довіри до них, тим точніше можна встановити залежності між даними).

Для розв’язання поставлених задач пропонується:

Для вирішення проблеми збереження -

- спроектувати логічні моделі для збереження метаданих, які описуватимуть характер невизначеності та позначатимуть атрибути, яких ця невизначеність стосується;

Для вирішення проблеми опрацювання –

- забезпечити коректність опрацювання інтервальних, надточних та лінгвістичних даних шляхом збереження історії операції

- розширити оператори реляційної алгебри (вибірки, проекції та з’єднання) для врахування фактору невизначеності;

Для вирішення проблеми зменшення невизначеності –

Використовуючи залежності між характеристиками об’єктів, проводити класифікування, результатом якого буде визначення класу, до якого відноситься об’єкт, а, отже, - усунення невизначеності;

Базуючись на об’єктно-орієнтованому підході до проектування схем даних та зберігаючи зв’язки між об’єктами, використовувати рух по мережі об’єктів та їх властивостей для зменшення невизначеності шляхом аналізу характеристик об’єктів, зв’язаних між собою.

2. МЕТОДИ ВИРІШЕННЯ ЗАДАЧ


2.1. ПОДАННЯ ТА ОПРАЦЮВАННЯ НЕВИЗНАЧЕНИХ ДАНИХ

Уведемо узагальнений тип невизначеності, використання якого не призводило б до порушення цілісності даних, а також дозволяло б подавати усі типи невизначеностей. Таку узагальнену невизначеність можна подавати за допомогою двох складових:

Indeterminate={Value, Trust},

де Value – значення невизначеної величини (число, лінгвістична змінна, стрічка тощо), Trust – довіра до значення (подається інтервалом).

Операції над значеннями, які мають тип Indeterminate, виконуються окремо для значення Value та окремо для значення Trust. Оскільки операції над величинами Value не відрізняються від операцій, що виконуються над стандартними типами даних, то зупинимося детальніше на інтервальних операцій, що застосовуються для частини Trust.

У загальному випадку точність інтервального результату визначається наступними чотирма факторами [5]:

1. Невизначеністю у заданні вихідних даних.

2. Заокругленнями при виконанні операцій, що змінюють або породжують інтервальні об'єкти.

3. Наближеним характером використовуваного чисельного методу.

4. Ступенем обліку залежностей між інтервальними об’єктами (змінними і константами), що беруть участь в обчисленні.

Для того, щоб інтервал не збільшувався при виконання над ним математичних операцій (тобто, щоб не збільшувалась невизначеність), подаватимемо межі інтервалу двома атрибутами з доменами дійсних чисел та використовуватимемо для опрацювання інтервалів оператори інтервальної алгебри.
Для моделювання невизначеності типу Indeterminateу сховищі даних використаємо відношення attr із схемою Attr, у якому зберігатиметься залежність між чіткими та нечіткими атрибутами відношень сховища даних:

attr
Id Первинний ключ
Rel_name Назва відношення
Attr_name Назва атрибута
UNK_type Тип невизначеності атрибута Attr_name
Prior_id Зовнішній ключ відношення Attr

Відношення attr – це відношення, що містить метадані (тобто, описує дані). Інформація у ньому вважається апріорі чіткою.

Переваги використання метаданих для відображення залежностей між атрибутами:

  • Не потрібно використовувати додаткові відношення для моделювання різних типів невизначеностей.
  • Не потрібно здійснювати надбудову над реляційною алгеброю (уведення нових операторів), а лише врахувати додаткові умови під час використання традиційних операторів та розробити додатковий інструментарій обробки даних (операції множення-ділення інтервальних значень).

 

Усунення проблеми подання невизначеності на рівні кортежу дозволить застосувати методи для її зменшення.

2.2.УСУНЕННЯ НЕВИЗНАЧЕНОСТІ

Одним із методів усунення невизначеності є аналіз зв’язків між об’єктами проектованої предметної області.

Для зменшення невизначеності шляхом аналізу зв’язків між кортежами відношень необхідно змоделювати структуру, яка б дозволяла зберігати зв’язки довільної арності та забезпечувати доволі простий доступ до інформації на будь-якому рівні ієрархії.

Встановлення зв’язку як між кортежами одного відношення, так і між окремими кортежами різних відношень можна здійснити за допомогою відношення dc_link:

Dc_link
id код
Evdate Дата занесення зв’язку
TableType Назва або префікс відношення
Table_id Код кортежу відношення
Prior_id Посилання на код

Атрибут Prior_id є зовнішнім ключем відношення dc_link та застосовується для встановлення зв’язку між кортежами відношень, назва яких вказана у TableType.

Описана структура (dc_link та використання атрибуту prior_id) дозволяє моделювати складні об’єкти, наприклад, шляхом перерахування їхніх властивостей, та враховувати невизначеність як їхню характеристику, вказавши для кожної властивості ступінь її впливу (відповідності) на об’єкт-предок.

Коли ми говоримо про невизначеності, які є характеристиками об’єкта, доцільно застосувати об’єктно-орієнтований підхід до проектування схеми бази даних. Мова йде про об’єкти, які описуються

  • через перелічення їхніх складових або властивостей (наприклад, географічні об’єкти, виробничі процеси тощо);
  • через вказання зв’язків з іншими об’єктами.

Як бачимо, об’єкти моделюються у вигляді мережевої структури. На рівнях цієї мережі можуть знаходитись стани об’єкта, його властивості тощо.

У такому випадку фактор невизначеності та зв’язок між об’єктами має бути передбачений вже у процесі проектування схеми БД (на відміну від попереднього випадку, де ми говоримо про усунення невизначеності у відношеннях, наповнених тестовим набором [1], тобто існуючих).

Якщо вважати, що за допомогою кортежу відношення подають характеристику об’єкта, його стан у часі або властивість, то моделюванням об’єкта у сховищі даних є встановлення зв’язку між окремими кортежами. А зважаючи на те, що кожен об’єкт є системою певної складності, то за допомогою властивостей складових об’єкта можна визначати властивості самого об’єкта, або ж, навпаки, переносити властивості об’єкта на його складові. Тобто, моделювання об’єкта за допомогою перелічення його складових або властивостей та перенесення властивостей з вищого рівня ієрархії на нижчий та навпаки є одним із методів усунення невизначеності його характеристик.

Якщо на рівні описів об’єкта передбачити атрибут для подання ступеню істинності чи відповідності, то моделювання ієрархічної структури об’єктів та їх властивостей у сховищах даних дозволить також позбуватися нечіткостей та неоднозначностей шляхом руху по ієрархії та аналізу ступенів відповідності.

У випадку усунення невизначеності кортежа-предка на основі аналізу множини кортежів-нащадків, необхідно враховувати можливість наявності суперечливої інформації. Тому кортежі-нащадки вимагають попереднього групування за значеннями Trust. Всередині групи до значень Value застосовується логічна операція АБО, а до груп – логічна операція І.

ВИСНОВКИ

Використання метаданих для опису невизначеностей дозволяє усувати ряд проблем, пов’язаних із виникненням невизначеності на рівні кортежу. Науковою новизною є використання алгоритмів аналізу зв’язків між кортежами відношення для зменшення невизначеності. Уведено узагальнений тип невизначеності, який дозволяє моделювати усі типи невизначеностей, які підтримуються у реляційному відношенні . Практична цінність полягає у розробленні логічних схем даних для збереження зв’язків між атрибутами відношень, правил, метаданих тощо, а також побудови алгоритмів для усунення відсутніх, неоднозначних, неповних та нечітких даних шляхом аналізу мережевої структури.

1. ГІС Форум 2000// Матеріали конференції. – Київ. – 2000 . 2. Габрель М.М. Методологічні основи просторової організації містобудівних систем.// Автореферат дисертації на здобуття наукового ступеня доктора технічних наук. – Київ. – 2002. 3. Шаховська Н.Б. Матоди усунення невизначеностей у базах знань, побудованих на основі реляційного підходу//Вісник НУ “Львівська політехніка”. 2003. № 489.. 4. Ковтун В.Я., Москаленко Л.В. Средства извлечения геологических знаний из электронных хранилищ данных в геологических фондах. //Труды международного семинара Диалог 2001 по компьютерной лингвистике и её приложениям, Таруса, 2001, Том 2. Прикладные проблемы – www.dialog-2001.asp.ru 5. Алтунин А.Е., Семухин М.В. Модели и алгоритмы принятия решений в нечетких условиях: Монография. Тюмень: Издательство Тюменского государственного университета, 2000. 352 с

© Інформаційні технології. Аналітика , Рідна Мережа