VIII Международная научно-практическая конференция "Наука в информационном пространстве - 2012" (4-5 октября 2012г.)

Гнатишин О.П.

Львівський національний університет імені І. Франка, Україна

ІДЕНТИФІКАЦІЯ СТАТИСТИЧНИХ ДАНИХ З ГЕТЕРОГЕННИХ ПОПУЛЯЦІЙ

 

Математичне моделювання процесів руйнування матеріалів чи безвідмовної роботи технічних систем вимагає визначення невідомих параметрів теоретичних законів розподілу ймовірностей на основі емпіричних даних. Інформацію про ці розподіли отримують при оцінюванні результатів вимірювань чи спостережень з допомогою відповідних статистичних методів. Необхідні емпіричні дані отримують або в результаті спеціальних випробувань або як результати спостережень за відповідним процесом [1].

Часто вибірки формуються з гетерогенних популяцій. Тоді мова йде про моделювання сумішей. Наприклад, фірма-виробник будівельних машин вивчає надійність своєї продукції. Статистичною інформацією в даному випадку служить тривалість безвідмовної роботи технічних систем. При умові, що технічні системи є однієї марки і були виготовлені в однакових умовах, але експлуатуються в різних кліматичних зонах чи при різних навантаженнях ми отримаємо суміш розподілів. Модель суміші ми отримаємо і в тому випадку, якщо системи експлуатуються в однакових умовах і при однаковому навантаженні, але виготовлені були на різних підприємствах.

Математичні моделі стохастичних сумішей використовуються в найрізноманітніших галузях. Наприклад, в розділі „штучного інтелекту” говорять про „вибірки без навчання” , в психології „латентний аналіз класів” , в філософії „класифікація властивостей” , в інших напрямках – „ кластери” , „числова тахономія” .

В загальних рисах задача розщеплення стохастичних сумішей імовірнісних розподілів, полягає у встановленні законів розподілу ймовірностей, оцінюванні невідомих параметрів цих розподілів і вагових функцій та ідентифікації спостережень до відповідних їм компонентів (класів) суміші.

Нехай

                       (1)

елементи вибірки незалежних спостережень з генеральної сукупності, що є сумішшю скінченої кількості розподілів, яка задається густиною:

,                      (2)

де – кількість компонент суміші, – апріорні ймовірності появи спостереження з -го компонента суміші,   густина функції розподілу (класу суміші),   – векторні параметри законів розподілу компонентів суміші.

Необхідно побудувати статистичні оцінки для апріорних ймовірностей , і оцінити невідомі параметри   для кожної з компонент   аналізованої суміші. Обчислюючи значення функції правдоподібності для кожного спостереження ,   в рамках кожного класу густин , віднести елемент   до того класу, функція правдоподібності якого є максимальною.

Поставлена задача зводиться до знаходження розв’язку задачі оптимізації:

.             (3)

Для розв’язування задачі (3) застосовано ітераційно-різницеві методи [2], які за швидкістю збіжності близькі до методу Ньютона, однак не вимагають обчислення матриці других похідних. Розглянуто задачу розщеплення стохастичних сумішей законів розподілів, які найчастіше зустрічаються в задачах теорії надійності [3], а саме, експонентного, гама та Гнеденка–Вейбула .

Для перевірки адекватності отриманої моделі застосовано критерій Колмогорова .

Проведено числовий експеримент на низці тестових прикладів та реальних даних.

Висновки. Ефективність використовуваних для розщеплення сумішей алгоритмів суттєво залежить від вибору вихідних позицій алгоритму, тобто від конкретних початкових наближень для числа класів, апріорних та апостеріорних ймовірностей і т.п., які використовують на початковій ітерації алгоритму.

Тому рекомендується початково зробити етап досліджувального статистичного аналізу даних, які класифікуються. Він призначений для попереднього дослідження геометричної і ймовірнісної природи сукупності даних, які аналізуються і, в тому числі дозволяє формувати гіпотези про кількість класів, про тип ймовірнісного розподілу в середині кожного з класів, величинах апріорних ймовірностей приналежності спостереження кожному з класів і т.п. Одним з основних прийомів такого типу аналізу є проектування багатомірних спостережень, які аналізуються, на площину таким чином, щоб максимально зберегти при цьому специфічні особливості сукупності даних, що розглядаються, наприклад наявність і загальна кількість чітко виражених класів.

Базова ідея, яка лежить в основі прийняття рішення, до якої із генеральних сукупностей, які аналізуються, треба віднести спостереження, полягає в тому, що спостереження приписують до тієї генеральної сукупності (до тієї компоненти суміші), в рамках якої воно виглядає найбільш правдоподібним.

Отримані результати дають змогу вдосконалити способи обробки статистичної інформації.

 

Список використаних джерел:

  1. Гнатишин О.П. Застосування методів типу Гаусса-Ньютона до оцінки невідомих параметрів законів розподілу в задачах теорії надійності / О.П. Гнатишин , С.М.   Шахно // Вісник Львів. ун-ту . – 2002. – Серія: Прикладна математика та інформатика. – Вип. 4. – С. 110–113.
  2. Гнатишин О.П. Про деякі ітераційно-різницеві методи розв’язування задач безумовної мінімізації / О.П. Гнатишин , С.М. Шахно // Вісник Львів. ун-ту . – 2003. – Серія: Прикладна математика та інформатика. – Вип. 6. – С. 28–35.
  3. Singpurwalla N.D. Reliability Analysis using Weibull Lifetime Data and Expert Opinion / N.D. Singpurwalla and S.S. Mao // IEEE Transactions on Reliability . – 1988. – R–37; 3; 340–347.