Надіслати статтю
вул. Інститутська 11, м. Хмельницький, 29016

МЕТОД ПОБУДОВИ АНСАМБЛІВ МОДЕЛЕЙ ДЛЯ КЛАСИФІКАЦІЇ ДАНИХ НА ОСНОВІ КОРЕЛЯЦІЙНИХ ЗВ’ЯЗКІВ РІШЕНЬ

METHOD OF BUILDING ENSEMBLES OF MODELS FOR DATA CLASSIFICATION BASED ON DECISION CORRELATIONS

Сторінки: 224-233. Номер: №6, 2022 (315) 
Автори:
СТЕБЕЛЕЦЬКИЙ Мирослав
Хмельницький національний університет
ORCID ID: 0000-0001-7084-8400
e-mail: myroslav.stebeletskyi@gmail.com
МАНЗЮК Едуард
Хмельницький національний університет
ORCID ID: 0000-0002-7310-2126
e-mail:  eduard.em.km@gmail.com
СКРИПНИК Тетяна
Хмельницький національний університет
ORCID ID: 0000-0002-8531-5348
e-mail:  tkskripnik1970@gmail.com
БАГРІЙ Руслан
Хмельницький національний університет
ORCID ID: 0000-0001-5219-1185
e-mail: bahriiro@khmnu.edu.ua
STEBELETSKYI Myroslav, MANZIUK Eduard, SKRYPNYK Tetyana, BAHRIY Ruslan
Khmelnytskyi National University
DOI: https://www.doi.org/10.31891/2307-5732-2022-315-6-224-233

Анотація мовою оригіналу

У науковій роботі висвітлюється проблема підвищення точності передбачень бінарної класифікації із використанням  алгоритмів машинного навчання. Основою інформаційної системи бінарної класифікації виступає ансамблева модель. Ця модель, в свою чергу, містить набір унікальних комбінацій базових класифікаторів – свого роду алгоритмічні примітиви. Ансамблева модель може розглядатись як деякий мета-алгоритм, який складається із унікальних наборів алгоритмів класифікації машинного навчання (ML). Завданням ансамблевої моделі являється знаходження такої комбінації базових алгоритмів класифікації, яка б давала найвищі показники результативності. Результативність оцінюється згідно  з основними метриками ML у завданнях класифікації. Іншим аспектом наукової роботи є створення агрегаційного механізму задля поєднання результатів базових алгоритмів класифікації. Тобто кожна унікальна комбінація  у середині ансамблю складається із набору базових моделей (передвісників), результати яких потрібно агрегувати. У даній роботі задля агрегування (усереднення) передбачень базових моделей використовується неієрархічний метод кластеризації. Особливістю цього дослідження є знаходження коефіцієнтів кореляцій базових моделей у кожній комбінації. За допомогою величини кореляцій встановлюється залежність між передбаченням класифікатора (базова модель) та істинним значенням, в результаті чого відкривається простір для подальших досліджень щодо покращення ансамблевої моделі (мета-алгоритму).
Ключові слова: підвищення точності, бінарна класифікація, ансамблева модель, інформаційна система, машинне навчання, коефіцієнт кореляції, унікальна комбінація, модель, алгоритм класифікації.

Розширена анотація англійською  мовою

The scientific work highlights the problem of increasing the accuracy of binary classification predictions using machine learning algorithms. Over the past few decades, systems that consist of many machine learning algorithms, also called ensemble models, have received increasing attention in the computational intelligence and machine learning community. This attention is well deserved, as ensemble systems have proven to be very effective and extremely versatile in a wide range of problem domains and real-world applications. One algorithm may not make a perfect prediction for a particular data set. Machine learning algorithms have their limitations, so creating a model with high accuracy is a difficult task. If you create and combine several models by combining and aggregating the results of each model, there is a chance to improve the overall accuracy, this problem is dealt with by ensembling. The basis of the information system of binary classification is the ensemble model. This model, in turn, contains a set of unique combinations of basic classifiers – a kind of algorithmic primitives. An ensemble model can be considered as some kind of meta-algorithm, which consists of unique sets of machine learning (ML) classification algorithms. The task of the ensemble model is to find such a combination of basic classification algorithms that would give the highest performance. The performance is evaluated according to the main ML metrics in classification tasks.
Another aspect of scientific work is the creation of an aggregation mechanism for combining the results of basic classification algorithms. That is, each unique combination within the ensemble consists of a set of basic models (harbingers), the results of which must be aggregated. In this work, a non-hierarchical clustering method is used to aggregate (average) the predictions of the base models. A feature of this study is to find the correlation coefficients of the base models in each combination. With the help of the magnitude of correlations, the relationship between the prediction of the classifier (base model) and the true value is established, as a result of which space is opened for further research on improving the ensemble model (meta-algorithm)
Keywords: accuracy improvement, binary classification, ensemble model, information system, machine learning, correlation coefficient, unique combination, model, classification algorithm.

Література

  1. Conroy B., Eshelman L., Potes C., Xu-Wilson M. A dynamic ensemble approach to robust classification in the presence of missing data. Machine Learning. 2017. P. 443-463.
  2. Gomes H. M., Barddal J. P., Enembreck F. and Bifet A. A survey on ensemble learning for data stream classification. ACM Computing Surveys (CSUR). 2017. P. 23.
  3. Bogdan Zagajewski, Marcin Kluczek, Edwin Raczko, Ajda Njegovec, Anca Dabija and Marlena Kycko. Comparison of Random Forest Support Vector Machines and Neural Networks for Post-Disaster Forest Species Mapping of the Krkono. Remote Sensing. Volume 13, № 13. P. 2581.
  4. Domingos P., Pazzani M. Beyond Independence: Conditions for the Optimality of the Simple Bayesian Classifier. Machine Learning 29. 2017. P. 103–130.
  5. Maudes J. J. Rodríguez and C. García-Osorio. Disturbing neighbors diversity for decision forests in Applications of supervised and unsupervised ensemble methods. Heidelberg:Springer. 2018. P. 113-133.
  6. Zhang C. X. and Zhang J. S. RotBoost: A technique for combining rotation forest and AdaBoost. Pattern Recognition Letters. Volume 29, № 10. P. 1524-1536.
  7. Kulkarni V. Y. and Sinha P. K. Random forest classifiers: A survey and future research directions. International Journal of Advanced Computer Technology. 2013. Volume 36, № 1. P. 1144-1153.
  8. Glenn V. Ostir. Logistic Regression: A Nontechnical Review. American Journal of Physical Medicine & Rehabilitation. 2016. Volume 6. P. 565-572.
  9. URL: https://www.python.org/doc/
  10. Bifet A., Holmes G., Pfahringer B., Kirkby R. and Gavaldà R. New ensemble methods for evolving data streams/ Proceedings of the 15th ACM SIGKDD international conference on knowledge discovery and data mining. 2019. P. 139-148.
  11. Jigui Sun, Jie Liu and Lianyu Zhao. Clustering algorithms Research, Journal of Software. 2014. Volume 19, № 1. P. 48-61.
  12. Hartigan J.A., Wong M.A. Algorithm AS. 136. A k-means clustering algorithm. J. Roy. Stat. Soc. 2021. P. 100-108.
  13. Danielsson P. E. Euclidean distance mapping/ Comput. Graphics Image Proc. 2019. Volume 14. P. 227-248.
  14. Ling C.X. and Zhang H. Toward Bayesian Classifiers with Accurate Probabilities/ Proc. Sixth Pacific-Asia Conf. Knowledge Discovery and Data Mining. 2012. P. 123-134.
  15. Dietterich T. G. Ensemble learning. In The handbook of brain theory and neural networks, Cambridge, MA:MIT Press. 2017. Volume 2. P. 110-125.
  16. Cover T. M. The Best Two Independent Measurements Are Not the Two Best/ IEEE Trans. Systems, Man, and Cybernetics. 2010. Volume P. 116-117.
  17. Коефіцієнт кореляції. URL: https://www.statisticshowto.com/probability-and-statistics/correlation-coefficient-formula/
  18. Bifet A., Frank E., Holmes G. and Pfahringer B. Accurate ensembles for data streams: Combining restricted Hoeffding trees using stacking/ Proceedings of 2nd Asian conference on machine learning. 2018. Volume 13. P. 225-240.

References

  1. Conroy B., Eshelman L., Potes C., Xu-Wilson M. A dynamic ensemble approach to robust classification in the presence of missing data. Machine Learning. 2017. P. 443-463.
  2. Gomes H. M., Barddal J. P., Enembreck F. and Bifet A. A survey on ensemble learning for data stream classification. ACM Computing Surveys (CSUR). 2017. P. 23.
  3. Bogdan Zagajewski, Marcin Kluczek, Edwin Raczko, Ajda Njegovec, Anca Dabija and Marlena Kycko. Comparison of Random Forest Support Vector Machines and Neural Networks for Post-Disaster Forest Species Mapping of the Krkono. Remote Sensing. Volume 13, № 13. P. 2581.
  4. Domingos P., Pazzani M. Beyond Independence: Conditions for the Optimality of the Simple Bayesian Classifier. Machine Learning 29. 2017. P. 103–130.
  5. Maudes J. J. Rodríguez and C. García-Osorio. Disturbing neighbors diversity for decision forests in Applications of supervised and unsupervised ensemble methods. Heidelberg:Springer. 2018. P. 113-133.
  6. Zhang C. X. and Zhang J. S. RotBoost: A technique for combining rotation forest and AdaBoost. Pattern Recognition Letters. Volume 29, № 10. P. 1524-1536.
  7. Kulkarni V. Y. and Sinha P. K. Random forest classifiers: A survey and future research directions. International Journal of Advanced Computer Technology. 2013. Volume 36, № 1. P. 1144-1153.
  8. Glenn V. Ostir. Logistic Regression: A Nontechnical Review. American Journal of Physical Medicine & Rehabilitation. 2016. Volume 6. P. 565-572.
  9. URL: https://www.python.org/doc/
  10. Bifet A., Holmes G., Pfahringer B., Kirkby R. and Gavaldà R. New ensemble methods for evolving data streams/ Proceedings of the 15th ACM SIGKDD international conference on knowledge discovery and data mining. 2019. P. 139-148. 11. Jigui Sun, Jie Liu and Lianyu Zhao. Clustering algorithms Research, Journal of Software. 2014. Volume 19, № 1. P. 48-61.
  11. Hartigan J.A., Wong M.A. Algorithm AS. 136. A k-means clustering algorithm. J. Roy. Stat. Soc. 2021. P. 100-108.
  12. Danielsson P. E. Euclidean distance mapping/ Comput. Graphics Image Proc. 2019. Volume 14. P. 227-248.
  13. Ling C.X. and Zhang H. Toward Bayesian Classifiers with Accurate Probabilities/ Proc. Sixth Pacific-Asia Conf. Knowledge Discovery and Data Mining. 2012. P. 123-134.
  14. Dietterich T. G. Ensemble learning. In The handbook of brain theory and neural networks, Cambridge, MA:MIT Press. 2017. Volume 2. P. 110-125.
  15. Cover T. M. The Best Two Independent Measurements Are Not the Two Best/ IEEE Trans. Systems, Man, and Cybernetics. 2010. Volume 4. P. 116-117.
  16. Koefitsiient koreliatsii. URL: https://www.statisticshowto.com/probability-and-statistics/correlation-coefficient-formula/
  17. Bifet A., Frank E., Holmes G. and Pfahringer B. Accurate ensembles for data streams: Combining restricted Hoeffding trees using stacking/ Proceedings of 2nd Asian conference on machine learning. 2018. Volume 13. P. 225-240.

Post Author: Горященко Сергій

Translate