При решении задач трансформации и анализа информации важным этапом является предварительная обработка данных. В системах обработки и анализа данных, поступающих от различных источников, особенно при невысоком уровне автоматизации процессов сбора данных
и неполном охвате оборудования системами мониторинга, наборы данных, как правило, содержат большое количество пропущенных значений, а также могут содержать выбросы и ошибки формата. Исключение записей или признаков с большим относительным количеством пропущенных значений может привести к слишком высоким потерям данных. В задачах оценки технического состояния оборудования дополнительной особенностью, не позволяющей исключать большое количество записей, является несбалансированность классов, так как записей, относящихся к неудовлетворительному техническому состоянию, на 1–2 порядка меньше, чем относящихся к удовлетворительному и хорошему состоянию. Поэтому актуальной является разработка методов, позволяющих при предварительной обработке сохранять как можно больший объем исходных данных. В качестве примера рассмотрена оценка технического состояния силовых маслонаполненных трансформаторов. Наличие множества методов диагностики, которые основаны на учете процессов различной физической природы, требует агрегированного анализа данных. В качестве алгоритма предварительной обработки данных предложен итерационный алгоритм выбора признаков и заполнения пропущенных значений. Алгоритм позволил повысить степень заполненности с 75 до 94 %. Таким образом, количество пропусков, которые потребовалось заполнить синтетическими значениями, сократилось в 2,5 раза. Обработанная выборка данных была использована для построения моделей машинного обучения, выполняющих
классификацию технического состояния трансформаторов. Для учета многоклассовости и несбалансированности выборки использовано построение двух последовательных классификаторов. Итоговая точность классификации по метрике F1 составила 83 %.
1. Davidenko I.V., Ovchinnikov K.V. Identification of transformer defects via analyzing gases dissolved in oil // Russian Electrical Engineering. – 2019. – Vol. 90 (4). – P. 338–343. – DOI: 10.3103/S1068371219040035.
2. Hybrid DGA Method for power transformer faults diagnosis based on evolutionary k-means clustering and dissolved gas subsets analysis / A. Nanfak, S. Eke, F. Meghnefi, I. Fofana, G.M. Ngaleu, C.H. Kom // IEEE Transactions on Dielectrics and Electrical Insulation. – 2023. – Vol. 30 (5). – P. 2421–2428. – DOI: 10.1109/TDEI.2023.3275119.
3. Deep machine learning-based asset management approach for oil-immersed power transformers using dissolved gas analysis / L. Jin, D. Kim, K.Y. Chan, A. Abu-Siada // IEEE Access. – 2024. – Vol. 12. – P. 27794–27809. – DOI: 10.1109/ACCESS.2024.3366905.
4. Misbahulmunir S., Ramachandaramurthy V.K., Thayoob Y.H.M. Improved self-organizing map clustering of power transformer dissolved gas analysis using inputs pre-processing // IEEE Access. – 2020. – Vol. 8. – P. 71798–71811. – DOI: 10.1109/ACCESS.2020.2986726.
5. Identification and application of machine learning algorithms for transformer dissolved gas analysis / U.M. Rao, I. Fofana, K.N.V.P.S. Rajesh, and P. Picher// IEEE Transactions on Dielectrics and Electrical Insulation. – 2021. – Vol. 28 (5). – P. 1828–1835. – DOI: 10.1109/TDEI.2021.009770.
6. Hussain M.R., Refaat S.S., Abu-Rub H. Overview and partial discharge analysis of power transformers: a literature review // IEEE Access. – 2021. – Vol. 9. – P. 64587–64605. – DOI: 10.1109/ACCESS.2021.3075288.
7. Fanchiang K.-H., Huang Y.-C., Kuo C.-C. Power electric transformer fault diagnosis based on infrared thermal images using wasserstein generative adversarial networks and deep learning classifier // Electronics. – 2021. – Vol. 10 (10). – P. 1161. – DOI: 10.3390/electronics10101161.
8. Review of transformer health index from the perspective of survivability and condition assessment / S. Li, X. Li, Y. Cui, H. Li // Electronics. – 2023. – Vol. 12 (11). – P. 2407. – DOI: 10.3390/electronics12112407.
9. Deep learning in high voltage engineering: a literature review / S. Mantach, A. Lutfi, H. Moradi Tavasani, A. Ashraf, A. El-Hag, B. Kordi // Energies. – 2022. – Vol. 15 (14). – P. 5005. – DOI: 10.3390/en15145005.
10. Хальясмаа А.И., Матренин П.В., Ерошенко С.А. Оценка технического состояния силовых трансформаторов с использованием методов объяснимого искусственного интеллекта // Проблемы региональной энергетики. – 2024. – № 4 (64). – С. 1–9. – DOI: 10.52254/1857-0070.2024.4-64.01.
11. Contributions to monitoring the condition of substations / D. Sacerdotianu, F. Lazarescu, I. Hurezeanu, A.-M. Aciu, M. Nicola, I. Purcaru, A. Albita // Proceedings of the 2019 8th International Conference on Modern Power Systems (MPS), Cluj-Napoca, Cluj, Romania. – IEEE, 2019. – P. 1–6. – DOI: 10.1109/MPS.2019.8759689.
12. Power intelligent operation and maintenance system / Y. Ou, Z. Yan, T. Xie, N. Xi, H. Xie, X. Hu // Proceedings of the 2023 International Conference on Internet of Things, Robotics and Distributed Computing (ICIRDC), Rio De Janeiro, Brazil. – IEEE, 2023. – P. 23–27. – DOI: 10.1109/ICIRDC62824.2023.00010.
13. Power transformer fault diagnosis using neural network optimization techniques / V. Rokani, S.D. Kaminaris, P. Karaisas, D. Kaminaris // Mathematics. – 2023. – Vol. 11 (22). – P. 4693. – DOI: 10.3390/math11224693.
14. First measurement campaign by a multi-sensor robot for the lifecycle monitoring of transformers / J. Waikat, A. Jelidi, S. Lic, G. Sopidis, O. Kähler, A. Maly, J. Pestana, F. Fuhrmann, F. Belavic // Energies. – 2024. – Vol. 17 (5). – P. 1152. – DOI: 10.3390/en17051152.
15. Condition assessment of power transformers through DGA measurements evaluation using adaptive algorithms and deep learning / D.A. Barkas, S.D. Kaminaris, K.K. Kalkanis, G.Ch. Ioannidis, C.S. Psomopoulos // Energies. – 2023. – Vol. 16 (1). – P. 54. – DOI: 10.3390/en16010054.
16. Ma H., Ekanayake C., Saha T.K. Power transformer fault diagnosis under measurement originated uncertainties // IEEE Transactions on Dielectrics and Electrical Insulation. – 2012. – Vol. 19 (6). – P. 1982–1990. – DOI: 10.1109/TDEI.2012.6396956.
17. Khalyasmaa A., Senyuk M., Eroshenko S. Analysis of the state of high-voltage current transformers based on gradient boosting on decision trees // IEEE Transactions on Power Delivery and Electical Insulation. – 2021. – Vol. 36 (4). – P. 2154–2163. – DOI: 10.1109/TPWRD.2020.3021702.
18. Data mining applied to decision support systems for power transformers’ health diagnostics / A.I. Khalyasmaa, P.V. Matrenin, S.A. Eroshenko, V.Z. Manusov, A.M. Bramm, A.M. Romanov // Mathematics. – 2022. – Vol. 10 (14). – P. 2486. – DOI: 10.3390/math10142486.
19. Zhou Y., Arya S., Bouadjenek M.R. A comprehensive review of handling missing data: exploring special missing mechanisms // ArXiv. – 2024. – URL: https://arxiv.org/html/2404.04905v1 (accessed: 21.05.2025).
20. Data imputation for multivariate time series sensor data with large gaps of missing data / R. Wu, S.D. Hamshaw, L. Yang, D.W. Kincaid, R. Etheridge, A. Ghasemkhani // IEEE Sensors Journal. – 2022. – Vol. 22 (11). – P. 10671–10683. – DOI: 10.1109/JSEN.2022.3166643.
21. Multi-type missing imputation of time-series power equipment monitoring data based on moving average filter–asymmetric denoising autoencoder / L. Jiang, J. Gu, X. Zhang, L. Hua, Y. Cai // Sensors. – 2023. – Vol. 23 (24). – P. 9697. – DOI: 10.3390/s23249697.
22. Scikit-Learn libraries. – URL: https://scikit-learn.org/stable/supervised_learning.html#supervised-learning (accessed: 21.05.2025).
23. XGBoost. – URL: https://github.com/dmlc/xgboost (accessed: 21.05.2025).
24. CatBoost. – URL: https://github.com/catboost (accessed: 21.05.2025).
Работа выполнена в рамках государственного задания при финансовой поддержке Министерства науки и высшего образования Российской Федерации (тема № FEUZ-2025-0005.
Разработка моделей и методов объяснимого искусственного интеллекта для повышения надежности и безопасности внедрения распределенных интеллектуальных систем на объектах электроэнергетики).
Хальясмаа А.И. Метод анализа данных на основе итерационной предварительной обработки и ансамблевых моделей для классификации технического состояния силовых транс-форматоров // Системы анализа и обработки данных. – 2025. – № 2 (98). – С. 93–110. –
DOI: 10.17212/2782-2001-2025-2-93-110.
Khalyasmaa A.I. Metod analiza dannykh na osnove iteratsionnoi predvari-tel'noi obrabotki i ansamblevykh modelei dlya klassifi-katsii tekhnicheskogo sostoyaniya silovykh transformatorov [A data analysis method based on iterative preprocessing and ensemble models for classifying the technical condition of power transformers]. Sistemy analiza i obrabotki dannykh = Analysis and Data Processing Systems, 2025, no. 2 (98), pp. 93–110. DOI: 10.17212/2782-2001-2025-2-93-110.