В работе исследуется возможность применения нейронных сетей для попиксельного выделения целевых артефактов на разных типах документов. Многочисленные типы нейронных сетей часто применяются для обработки документов – от анализов текста до выделения определенных зон, где может содержаться искомая информация. Однако сегодня нет совершенных систем по обработке документов, которые могут работать автономно, компенсируя человеческие ошибки, появляющиеся в процессе работы из-за стресса, усталости и многих других причин. В настоящей работе акцент сделан на поиске и выделении целевых артефактов на чертежах в условиях малого количества первоначальных данных. Предложенный метод поиска и выделения артефактов на изображении состоит из двух основных частей: детектирования и семантической сегментации детектируемой области. В основе метода лежит обучение с учителем на размеченных данных для двух сверточных нейронных сетей. Первая сверточная сеть используется для детектирования области с артефактом, в данном примере за основу была взята YoloV4. Для семантической сегментации применяется архитектура U-Net, где основой является предобученная Efficientnetb0. При комбинации этих нейронных сетей были достигнуты хорошие результаты даже для выделения определенных рукописных текстов, без использования для этого специфики построения нейросетевых моделей для распознавания текстов. Данный метод может применяться для поиска и выделения артефактов в больших наборах данных, при этом сами артефакты могут быть разными по форме, цвету и типу, при этом они могут располагаться в разных местах изображения, иметь или не иметь пересечения с другими объектами.
1. Bochkovskiy A., Wang C.-Y., Liao H.-Y.M. YOLOv4: Optimal speed and accuracy of object detection. – arXiv preprint arXiv:2004.10934 [cs, eess]. – 2020.
2. Microsoft COCO: common objects in context / T.-Y. Lin, M. Maire, S. Belongie, L. Bourdev, R. Girshick, J. Hays, P. Perona, D. Ramanan, C.L. Zitnick, P. Dollár. – arXiv preprint arXiv:1405.0312 [cs]. – 2015.
3. Tan M., Pang R., Le Q.V. EfficientDet: scalable and efficient object detection. – arXiv preprint arXiv:1911.09070 [cs, eess]. – 2020.
4. Focal loss for dense object detection / T.-Y. Lin, P. Goyal, R. Girshick, K. He, P. Dollár. – arXiv preprint arXiv:1708.02002 [cs]. – 2018.
5. Mask R-CNN / K. He, G. Gkioxari, P. Dollár, R. Girshick. – arXiv preprint arXiv:1703.06870 [cs]. – 2018.
6. Makarychev K., Reddy A., Shan L. Improved guarantees for k-means++ and k-means++ parallel. – arXiv preprint arXiv:2010.14487 [cs]. – 2020.
7. tf.keras.layers.Concatenate // TensorFlow Core v2.7.0. – URL: https://www.tensorflow.org/api_docs/python/tf/keras/layers/Concatenate?hl=ru (accessed: 29.11.2021).
8. Image segmentation with Monte Carlo Dropout UNET and Keras // 42: A blog on A.I. – 2019. – 30 October. – URL: https://nchlis.github.io/2019_10_30/page.html (accessed: 29.11.2021).
9. Ronneberger O., Fischer P., Brox T. U-Net: convolutional networks for biomedical image segmentation. – arXiv preprint arXiv:1505.04597 [cs]. – 2015.
10. Tan M., Le Q.V. EfficientNet: rethinking model scaling for convolutional neural networks. – arXiv preprint arXiv:1905.11946 [cs, stat]. – 2020.
11. tf.keras.layers.Conv2D | TensorFlow Core v2.7.0. – URL: https://www.tensorflow.org/api_docs/python/tf/keras/layers/Conv2D (accessed: 29.11.2021).
12. tf.keras.layers.BatchNormalization | TensorFlow Core v2.7.0. – URL: https://www.tensorflow.org/api_docs/python/tf/keras/layers/BatchNormalization?hl=ru (accessed: 29.11.2021).
13. tf.keras.activations.relu | TensorFlow Core v2.7.0. – URL: https://www.tensorflow.org/api_docs/python/tf/keras/activations/relu?hl=ru (accessed: 29.11.20211).
14. tf.keras.layers.UpSampling2D | TensorFlow Core v2.7.0. – URL: https://www.tensorflow.org/api_docs/python/tf/keras/layers/UpSampling2D?hl=ru (accessed: 29.11.2021).
15. Deep Residual Learning for Image Recognition / K. He, X. Zhang, Sh.Ren, J. Sun. – arXiv preprint arXiv:1512.03385 [cs]. – 2015.
16. Densely connected convolutional networks / G. Huang, Z. Liu, Maaten L. van der, K.Q. Weinberger . – arXiv preprint arXiv:1608.06993 [cs]. – 2018.
17. MnasNet: platform-aware neural architecture search for mobile / M. Tan, B. Chen, R. Pang, V. Vasudevan, M. Sandler, A. Howard, Q.V. Le. – arXiv preprint arXiv:1807.11626 [cs]. – 2019.
18. MobileNetV2: inverted residuals and linear bottlenecks / M. Sandler, A. Howard, M. Zhu, A. Zhmoginov, L. Chen. – arXiv preprint arXiv:1801.04381 [cs]. – 2019.
19. Papers with Code – CEDAR Signature Dataset. – URL: https://paperswithcode.com/dataset/cedar-signature (accessed: 29.11.2021).
20. Abdallah A., Hamada M., Nurseitov D. Attention-based fully gated CNN-BGRU for Russian handwritten text // Journal of Imaging. – 2020. – Vol. 6, N 12. – P. 141.
21. GitHub – openvinotoolkit/cvat: powerful and efficient computer vision annotation tool (CVAT). – URL: https://github.com/openvinotoolkit/cvat (accessed: 29.11.2021).
22. Pokhrel S. Image data labelling and annotation – everything you need to know. – URL: https://towardsdatascience.com/image-data-labelling-and-annotation-everything-you-need-to-know-86ede6c684b1 (accessed: 29.11.2021).
23. GitHub – AlexeyAB/darknet: YOLOv4 / Scaled-YOLOv4 / YOLO – Neural Networks for Object Detection (Windows and Linux version of Darknet). – URL: https://github.com/AlexeyAB/darknet (accessed: 29.11.2021).
24. Yohanandan S. mAP (mean Average Precision) might confuse you! – URL: https://towardsdatascience.com/map-mean-average-precision-might-confuse-you-5956f1bfa9e2 (accessed: 29.11.2021).
25. Module: tf.keras | TensorFlow Core v2.7.0. – URL: https://www.tensorflow.org/api_docs/python/tf/keras?hl=ru (accessed: 29.11.2021).
26. tf.keras.optimizers.Adam | TensorFlow Core v2.7.0. – URL: https://www.tensorflow.org/api_docs/python/tf/keras/optimizers/Adam?hl=ru (accessed: 29.11.2021).
27. Zulkifli H. Understanding learning rates and how it improves performance in deep learning. – URL: https://towardsdatascience.com/understanding-learning-rates-and-how-it-improves-performance-in-deep-learning-d0d4059c1c10 (accessed: 29.11.2021).
28. Segmentation models Python API – segmentation models 0.1.2 documentation. – URL: https://segmentation-models.readthedocs.io/en/latest/api.html#losses (accessed: 29.11.2021).
29. tf.keras.metrics.MeanIoU | TensorFlow Core v2.7.0. – URL: https://www.tensorflow.org/api_docs/python/tf/keras/metrics/MeanIoU?hl=ru (accessed: 29.11.2021).
Представленные результаты исследований были выполнены в рамках бюджетной темы № 0073-2019-0005 (2019–2021).
Китенко А.М. Метод поиска и разметки артефактов на изображениях с использованием алгоритмов детекции и сегментации // Системы анализа и обработки данных. – 2021. – № 4 (84). – С. 7–18. – DOI: 10.17212/2782-2001-2021-4-7-18.
Kitenko A.M. Metod poiska i razmetki artefaktov na izobrazheniyakh s ispol'zovaniyem algoritmov detektsii i segmentatsii [A method of searching and marking artifacts in images applying detection and segmentation algorithms]. Sistemy analiza i obrabotki dannykh = Analysis and Data Processing Systems, 2021, no. 4 (84), pp. 7–18. DOI: 10.17212/2782-2001-2021-4-7-18.