В настоящей статье рассматривается проектирование системы сбора и предиктивного анализа социальных медиа. По мере развития сети Интернет, а также социальных медиа более простыми стали доступ и распространение информации, ведь сами пользователи сети являются одновременно создателями и получателями различной информации. Для получения новых знаний, которые могут быть полезны пользователям социальных медиа, возможно использование предиктивной (прогнозной) аналитики – комплекса методов статистического анализа, которые извлекают новую информацию из текущих и исторических данных. Такой метод анализа данных социальных медиа находится на стадии своего развития.
В основе предиктивной аналитики лежит автоматический поиск связей, аномалий и закономерностей между различными факторами. Для формирования прогнозной модели используется большой набор статистических методов моделирования, интеллектуальный анализ данных, машинное обучение, нейронные сети и другие механизмы. В совокупности с различными методами сбора информации с интернет-ресурсов, таких как парсинг и API социальных сетей, предиктивная аналитика может предлагать наиболее интересные для пользователя источники информации. Для того чтобы объединить методы предиктивного анализа и методы сбора данных, требуется внимательно отнестись к процессу проектирования системы.
В работе предложено формальное описание данных, которые использует будущая система. Помимо этого, выделены общая архитектура и алгоритм функционирования. Особое внимание обращено на подробное описание одной из основных частей системы (подсистемы сбора). Полученные результаты будут использоваться при дальнейшем проектировании, планируется рассмотрение подсистемы аналитики. Последующая работа над темой позволит детализировать архитектуру и алгоритм функционирования.
1. Калытюк И.С. Разработка и исследование алгоритма извлечения данных геолокации в социальных сетях // Научное сообщество студентов XXI столетия. Технические науки. – 2018. – № 11 (70). – C. 39–44.
2. Калытюк И.С., Французова Г.А., Гунько А.В. К вопросу выбора методов предиктивного анализа данных социальных медиа // Автоматика и программная инженерия. – 2019. – № 4 (30). – C. 9–17.
3. Суханов А.А., Маратканов А.С. Анализ способов сбора социальных данных из сети Интернет // International Scientific Review. – 2017. – № 1 (32). – C. 22–25.
4. Social media analytics – challenges in topic discovery, data collection, and data preparation / S. Stieglitz, M. Mirbabaie, B. Ross, C. Neuberger // International Journal of Information Management. – 2018. – Vol. 39. – P. 156–168.
5. Низомутдинов Б.А., Тропников А.С., Углова А.Б. Автоматизированный сбор данных социальных сетей для разработки факторной модели сетевой самопрезентации // International Journal of Open Information Technologies. – 2020. – Т. 8, № 1. – C. 64–71.
6. Russell M.A. Mining the social Web. Data mining Facebook, Twitter, LinkedIn, Google+, GitHub, and more. – O'Reilly Media, 2013. – 448 p.
7. Чесноков В.О. Программное обеспечение сбора и анализа графов ближайшего окружения из онлайновых социальных сетей // Машиностроение и компьютерные технологии. – 2018. – № 8. – С. 34–44.
8. Мельник Э.В., Клименко А.Б. Применение концепции "туманных" вычислений при проектировании высоконадежных информационно-управляющих систем // Известия Тульского государственного университета. Технические науки. – 2020. – № 2. – С. 273–283.
9. Райнова О.Д. Решение задачи достижения наилучшего гарантированного результата поиска // Открытое образование. – 2006. – № 1. – С. 40–49.
10. Гранаткин Д.С., Галиаскаров Э.Г. Автоматизация сбора информации из открытых интернет-источников // Объектные системы. – 2016. – № 13. – С. 71–77.
11. Турков Е.С., Степанов Ю.А. Концептуальная модель модуля сбора данных о вакансиях для экспертной системы // Международный научно-исследовательский журнал. – 2020. – № 2-1 (92). – С. 75–78.
12. Gojare S., Joshi R., Gaigaware D. Analysis and design of selenium web driver automation testing framework // Procedia Computer Science. – 2015. – N 50. – P. 341–346.
13. Thomas D.M., Mathur S. Data analysis by web scraping using Python // 2019 3rd International Conference on Electronics, Communication and Aerospace Technology (ICECA). – Coimbatore, India, 2019. – P. 450–454.
14. Система идентификации информационных угроз на основе открытых данных сети интернет / Д.О. Маркин, С.М. Макеев, Н.В. Изотов, А.Ю. Андросов // Известия Тульского государственного университета. Технические науки. – 2020. – № 9. – С. 86–94.
15. Big Data: The management revolution / A. McAfee, E. Brynjolfsson, T. Davenport, D. Patil, D. Barton // Harvard Business Review. – 2012. – Vol. 90. – P. 66–67.
Калытюк И.С., Французова Г.А., Гунько А.В. Начальные этапы проектирования системы сбора и предиктивного анализа данных социальных медиа // Системы анализа и обработки данных. – 2021. – № 1 (81). – С. 73–84. – DOI: 10.17212/2782-2001-2021-1-73-84.
Kalytyuk I.S., Frantsuzova G.A., Gunko A.V. Nachal'nye etapy proektirovaniya sistemy sbora i prediktivnogo analiza dannykh sotsial'nykh media [Initial stages of designing a system for collecting and predictive analysis of social media data]. Sistemy analiza i obrabotki dannykh = Analysis and data processing systems, 2021, no. 1 (81), pp. 73–84. DOI: 10.17212/2782-2001-2021-1-73-84.