Минск, Беларусь
В настоящее время одним из ключевых направлений в области анализа социальных медиа является извлечение и обработка метаданных для систематизации сведений о публикациях, авторах и вовлеченности аудитории. Целью исследования является разработка и тестирование веб-приложения OmniTrack, предназначенного для автоматизированного сбора корпуса метаданных русскоязычных и англоязычных публикаций о Республике Беларусь в тревел-блогах и их параметризации. Интеграция методов веб-скрейпинга, многоуровневой архитектуры и модульного подхода обеспечивает масштабируемость, воспроизводимость и расширяемость системы при изменении внешних интерфейсов платформ. Серверная часть реализована на языке Python с использованием фреймворка Flask; для взаимодействия с пользователем создан веб-интерфейс на HTML, CSS и JavaScript. Алгоритмы извлечения данных разработаны как независимые модули: для TikTok применена эмуляция браузера через undetected_chromedriver для обхода динамической отрисовки; для YouTube – библиотека yt_dlp для прямого получения JSON-метаданных; для Instagram – инструмент instaloader, обеспечивающий высокоуровневый доступ к объектной модели публикации. Собранные метаданные приведены к унифицированной схеме с сохранением в формате Excel при помощи библиотеки openpyxl, что обеспечивает удобство последующей статистической обработки. Приложение прошло юзабилити-тестирование: 42 участника обработали более 400 публикаций, оценив простоту установки, скорость работы и интуитивность интерфейса; средняя оценка удобства составила 4,9 балла из 5; выявлены и устранены критические ошибки, включая несовместимость backend-модуля pywebview и некорректную обработку сокращенных ссылок TikTok. Предложенное авторское веб-приложение OmniTrack обеспечивает создание репрезентативного корпуса метаданных, необходимого для последующего анализа дискурсивных, жанровых и коммуникативных особенностей русскоязычных и англоязычных тревел-блогов о Республике Беларусь.
веб-приложение, метаданные, социальные сети, веб-скрейпинг, автоматизация сбора данных
1. Жучкова С. В., Ротмистров А. Н. Автоматическое извлечение текстовых и числовых веб-данных для целей социальных наук. Социология: методология, методы, математическое моделирование. 2021. № 50-51. С. 141–183. https://elibrary.ru/xytjoy
2. Ahire V. Y. Assessing the effectiveness of metadata management systems in enhancing data governance: A primary study of IT and data-driven organizations. Management Journal for Advanced Research, 2025, 5(3): 85–90. https://doi.org/10.5281/zenodo.16792143
3. Berman F., Rutenbar R., Hailpern B., Christensen H., Davidson S., Estrin D., Franklin M., Martonosi M., Raghavan P., Stodden V., Szalay A. S. Realizing the potential of data science. Communications of the ACM, 2018, 61(4): 67–72. https://doi.org/10.1145/3188721
4. Brown M. A., Gruen A., Maldoff G., Messing S., Zanderson Z., Zimmer M. Web scraping for research: Legal, ethical, institutional, and scientific considerations. ArXiv, 2024. https://doi.org/10.48550/arXiv.2410.23432
5. Chani T., Olugbara O. O., Mutanga B. The problem of data extraction in social media: A theoretical framework. Journal of Information Systems and Informatics, 2023, 5(4): 1363–1384. https://doi.org/10.51519/journalisi.v5i4.585
6. Díaz de la Paz L., Crispí A. T., Mederos A. A. L. Model for the evaluation of metadata quality: Proposal for open science management in Cuba. Advanced Notes in Information Science, 2024, 6: 100–113. https://doi.org/10.47909/978-9916-9974-5-1.97
7. Edara P., Pasumansky M. Big metadata: When metadata is big data. Proceedings of the VLDB Endowment, 2021, 14(12): 3083–3095. https://doi.org/10.14778/3476311.3476385
8. Foerderer J. Should we trust web-scraped data? ArXiv, 2023. https://doi.org/10.48550/arXiv.2308.02231
9. Holom R.-M., Rafetseder K., Kritzinger S., Sehrschön H. Metadata management in a big data infrastructure. Procedia Manufacturing, 2020, 42: 375–382. https://doi.org/10.1016/j.promfg.2020.02.060
10. Huang Y.-N., Munteanu V., Love M. I., Ronkowski C. F., Deshpande D., Wong-Beringer A., Corbett-Detig R., Dimian M., Moore J. H., Garmire L. X., Reddy T. B. K., Butte A. J., Robinson M. D., Eskin E., Abedalthagafi M. S., Mangul S. Perceptual and technical barriers in sharing and formatting metadata accompanying omics studies. Cell Genomics, 2025, 5(5). https://doi.org/10.1016/j.xgen.2025.100845
11. Moreno-Ortiz A., García-Gámez M. Strategies for the analysis of large social media corpora: Sampling and keyword extraction methods. Corpus Pragmatics, 2023, 7: 241–265. https://doi.org/10.1007/s41701-023-00143-0
12. Ohme J., Araujo T., Boeschoten L., Freelon D., Ram N., Reeves B. B., Robinson T. N. Digital trace data collection for social media effects research: APIs, data donation, and (screen) tracking. Communication Methods and Measures, 2024, 18(2): 124–141. https://doi.org/10.1080/19312458.2023.2181319
13. Park J.-R., Tosaka Y. Metadata quality control in digital repositories and collections: Criteria, semantics, and mechanisms. Cataloging & Classification Quarterly, 2010, 48(8): 696–715. https://doi.org/10.1080/01639374.2010.508711
14. Park J.-R., Tosaka Y., Maszaros S., Lu C. From metadata creation to metadata quality control: Continuing education needs among cataloging and metadata professionals. Journal of Education for Library and Information Science, 2010, 51(3): 158–176.
15. Pretorius K. A simple and systematic approach to qualitative data extraction from social media for novice health care researchers: Tutorial. JMIR Formative Research, 2024, 8: 1–9. https://doi.org/10.2196/54407
16. Skluzacek T. J., Chen M., Hsu E., Chard K., Foster I. Models and metrics for mining meaningful metadata. International Conference on Computational Science. Computational Science – ICCS 2022: Proc. 22nd Intern. Conf., London, UK, 21–23 Jun 2022. Springer, 2022, 417–430.
17. Subramaniam P., Ma Y., Li C., Mohanty I., Fernandez R. C. Comprehensive and comprehensible data catalogs: The what, who, where, when, why, and how of metadata management. ArXiv, 2021. https://doi.org/10.48550/arXiv.2103.07532
18. Wilkinson M. D., Dumontier M., Aalbersberg I. J., Appleton G., Axton M., Baak A., Blomberg N., Boiten J.-W., da Silva Santos L. B., Bourne P. E., Bouwman J., Brookes A. J., Clark T., Crosas M., Dillo I., Dumon O., Edmunds S., Evelo C. T., Finkers R., Gonzalez-Beltran A., Gray A. J. G., Groth P., Grethe J. S., Mons B. The FAIR guiding principles for scientific data management and stewardship. Scientific Data, 2016, 3(1). https://doi.org/10.1038/sdata.2016.18
19. Yang W., Fu R., Bilal Amin M., Kang B. The impact of modern AI in metadata management. Human-Centric Intelligent Systems, 2025, 5: 323–350. https://doi.org/10.1007/s44230-025-00106-5
20. Yulfitri A., Sensuse D. I., Ulum M. B., Achmad Y. F. Metadata management to accelerate Big Data implementation. Journal of Informatics and Communication Technology, 2025, 6(2). https://doi.org/10.52661/jict.v6i2.362
21. Zachlod C., Samuel O., Ochsner A., Werthmüller S. Analytics of social media data – state of characteristics and application. Journal of Business Research, 2022, 144: 1064–1076. https://doi.org/10.1016/j.jbusres.2022.02.016




