с 01.01.2023 по 01.01.2024
Томск, Томская область, Россия
В статье представлены результаты проверки гипотезы о влиянии типа датасета (отдельные рубрики новостей vs их совокупность) на качество автоматической генерации заголовков новостных статей. Актуальность работы обусловлена высокой конкурентоспособностью СМИ в цифровом пространстве, где успех новостного агентства часто зависит от скорости публикации. На это, в свою очередь, во многом влияет использование технологий автоматической генерации текста новости в целом и его заголовка. Цель – проверить гипотезу: обучение модели RuGPT-3 на статьях отдельных рубрик и на их совокупности даст разные результаты в качестве генерируемого заголовка. Новизна работы: мы сравнили качество генерации на отдельных рубриках и их совокупности, в то время как большинство исследователей в этой сфере, как правило, обучают модели на всей совокупности сразу. Поставлена следующая задача: изучить влияние типов датасетов на качество генерируемых заголовков. Задача решалась с использованием модели RuGPT-3 на материале новостных статей корпуса Lenta.ru. Данные были организованы в три датасета: рубрики наука и спорт (по 6900 статей каждая), а также совокупность этих рубрик (6900 статей). В результате исследования гипотеза подтвердилась. Модель, обученная на совокупности рубрик, генерирует более качественные с точки зрения формальной метрики ROUGE заголовки, она достигла среднего значения F-мер 0,22 (против 0,174 на науке и 0,196 на спорте). Более того, в процедурах качественного анализа генерируемых заголовков было выявлено, что они обладают естественностью, соответствуют большинству правил эффективного заголовка (длина до 10 слов, предикативность, прошедшее время предиката, в основном действительный залог, отсутствие предлога или числа в начале, отсутствие относительных указателей времени), однако не всегда соотносятся с правилом о соответствии материалу. Статья имеет поисковый характер, перспективы исследования видятся в проведении дополнительных экспериментов с другими типами датасетов.
новость, новостной заголовок, автоматическая генерация, машинное обучение, модель RuGPT-3, нейронные сети, метрика ROUGE
1. Амзин А. А. Новостная интернет-журналистика. М.: Аспект Пресс, 2011. 142 с. https://elibrary.ru/sbfkaz
2. Ахмадулин Е. В. «Новость» как основа журнализма. Гуманитарный вектор. 2020. Т. 15. № 5. С. 149–154. https://doi.org/10.21209/1996-7853-2020-15-5-149-154
3. Белякова А. Ю., Беляков Ю. Д. Обзор задачи автоматической суммаризации текста. Инженерный вестник Дона. 2020. № 10. С. 142–159. https://elibrary.ru/ayyyfq
4. Головизнина В. С. Автоматическое реферирование текстов. Информационные технологии и нанотехнологии (ИТНТ-2022): VIII Междунар. конф. (Самара, 23–27 мая 2022 г.) Самара: Самарский ун-т, 2022. https://elibrary.ru/evsbxc
5. Горбачев А. Д., Синицын А. В. Сравнительный анализ алгоритмов суммаризации текста для проектирования и разработки программного комплекса. Развитие современной науки и технологий в условиях трансформационных процессов: XI Междунар. науч.-практ. конф. (Москва, 12 мая 2023 г.) СПб.: Печатный цех, 2023. С. 43–52. https://elibrary.ru/nonvjs
6. Дорош М., Райковский Д. И., Пугин К. В. Задача суммаризации текста. Инновации. Наука. Образование. 2022. № 49. С. 2036–2044. https://elibrary.ru/znzfhc
7. Дьякова Т. В. Основные принципы и структура новостных сообщений. Lingua mobilis. 2011. № 2. С. 102–105. https://elibrary.ru/rodaws
8. Жигалов А. Ю., Гришина Л. С., Болодурина И. П. Исследование моделей искусственного интеллекта для автоматического аннотирования и реферирования текстов. Цифровые технологии в образовании, науке, обществе: XVII Всерос. науч.-практ. конф. (Петрозаводск, 22–24 ноября 2023 г.) Петрозаводск: ПетрГУ, 2023. С. 36–38. https://elibrary.ru/tugzpu
9. Иванова С. В. Новость как дискурсивный жанр: не отсутствующая структура. Terra Linguistica. 2022. Т. 13. № 3. С. 7–14. https://doi.org/10.18721/JHSS.13301
10. Колесниченко А. В. Практическая журналистика. 3-е изд. М.: Московский ун-т, 2020. 191 с.
11. Коротких Е. Г., Носенко Н. В. Семантико-прагматическая компрессия текста в обучении английскому языку для специальных целей. Современные проблемы науки и образования. 2021. № 2. https://doi.org/10.17513/spno.30665
12. Макушин А. Б. Современная трактовка понятия новости в условиях медиаконвергенции. Вестник Кемеровского государственного университета. 2014. № 2-2. C. 187–189. https://elibrary.ru/smmxjz
13. Сорокина С. Г. Интеллектуальная обработка текстовой информации: обзор автоматизированных методов суммаризации. Виртуальная коммуникация и социальные сети. 2024a. T. 3. № 3. С. 203–222. https://doi.org/10.21603/2782-4799-2024-3-3-203-222
14. Сорокина С. Г. Особенности применения технологии автоматической суммаризации к научным публикациям. Три «Л» в парадигме современного гуманитарного знания: лингвистика, литературоведение, лингводидактика: Всерос. науч.-практ. конф. (Москва, 23 ноября 2023 г.) М.: Языки Народов Мира, 2024b. С. 132–138. https://elibrary.ru/duydpi
15. Троицкий Ю. Л. Новости как литература: об одной экспериментальной практике. Новый филологический вестник. 2017. № 3. С. 52–59. https://elibrary.ru/yllsqd
16. Шевчук А. А. Автоматическая генерация новостных заголовков с применением нейронной сети encoder-decoder. Актуальные проблемы лингвистики и литературоведения: VI (XX) Междунар. конф. (Томск, 18–19 апреля 2019 г.) Томск: ООО СТТ, 2020. С. 100–101. https://elibrary.ru/oqgvly
17. Abualigah L., Bashabsheh M. Q., Alabool H., Shehab M. Text summarization: A brief review. Recent advances in NLP: The case of arabic language, eds. Abd Elaziz M., Al-qaness M. A. A., Ewees A. A., Dahou A. Cham: Springer, 2020, 1–15. https://doi.org/10.1007/978-3-030-34614-0_1
18. Alami N., Mallahi M. E., Amakdouf H., Qjidaa H. Hybrid method for text summarization based on statistical and semantic treatment. Multimedia Tools and Applications, 2021, 80(13): 19567–19600. https://doi.org/10.1007/s11042-021-10613-9
19. Bao G., Zhang Y. A general contextualized rewriting framework for text summarization. IEEE/ACM Transactions on Audio Speech and Language Processing, 2023, 31: 1624–1635. https://doi.org/10.1109/TASLP.2023.3268569
20. Chen D., Ma S., Harimoto K., Bao R., Su Q., Sun X. Group, extract and aggregate: Summarizing a large amount of finance news for forexmovement prediction. Proceedings of the Second Workshop on Economics and Natural Language Processing, eds. Hahn U., Hoste V., Zhang Z. Hong Kong: Association for Computational Linguistics, 2019, 41–50. https://doi.org/10.18653/v1/D19-5106
21. Gupta A., Chugh D., Anjum, Katarya R. Automated news summarization using transformers. Sustainable advanced computing, eds. Aurelia S., Hiremath S. S., Subramanian K., Biswas S. Kr. Springer, 2022, 249–259. https://doi.org/10.1007/978-981-16-9012-9_21
22. Hayatin N., Ghufron K. M., Wicaksono G. W. Summarization of COVID-19 news documents deep learning-based using transformer architecture. TELKOMNIKA. Telecommunication Computing Electronics and Control, 2021, 19(3): 754–761. https://doi.org/10.12928/TELKOMNIKA.v19i3.18356
23. Jalil Z., Nasir J. A., Nasir M. Extractive multi-document summarization: A review of progress in the last decade. IEEE Access, 2021, 9: 130928–130946. https://doi.org/10.1109/ACCESS.2021.3112496
24. Jiang J., Zhang H., Dai C., Zhao Q., Feng H., Ji Z., Ganchev I. Enhancements of attention-based bidirectional LSTM for hybrid automatic text summarization. IEEE Access, 2021, 9: 123660–123671. https://doi.org/10.1109/ACCESS.2021.3110143
25. Kumari N., Sharma N., Singh P. Performance of optimizers in text summarization for news articles. Procedia Computer Science, 2023, 218: 2430–2437. https://doi.org/10.1016/j.procs.2023.01.218
26. Ma T., Pan Q., Rong H., Qian Y., Tian Y., Al-Nabhan N. T-BERTSum: Topic-aware text summarization based on bert. IEEE Transactions on Computational Social Systems, 2022, 9(3): 879–890. https://doi.org/10.1109/TCSS.2021.3088506
27. Muniraj P., Sabarmathi K. R., Leelavathi R., Balaji S. HNTSumm: Hybrid text summarization of transliterated news articles. International Journal of Intelligent Networks, 2023, 4: 53–61. https://doi.org/10.1016/j.ijin.2023.03.001
28. Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., Gomez A. N., Kaiser Ł., Polosukhin I. Attention is all you need. 31st International Conference on Neural Information Processing Systems (NIPS'17): Proc. Conf., Long Beach, 4–9 Dec 2017. NY: Curran Associates, 2017, 6000–6010. https://doi.org/10.48550/arXiv.1706.03762
29. Yadav A. K., Ranvijay, Yadav R. S., Maurya A. K. Graph-based extractive text summarization based on single document. Multimedia Tools and Applications, 2024, 83(7): 18987–19013. https://doi.org/10.1007/s11042-023-16199-8
30. Yao K., Zhang L., Du D., Luo T., Tao L., Wu Y. Dual encoding for abstractive text summarization. IEEE Transactions on Cybernetics, 2020, 50(3): 985–996. https://doi.org/10.1109/TCYB.2018.2876317
31. Zhou H., Ren W., Liu G., Su B., Lu W. Entity-aware abstractive multi-document summarization. Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021, eds. Zong Ch., Xia F., Li W., Navigli R. Stroudsburg: Association for Computational Linguistics, 2021, 351–362. https://doi.org/10.18653/v1/2021.findings-acl.30