Генерация ключевых слов для русскоязычных научных текстов с помощью модели mT5

Анна Валерьевна Глазкова; Дмитрий Алексеевич Морозов; Марина Сергеевна Воробьева; Андрей Анатольевич Ступников

doi:10.18255/1818-1015-2023-4-418-428

Генерация ключевых слов для русскоязычных научных текстов с помощью модели mT5

Анна Валерьевна Глазкова, Дмитрий Алексеевич Морозов, Марина Сергеевна Воробьева, Андрей Анатольевич Ступников

https://doi.org/10.18255/1818-1015-2023-4-418-428

EDN: NJRIIF

Полный текст:

PDF (Rus) |

сгенерировать QR код

Аннотация

Авторами предлагается подход к генерации ключевых слов для русскоязычных научных текстов с помощью модели mT5 (multilingual text-to-text transformer), дообученнной на материале текстового корпуса Keyphrases CS&Math Russian. Автоматический подбор ключевых слов является актуальной задачей обработки естественного языка, поскольку ключевые слова помогают читателям осуществлять поиск статей и облегчают систематизацию научных текстов. В данной работе задача подбора ключевых слов рассматривается как задача автоматического реферирования текстов. Дообучение mT5 осуществлялась на текстах аннотаций русскоязычных научных статей. В качестве входных и выходных данных выступали тексты аннотаций и списки ключевых слов, разделенных запятыми, соответственно. Результаты, полученные с помощью mT5, были сравнены с результатами нескольких базовых методов: TopicRank, YAKE!, RuTermExtract, и KeyBERT. Для представления результатов использовались следующие метрики: F-мера, ROUGE-1, BERTScore. Лучшие результаты на тестовой выборке были получены с помощью mT5 и RuTermExtract. Наиболее высокое значение F-меры продемонстрировала модель mT5 (11.24 %), превзойдя RuTermExtract на 0.22 %. RuTermExtract показал лучший результат по метрике ROUGE-1 (15.12 %). Лучшие результаты по BERTScore также были достигнуты этими двумя методами: mT5 — 76.89 % (BERTScore, использующая модель mBERT), RuTermExtract — 75.8 % (BERTScore на основе ruSciBERT). Также авторами была оценена возможность mT5 генерировать ключевые слова, отсутствующие в исходном тексте. К ограничениям предложенного подхода относятся необходимость формирования обучающей выборки для дообучения модели и, вероятно, ограниченная применимость дообученной модели для текстов других предметных областей. Преимущества генерации ключевых слов с помощью mT5 — отсутствие необходимости задавать фиксированные значения длины и количества ключевых слов, необходимости проводить нормализацию, что особенно важно для флективных языков, и возможность генерировать ключевые слова, в явном виде отсутствующие в тексте.

Ключевые слова

автоматическое реферирование, подбор ключевых слов, mT5

MSC2020: 68T50

Об авторах

Анна Валерьевна Глазкова

Тюменский государственный университет;Институт проблем передачи информации РАН им. А. А. Харкевича
Россия

Дмитрий Алексеевич Морозов

Новосибирский национальный исследовательский государственный университет;Институт проблем передачи информации РАН им. А. А. Харкевича
Россия

Марина Сергеевна Воробьева

Тюменский государственный университет
Россия

Андрей Анатольевич Ступников

Тюменский государственный университет
Россия

Список литературы

1. N. S. Lagutina, K. V. Lagutina, A. S. Adrianov, and I. V. Paramonov, “Russian Language Thesauri: Automated Construction and Application For Natural Language Processing Tasks,” Modeling and Analysis of Information Systems, vol. 25, no. 4, pp. 435–458, 2018.

2. S. Beliga, “Keyword extraction: a review of methods and approaches.” 2014.

3. E. cCano and O. Bojar, “Keyphrase generation: A multi-aspect survey,” in 25th Conference of Open Innovations Association (FRUCT), 2019, pp. 85–94.

4. R. Campos, V. Mangaravite, A. Pasquali, A. Jorge, C. Nunes, and A. Jatowt, “YAKE! Keyword extraction from single documents using multiple local features,” Information Sciences, vol. 509, pp. 257–289, 2020.

5. S. R. El-Beltagy and A. Rafea, “KP-Miner: A keyphrase extraction system for English and Arabic documents,” Information systems, vol. 34, no. 1, pp. 132–144, 2009.

6. A. Bougouin, F. Boudin, and B. Daille, “TopicRank: Graph-based topic ranking for keyphrase extraction,” in International joint conference on natural language processing (IJCNLP), 2013, pp. 543–551.

7. R. Mihalcea and P. Tarau, “TextRank: Bringing order into text,” in Proceedings of the 2004 conference on empirical methods in natural language processing, 2004, pp. 404–411.

8. I. H. Witten, G. W. Paynter, E. Frank, C. Gutwin, and C. G. Nevill-Manning, “KEA: Practical automatic keyphrase extraction,” in Proceedings of the fourth ACM conference on Digital libraries, 1999, pp. 254–255.

9. M. Grootendorst, “KeyBERT: Minimal keyword extraction with BERT.” Zenodo, 2020, doi: 10.5281/zenodo.4461265.

10. F. Boudin and Y. Gallina, “Redefining Absent Keyphrases and their Effect on Retrieval Effectiveness,” in Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2021, pp. 4185–4193.

11. R. Meng, S. Zhao, S. Han, D. He, P. Brusilovsky, and Y. Chi, “Deep Keyphrase Generation,” in Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2017, pp. 582–592.

12. E. Cano and O. Bojar, “Keyphrase Generation: A Text Summarization Struggle,” in Proceedings of NAACL-HLT, 2019, pp. 666–672.

13. J. Zhao and Y. Zhang, “Incorporating linguistic constraints into keyphrase generation,” in Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 2019, pp. 5224–5233.

14. R. Liu, Z. Lin, and W. Wang, “Keyphrase Prediction With Pre-trained Language Model.” 2020.

15. M. Kulkarni, D. Mahata, R. Arora, and R. Bhowmik, “Learning Rich Representation of Keyphrases from Text,” in Findings of the Association for Computational Linguistics: NAACL 2022, 2022, pp. 891–906.

16. A. Vaswani et al., “Attention is All You Need,” in Proceedings of the 31st International Conference on Neural Information Processing Systems, 2017, pp. 6000–6010.

17. M. F. M. Chowdhury, G. Rossiello, M. Glass, N. Mihindukulasooriya, and A. Gliozzo, “Applying a Generic Sequence-to-Sequence Model for Simple and Effective Keyphrase Generation.” 2022.

18. A. V. Glazkova and D. A. Morozov, “Applying transformer-based text summarization for keyphrase generation,” Lobachevskii Journal of Mathematics, vol. 44, no. 1, pp. 123–136, 2023.

19. A. Glazkova and D. Morozov, “Multi-task fine-tuning for generating keyphrases in a scientific domain,” in IX International Conference on Information Technology and Nanotechnology (ITNT), 2023, pp. 1–5.

20. D. Wu, W. U. Ahmad, and K.-W. Chang, “Pre-trained Language Models for Keyphrase Generation: A Thorough Empirical Study.” 2022.

21. E. G. Sokolova and O. Mitrofanova, “Automatic Keyphrase Extraction by applying KEA to Russian texts,” in Computational linguistics and computing ontologies, 2017, pp. 157–165.

22. M. V. Sandul and E. G. Mikhailova, “Keyword extraction from single Russian document,” in Proceedings of the Third Conference on Software Engineering and Information Management, 2018, pp. 30–36.

23. E. Sokolova, A. Moskvina, and O. Mitrofanova, “Keyphrase Extraction from the Russian Corpus on Linguistics by Means of KEA and RAKE Algorithms,” in Data analytics and management in data-intensive domains, 2018, pp. 369–372.

24. O. A. Mitrofanova and D. A. Gavrilic, “Experiments on automatic keyphrase extraction in stylistically heterogeneous corpus of Russian texts,” Terra Linguistica, vol. 50, no. 4, pp. 22–40, 2022.

25. D. A. Morozov, A. V. Glazkova, M. A. Tyutyulnikov, and B. L. Iomdin, “Keyphrase Generation for Abstracts of the Russian-Language Scientific Articles,” NSU Vestnik. Series: Linguistics and Intercultural Communication, vol. 21, no. 1, pp. 54–66, 2023.

26. B. Koloski, S. Pollak, B. vSkrlj, and M. Martinc, “Extending Neural Keyword Extraction with TF-IDF tagset matching,” in Proceedings of the EACL Hackashop on News Media Content Analysis and Automated Report Generation, 2021, pp. 22–29.

27. D. Morozov and A. Glazkova, “Keyphrases CS&Math Russian.” Mendeley Data, 2022, doi: 10.17632/dv3j9wc59v.1.

28. L. Xue et al., “mT5: A Massively Multilingual Pre-trained Text-to-Text Transformer,” in Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2021, pp. 483–498.

29. K. Grashchenkov, A. Grabovoy, and I. Khabutdinov, “A Method of Multilingual Summarization For Scientific Documents,” in Ivannikov Ispras Open Conference (ISPRAS), 2022, pp. 24–30.

30. A. Gryaznov, R. Rybka, I. Moloshnikov, A. Selivanov, and A. Sboev, “Influence of the duration of training a deep neural network model on the quality of text summarization task,” AIP Conference Proceedings, vol. 2849, no. 1, p. 400006, 2023.

31. A. A. Pechnikov, “Comparative analysis of scientometrics indicators of journals Math-Net.ru and Elibrary.ru,” Vestnik Tomskogo gosudarstvennogo universiteta, no. 56, pp. 112–121, 2021.

32. Y. Kuratov and M. Arkhipov, “Adaptation of deep bidirectional multilingual transformers for Russian language,” in Komp'juternaja Lingvistika i Intellektual'nye Tehnologii, 2019, pp. 333–339.

33. C. Raffel et al., “Exploring the limits of transfer learning with a unified text-to-text transformer,” The Journal of Machine Learning Research, vol. 21, no. 1, pp. 5485–5551, 2020.

34. L. Page, S. Brin, R. Motwani, and T. Winograd, “The PageRank citation ranking: Bringing order to the web: Stanford InfoLab,” in Navigation, findability and the usage of cultural heritage on the web: an exploratory study, 1999, p. 1508503.

35. M. Korobov, “Morphological analyzer and generator for Russian and Ukrainian languages,” in Analysis of Images, Social Networks and Texts: 4th International Conference, AIST 2015, Yekaterinburg, Russia, April 9--11, 2015, Revised Selected Papers 4, 2015, pp. 320–332.

36. J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova, “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,” in Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), 2019, pp. 4171–4186.

37. F. Boudin, “PKE: an open source python-based keyphrase extraction toolkit,” in Proceedings of COLING 2016, the 26th international conference on computational linguistics: system demonstrations, 2016, pp. 69–73.

38. N. A. Gerasimenko, A. S. Chernyavsky, and M. A. Nikiforova, “ruSciBERT: a transformer language model for obtaining semantic embeddings of scientific texts in Russian,” in Doklady Mathematics, 2022, vol. 106, no. Suppl 1, pp. S95–S96.

39. C.-Y. Lin, “ROUGE: A package for automatic evaluation of summaries,” in Text summarization branches out, 2004, pp. 74–81.

40. T. Zhang, V. Kishore, F. Wu, K. Q. Weinberger, and Y. Artzi, “BERTScore: Evaluating Text Generation with BERT.” 2020.

Рецензия

Для цитирования:

Глазкова А.В., Морозов Д.А., Воробьева М.С., Ступников А.А. Генерация ключевых слов для русскоязычных научных текстов с помощью модели mT5. Моделирование и анализ информационных систем. 2023;30(4):418-428. https://doi.org/10.18255/1818-1015-2023-4-418-428. EDN: NJRIIF

For citation:

Glazkova A.V., Morozov D.A., Vorobeva M.S., Stupnikov A. Keyphrase generation for the Russian-language scientific texts using mT5. Modeling and Analysis of Information Systems. 2023;30(4):418-428. (In Russ.) https://doi.org/10.18255/1818-1015-2023-4-418-428. EDN: NJRIIF

Контент доступен под лицензией Creative Commons Attribution 4.0 License.

ISSN 1818-1015 (Print)
ISSN 2313-5417 (Online)

Логин
Пароль
	Запомнить меня

Войти

Моделирование и анализ информационных систем

Генерация ключевых слов для русскоязычных научных текстов с помощью модели mT5

Полный текст:

Аннотация

Ключевые слова

Об авторах

Список литературы

Рецензия

Для цитирования:

For citation:

Использование куки-файлов