Анализ влияния стилометрических характеристик разного уровня на верификацию авторов художественных произведений
https://doi.org/10.18255/1818-1015-2021-3-260-279
Аннотация
Данная статья посвящена анализу влияния различных комбинаций стилометрических характеристик разного уровня на качество верификации авторства русских, английских и французских прозаических текстов. Исследование проводилось как для низкоуровневых стилометрических характеристик, основанных на словах и символах, так и для более высокоуровневых – структурных.
Подсчёт всех стилометрических характеристик был выполнен автоматически с помощью программы ProseRhythmDetector. Такой подход позволил провести анализ произведений большого объёма и многих писателей одновременно. В ходе работы каждому тексту были сопоставлены векторы стилометрических характеристик уровня символов, слов и структуры. При проведении экспериментов наборы параметров этих трёх уровней были скомбинированы между собой всеми возможными способами. Полученные векторы стилометрических характеристик были поданы на вход различным классификаторам для выполнения верификации и выявления наиболее подходящего классификатора для решения поставленной задачи. Лучшие результаты были получены с помощью классификатора AdaBoost. Средняя F-мера для всех языков оказалась более 92%. Детальные оценки качества верификации приведены для каждого автора и проанализированы. Использование высокоуровневых стилометрических характеристик, в частности, частоты использования N-грамм POS-тегов открывает перспективу более детального анализа стиля того или иного автора. Результаты экспериментов показывают, что при соединении характеристик уровня структуры с характеристиками уровня слов и/или символов получаются наиболее точные результаты верификации авторства для художественных текстов на русском, английском и французском языках. Дополнительно авторам удалось сделать вывод о разной степени влияния стилометрических характеристик на качество верификации авторства для различных языков.
Об авторах
Алла Михайловна МанаховаРоссия
MSc student.
14 Sovetskaya str., Yaroslavl 150003
Надежда Станиславовна Лагутина
Россия
Доцент, кандидат физико-математических наук.
Ул. Советская, д. 14, Ярославль, 150003
Список литературы
1. N. P. Tuchkova and O. M. Ataeva, “Podhody k izvlecheniyu znanij v nauchnyh predmetnyh oblastyah”, Informacionnye i matematicheskie tekhnologii v nauke i upravlenii, no. 2 (18), pp. 5–18, 2020.
2. A. Altamimi, N. Clarke, S. Furnell, and F. Li, “Multi-platform authorship verification”, in Proceedings of the Third Central European Cybersecurity Conference, 2019, pp. 1–7.
3. O. Halvani, L. Graner, and R. Regev, “Taveer: An interpretable topic-agnostic authorship verification method”, in Proceedings of the 15th International Conference on Availability, Reliability and Security, 2020, pp. 1–10.
4. M. Kestemont, G. Martens, and T. Ries, “A computational approach to authorship verification of johann wolfgang goethe’s contributions to the frankfurter gelehrte anzeigen (1772–73)”, Journal of European Periodical Studies, vol. 4, no. 1, pp. 115–143, 2019.
5. S. Corbara, A. Moreo, F. Sebastiani, and M. Tavoni, “The epistle to cangrande through the lens of computational authorship verification”, in International Conference on Image Analysis and Processing, Springer, 2019, pp. 148–158.
6. V. A. Drozdov, “Ob avtorstve poemy ≪‘Ushshak-name≫ s tochki zreniya akademicheskogo vostokovedeniya i novejshih komp’yuternyh tekhnologij”, Orientalistika, vol. 3, no. 5, pp. 1360–1378, 2020.
7. M. Kestemont, E. Manjavacas, I. Markov, J. Bevendorff, M. Wiegmann, E. Stamatatos, M. Potthast, and B. Stein, “Overview of the cross-domain authorship verification task at pan 2020”, in CLEF, 2020.
8. N. Potha and E. Stamatatos, “Intrinsic author verification using topic modeling”, in Proceedings of the 10th Hellenic Conference on Artificial Intelligence, ACM, 2018, pp. 1–7.
9. S. Adamovic, V. Miskovic, M. Milosavljevic, M. Sarac, and M. Veinovic, “Automated language-independent authorship verification (for indo-european languages)”, Journal of the Association for Information Science and Technology, vol. 70, no. 8, pp. 858–871, 2019.
10. B. Boenninghoff, S. Hessler, D. Kolossa, and R. M. Nickel, “Explainable authorship verification in social media via attention-based similarity learning”, in 2019 IEEE International Conference on Big Data (Big Data), IEEE, 2019, pp. 36–45.
11. N. E. Benzebouchi, N. Azizi, M. Aldwairi, and N. Farah, “Multi-classifier system for authorship verification task using word embeddings”, in 2018 2nd International Conference on Natural Language and Speech Processing (ICNLSP), IEEE, 2018, pp. 1–6.
12. J. S. Li, L.-C. Chen, J. V. Monaco, P. Singh, and C. C. Tappert, “A comparison of classifiers and features for authorship authentication of social networking messages”, Concurrency and Computation: Practice and Experience, vol. 29, no. 14, e3918, 2017.
13. E. Tuccinardi, “An application of a profile-based method for authorship verification: Investigating the authenticity of pliny the younger’s letter to trajan concerning the christians”, Digital Scholarship in the Humanities, vol. 32, no. 2, pp. 435–447, 2017.
14. P. B. Reddy, T. M. Mohan, P. V. K. Raja, and T. R. Reddy, “A novel approach for authorship verification”, in Data Engineering and Communication Technology, Springer, 2020, pp. 441–448.
15. E. Castillo, O. Cervantes, and D. Vilarino, “Authorship verification using a graph knowledge discovery approach”, Journal of Intelligent & Fuzzy Systems, vol. 36, no. 6, pp. 6075–6087, 2019.
16. H. Ahmed, “The role of linguistic feature categories in authorship verification”, Procedia computer science, vol. 142, pp. 214–221, 2018.
17. M. A. Al-Khatib and J. K. Al-qaoud, “Authorship verification of opinion articles in online newspapers using the idiolect of author: A comparative study”, Information, Communication & Society, pp. 1–19, 2020.
18. K. Lagutina, N. Lagutina, E. Boychuk, I. Vorontsova, E. Shliakhtina, O. Belyaeva, and I. Paramonov, “A survey on stylometric text features”, in Proceedings of the 25th Conference of Open Innovations Association (FRUCT), IEEE, 2019, pp. 184–195.
19. Y. Polin, T. Zudilova, I. Ananchenko, and T. Vojtyuk, “Derevya reshenij v zadachah klassifikacii: osobennosti primeneniya i metody povysheniya kachestva klassifikacii”, Sovremennye naukoemkie tekhnologii, no. 9, pp. 59–63, 2020.
20. B. Xu, X. Guo, Y. Ye, and J. Cheng, “An improved random forest classifier for text categorization.”, JCP, vol. 7, no. 12, pp. 2913–2920, 2012.
21. S.-B. Kim, K.-S. Han, H.-C. Rim, and S. H. Myaeng, “Some effective techniques for naive bayes text classification”, IEEE transactions on knowledge and data engineering, vol. 18, no. 11, pp. 1457–1466, 2006.
22. K. Lagutina, A. Poletaev, N. Lagutina, E. Boychuk, and I. Paramonov, “Automatic extraction of rhythm figures and analysis of their dynamics in prose of 19th-21st centuries”, in Proceedings of the 26th Conference of Open Innovations Association (FRUCT), IEEE, 2020, pp. 247–255.
Рецензия
Для цитирования:
Манахова А.М., Лагутина Н.С. Анализ влияния стилометрических характеристик разного уровня на верификацию авторов художественных произведений. Моделирование и анализ информационных систем. 2021;28(3):260-279. https://doi.org/10.18255/1818-1015-2021-3-260-279
For citation:
Manakhova A.M., Lagutina N.S. Analysis of the Impact of the Stylometric Characteristics of Different Levels for the Verification of Authors of the Prose. Modeling and Analysis of Information Systems. 2021;28(3):260-279. (In Russ.) https://doi.org/10.18255/1818-1015-2021-3-260-279