Сравнение стилистических характеристик для верификации авторов художественных текстов
https://doi.org/10.18255/1818-1015-2021-3-250-259
Аннотация
В статье сравниваются характеристики уровней символов, слов и ритма для верификации авторства художественных текстов 19-21-го веков. Корпуса текстов содержат фрагменты романов, каждый фрагмент имеет размер около 50 000 знаков. Для каждого автора приводится 40 фрагментов. Рассматриваются по 20 авторов, писавших на английском, русском, французском языках, и 8 испаноязычных авторов.
Авторы статьи используют существующие алгоритмы для вычисления популярных в современной компьютерной лингвистике низкоуровневых характеристик и распространённых в художественной литературе ритмических характеристик. Низкоуровневые характеристики включают в себя n-граммы слов, частоты встречаемости букв и знаков пунктуации, среднюю длину слова и предложения и т. д. Ритмические характеристики основаны на лексико-грамматических средствах: анафоре, эпифоре, симплоке, апозиопезе, эпаналепсисе, анадиплозисе, диакопе, эпизевксисе, хиазме, многосоюзие, повторяющихся восклицательных и вопросительных предложениях. Данные характеристики включают в себя частоты появления отдельных ритмических средств на 100 предложений, количество уникальных слов в аспектах ритма, доли существительных, прилагательных, наречий и глаголов в аспектах ритма. Верификация авторов рассматривается как задача бинарной классификации: принадлежит текст конкретному автору или нет. В качестве алгоритмов классификации рассматриваются AdaBoost и нейросеть со слоем LSTM. Эксперименты демонстрируют эффективность ритмических характеристик при верификации конкретных авторов и превосходство комбинаций типов характеристик над отдельными типами характеристик в среднем. Лучшее значение точности, полноты и F-меры для классификатора AdaBoost превышает 90%, когда комбинируются все три типа характеристик.
Ключевые слова
MSC2020: 68T50
Об авторе
Ксения Владимировна ЛагутинаРоссия
Аспирант.
Ул. Советская, д. 14, Ярославль, 150003
Список литературы
1. E. Stamatatos, “A survey of modern authorship attribution methods”, Journal of the American Society for information Science and Technology, vol. 60, no. 3, pp. 538–556, 2009.
2. K. Lagutina, N. Lagutina, E. Boychuk, I. Vorontsova, E. Shliakhtina, O. Belyaeva, and I. Paramonov, “A survey on stylometric text features”, in Proceedings of the 25th Conference of Open Innovations Association (FRUCT), IEEE, 2019, pp. 184–195.
3. T. Neal, K. Sundararajan, A. Fatima, Y. Yan, Y. Xiang, and D. Woodard, “Surveying stylometry techniques and applications”, ACM Computing Surveys (CSUR), vol. 50, no. 6, pp. 1–36, 2018.
4. C.-G. Lim, Y.-S. Jeong, and H.-J. Choi, “Survey of Temporal Information Extraction.”, Journal of Information Processing Systems, vol. 15, no. 4, pp. 931–956, 2019.
5. E. Boychuk, I. Paramonov, N. Kozhemyakin, and N. Kasatkina, “Automated approach for rhythm analysis of French literary texts”, in Proceedings of 15th Conference of Open Innovations Association FRUCT, IEEE, 2014, pp. 15–23.
6. K. Lagutina, N. Lagutina, E. Boychuk, V. Larionov, and I. Paramonov, “Authorship Verification of Literary Texts with Rhythm Features”, in Proceedings of the 28th Conference of Open Innovations Association FRUCT, 2021, pp. 240–251. doi: 10.23919/FRUCT50888.2021.9347649.
7. N. Potha and E. Stamatatos, “Intrinsic author verification using topic modeling”, in Proceedings of the 10th Hellenic Conference on Artificial Intelligence, ACM, 2018, pp. 1–7.
8. O. Halvani and L. Graner, “Rethinking the evaluation methodology of authorship verification methods”, in International Conference of the Cross-Language Evaluation Forum for European Languages, Springer, 2018, pp. 40–51.
9. O. Halvani, L. Graner, and R. Regev, “TAVeer: an interpretable topic-agnostic authorship verification method”, in Proceedings of the 15th International Conference on Availability, Reliability and Security, 2020, pp. 1–10.
10. B. Boenninghoff, R. M. Nickel, S. Zeiler, and D. Kolossa, “Similarity learning for authorship verification in social media”, in ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), IEEE, 2019, pp. 2457–2461.
11. S. Adamovic, V. Miskovic, M. Milosavljevic, M. Sarac, and M. Veinovic, “Automated language-independent authorship verification (for Indo-European languages)”, Journal of the Association for Information Science and Technology, vol. 70, no. 8, pp. 858–871, 2019.
12. M. A. Al-Khatib and J. K. Al-qaoud, “Authorship verification of opinion articles in online newspapers using the idiolect of author: a comparative study”, Information, Communication & Society, pp. 1–19, 2020.
13. T. Stanisz, J. Kwapien´, and S. Droz˙dz˙, “Linguistic data mining with complex networks: a stylometric-oriented approach”, Information Sciences, vol. 482, pp. 301–320, 2019.
14. K. Lagutina, A. Poletaev, N. Lagutina, E. Boychuk, and I. Paramonov, “Automatic Extraction of Rhythm Figures and Analysis of Their Dynamics in Prose of 19th-21st Centuries”, in Proceedings of the 26th Conference of Open Innovations Association FRUCT, IEEE, 2020, pp. 247–255.
15. K. Kowsari, K. Jafari Meimandi, M. Heidarysafa, S. Mendu, L. Barnes, and D. Brown, “Text classification algorithms: A survey”, Information, vol. 10, no. 4, 150 (1–68), 2019.
16. M. Sokolova and G. Lapalme, “A systematic analysis of performance measures for classification tasks”, Information processing & management, vol. 45, no. 4, pp. 427–437, 2009.
Рецензия
Для цитирования:
Лагутина К.В. Сравнение стилистических характеристик для верификации авторов художественных текстов. Моделирование и анализ информационных систем. 2021;28(3):250-259. https://doi.org/10.18255/1818-1015-2021-3-250-259
For citation:
Lagutina K.V. Comparison of Style Features for the Authorship Verification of Literary Texts. Modeling and Analysis of Information Systems. 2021;28(3):250-259. https://doi.org/10.18255/1818-1015-2021-3-250-259