Поиск упоминаний экологических практик в социальных сетях с помощью методов классификации текстов

Анна Валерьевна Глазкова; Ольга Владимировна Захарова; Антон Викторович Захаров; Наталья Николаевна Москвина; Тимур Русланович Еникеев; Арсений Николаевич Ходырев; Всеволод Константинович Боровинский; Ирина Николаевна Пупышева

doi:10.18255/1818-1015-2022-4-316-332

Поиск упоминаний экологических практик в социальных сетях с помощью методов классификации текстов

Анна Валерьевна Глазкова, Ольга Владимировна Захарова, Антон Викторович Захаров, Наталья Николаевна Москвина, Тимур Русланович Еникеев, Арсений Николаевич Ходырев, Всеволод Константинович Боровинский, Ирина Николаевна Пупышева

https://doi.org/10.18255/1818-1015-2022-4-316-332

Полный текст:

PDF (Rus) |

сгенерировать QR код

Аннотация

Работа посвящена решению задачи поиска упоминаний экологических практик в текстах социальных сетей. Авторами составлен корпус текстов экологических сообществ социальной сети ВКонтакте, снабженный экспертной разметкой упоминаний девяти видов экологических практик. Предложен полуавтоматический подход к сбору дополнительных текстов для уменьшения несбалансированности видов экологических практик, представленных в корпусе. Подход включает в себя следующие этапы: определение наиболее частотных слов, характеризующих упоминания практик; автоматический сбор текстов, включающих в себя найденные частотные слова; экспертная проверка и фильтрация собранных текстов. Проведено сравнение четырех моделей машинного обучения для поиска упоминаний практик на двух вариантах корпуса: исходном и дополненном. Лучший усредненный показатель F-меры (81.32%) достигнут моделью Conversational RuBERT, дообученной на текстах дополненного корпуса. Данная модель выбрана в качестве основы для реализации прототипа приложения для поиска упоминаний экологических практик, реализованного в форме чат-бота Telegram.

Ключевые слова

классификация текстов, анализ социальных сетей, машинное обучение, BERT, экологические практики, обработка естественного языка

MSC2020: 68T50