NikitaMY commited on
Commit
c586dfa
·
verified ·
1 Parent(s): cc1a386

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +17 -15
README.md CHANGED
@@ -11,11 +11,13 @@ short_description: tm
11
  ---
12
 
13
  ## Описание задачи
14
- С каждым годом объемы контента, размещаемого пользователями в интернете стремительно растет. В социальных сетях, а также в комментариях на различных сервисах людьми ежедневно публикуются миллионы сообщений и комментариев. При этом, определенная часть этого контента зачастую содержит оскорбления, агрессию, угрозы или иные формы токсичного и неподобающего поведения, что негативно влияет на качество онлайн-коммуникации, психологическое состояние пользователей и репутацию цифровых сервисов.
 
15
  Модерация контента вручную в наше время является крайне неэффективной, поскольку требует значительных человеческих ресурсов, времени и финансовых затрат. Кроме того, присутствует человеческий фактор, который может приводить к субъективности и непоследовательности решений. В этом ключе возрастает роль и ценность автоматизированных систем для анализа текста, основанных на методах обработки естественного языка и нейронных сетях.
16
- Наибольший интерес в данной ситуации представляют модели, обученные на специфических корпусах негативных текстов и комментариев в интернете. Такие модели способны определять вероятность токсичности комментария, а в некоторых случаях и классифицировать тип агрессии, что позволяет эффективно решать задачу выявления токсичности в сети. Также современные модели зачастую поддерживают несколько языков, что делает их применение более доступным для аудитории разных стран. Использование таких моделей позволяет интегрировать интеллектуальную модерацию в реальные сервисы — от социальных сетей до образовательных платформ и онлайн-игр.
17
- Цель данного проекта — разработка веб-приложения для автоматической оценки токсичности текстовых сообщений, вводимых пользователем с использованием предобученных моделей из Hugging Face.
18
- Объект исследования — процессы автоматической модерации текстовых сообщений с использованием методов обработки естественного языка. Предмет — методы и модели, применяемые для классификации токсичности текста и их практическая реализация в виде веб-приложения.
 
19
 
20
  ## Описание выбранных моделей
21
  Для решения поставленной задачи были выбраны три готовые модели, предназначенные для автоматической оценки токсичности текста.
@@ -51,36 +53,36 @@ short_description: tm
51
  - Ограничение данной модели — поддержка только русского языка.
52
 
53
  ## Внешний вид приложения и примеры вход/выход
54
- Внешний вид приложения:
55
  ![image](https://cdn-uploads.huggingface.co/production/uploads/68ea1842f32cc8ded49f9528/i-QH9Y2mHLqzdNGGzAHzM.png)
56
 
57
- Примеры вход/выход в истории запросов:
58
  ![image](https://cdn-uploads.huggingface.co/production/uploads/68ea1842f32cc8ded49f9528/xCELb6_-rt3PsgczqSytW.png)
59
 
60
- Пример вывода первой модели:
61
  ![image](https://cdn-uploads.huggingface.co/production/uploads/68ea1842f32cc8ded49f9528/jVnClYo_tmF5ClId0W5ZX.png)
62
 
63
- Примеры вывода второй модели:
64
  ![image](https://cdn-uploads.huggingface.co/production/uploads/68ea1842f32cc8ded49f9528/MrvPgq8BB7dX_94DnfxEi.png)
65
  ![image](https://cdn-uploads.huggingface.co/production/uploads/68ea1842f32cc8ded49f9528/4BkcSW4MVzlP5pUyElHzm.png)
66
 
67
- Примеры вывода третьей модели:
68
  ![image](https://cdn-uploads.huggingface.co/production/uploads/68ea1842f32cc8ded49f9528/iuEY4IX5j7iVQyci9lVJs.png)
69
  ![image](https://cdn-uploads.huggingface.co/production/uploads/68ea1842f32cc8ded49f9528/vTKvLr2BKaLpZkYyeDfwQ.png)
70
 
71
- Пример обработки ошибки с вводом слишком длинного текста:
72
  ![image](https://cdn-uploads.huggingface.co/production/uploads/68ea1842f32cc8ded49f9528/TGtoOow3Rjb0O87v7fsee.png)
73
 
74
- Пример обработки ошибки с вводом пустого текста
75
  ![image](https://cdn-uploads.huggingface.co/production/uploads/68ea1842f32cc8ded49f9528/yzjJiKQkWmSwW8b09B2CQ.png)
76
 
77
  ## Ограничения решения
78
  Разработанное приложение является работоспособным и удобным инструментом для проверки токсичности текстов, однако, существует несколько ограничений:
79
- ### 1) Ограничение, связанное с моделями и данными — проблемы с сарказмом, иронией, контекстно-зависимой речью: автоматические классификаторы часто ошибаются на сарказме и иронии, что может повлечь за собой возможные ложные срабатывания.
80
  - Рекомендация в текущей реализации: использовать ручную проверку для спорных случаев.
81
- ### 2) Ограниченная языковая поддержка — в данной реализации приложение не поддерживает все языки мира. Результаты на редких языках могут быть ненадёжны.
82
  - Рекомендация в текущей реализации: применять приложение только к языкам, которые поддерживают выбранные модели. Рекомендация для дальнейшей доработки приложения: расширять круг используемых моделей.
83
- ### 3) Техническое ограничение — первичная загрузка каждой из моделей может занимать много времени
84
  - Рекомендация в текущей реализации: сразу же подгружать все 3 модели и далее использовать приложение.
85
- ### 4) Ограничение по длине ввода — обрезка текста предотвращает переполнение модели, но может привести к потере важного контекста в длинных сообщениях.
86
  - Рекомендация в текущей реализации: уведомлять пользователя об обрезке текста.
 
11
  ---
12
 
13
  ## Описание задачи
14
+ С каждым годом объемы контента, размещаемого пользователями в интернете стремительно растет.
15
+ В социальных сетях, а также в комментариях на различных сервисах людьми ежедневно публикуются миллионы сообщений и комментариев. При этом, определенная часть этого контента зачастую содержит оскорбления, агрессию, угрозы или иные формы токсичного и неподобающего поведения, что негативно влияет на качество онлайн-коммуникации, психологическое состояние пользователей и репутацию цифровых сервисов.
16
  Модерация контента вручную в наше время является крайне неэффективной, поскольку требует значительных человеческих ресурсов, времени и финансовых затрат. Кроме того, присутствует человеческий фактор, который может приводить к субъективности и непоследовательности решений. В этом ключе возрастает роль и ценность автоматизированных систем для анализа текста, основанных на методах обработки естественного языка и нейронных сетях.
17
+ Наибольший интерес в данной ситуации представляют модели, обученные на специфических корпусах негативных текстов и комментариев в интернете. Такие модели способны определять вероятность токсичности комментария, а в некоторых случаях и классифицировать тип агрессии, что позволяет эффективно решать задачу выявления токсичности в сети. Также современные модели зачастую поддерживают несколько языков, что делает их применение более доступным для аудитории разных стран.
18
+ Использование таких моделей позволяет интегрировать интеллектуальную модерацию в реальные сервисы — от социальных сетей до образовательных платформ и онлайн-игр.
19
+ ### Цель данного проекта разработка веб-приложения для автоматической оценки токсичности текстовых сообщений, вводимых пользователем с использованием предобученных моделей из Hugging Face.
20
+
21
 
22
  ## Описание выбранных моделей
23
  Для решения поставленной задачи были выбраны три готовые модели, предназначенные для автоматической оценки токсичности текста.
 
53
  - Ограничение данной модели — поддержка только русского языка.
54
 
55
  ## Внешний вид приложения и примеры вход/выход
56
+ ### Внешний вид приложения:
57
  ![image](https://cdn-uploads.huggingface.co/production/uploads/68ea1842f32cc8ded49f9528/i-QH9Y2mHLqzdNGGzAHzM.png)
58
 
59
+ ### Примеры вход/выход в истории запросов:
60
  ![image](https://cdn-uploads.huggingface.co/production/uploads/68ea1842f32cc8ded49f9528/xCELb6_-rt3PsgczqSytW.png)
61
 
62
+ ### Пример вывода первой модели:
63
  ![image](https://cdn-uploads.huggingface.co/production/uploads/68ea1842f32cc8ded49f9528/jVnClYo_tmF5ClId0W5ZX.png)
64
 
65
+ ### Примеры вывода второй модели:
66
  ![image](https://cdn-uploads.huggingface.co/production/uploads/68ea1842f32cc8ded49f9528/MrvPgq8BB7dX_94DnfxEi.png)
67
  ![image](https://cdn-uploads.huggingface.co/production/uploads/68ea1842f32cc8ded49f9528/4BkcSW4MVzlP5pUyElHzm.png)
68
 
69
+ ### Примеры вывода третьей модели:
70
  ![image](https://cdn-uploads.huggingface.co/production/uploads/68ea1842f32cc8ded49f9528/iuEY4IX5j7iVQyci9lVJs.png)
71
  ![image](https://cdn-uploads.huggingface.co/production/uploads/68ea1842f32cc8ded49f9528/vTKvLr2BKaLpZkYyeDfwQ.png)
72
 
73
+ ### Пример обработки ошибки с вводом слишком длинного текста:
74
  ![image](https://cdn-uploads.huggingface.co/production/uploads/68ea1842f32cc8ded49f9528/TGtoOow3Rjb0O87v7fsee.png)
75
 
76
+ ### Пример обработки ошибки с вводом пустого текста
77
  ![image](https://cdn-uploads.huggingface.co/production/uploads/68ea1842f32cc8ded49f9528/yzjJiKQkWmSwW8b09B2CQ.png)
78
 
79
  ## Ограничения решения
80
  Разработанное приложение является работоспособным и удобным инструментом для проверки токсичности текстов, однако, существует несколько ограничений:
81
+ 1) Ограничение, связанное с моделями и данными — проблемы с сарказмом, иронией, контекстно-зависимой речью: автоматические классификаторы часто ошибаются на сарказме и иронии, что может повлечь за собой возможные ложные срабатывания.
82
  - Рекомендация в текущей реализации: использовать ручную проверку для спорных случаев.
83
+ 2) Ограниченная языковая поддержка — в данной реализации приложение не поддерживает все языки мира. Результаты на редких языках могут быть ненадёжны.
84
  - Рекомендация в текущей реализации: применять приложение только к языкам, которые поддерживают выбранные модели. Рекомендация для дальнейшей доработки приложения: расширять круг используемых моделей.
85
+ 3) Техническое ограничение — первичная загрузка каждой из моделей может занимать много времени
86
  - Рекомендация в текущей реализации: сразу же подгружать все 3 модели и далее использовать приложение.
87
+ 4) Ограничение по длине ввода — обрезка текста предотвращает переполнение модели, но может привести к потере важного контекста в длинных сообщениях.
88
  - Рекомендация в текущей реализации: уведомлять пользователя об обрезке текста.