Spaces:
Sleeping
Sleeping
Update README.md
Browse files
README.md
CHANGED
|
@@ -11,11 +11,13 @@ short_description: tm
|
|
| 11 |
---
|
| 12 |
|
| 13 |
## Описание задачи
|
| 14 |
-
С каждым годом объемы контента, размещаемого пользователями в интернете стремительно растет.
|
|
|
|
| 15 |
Модерация контента вручную в наше время является крайне неэффективной, поскольку требует значительных человеческих ресурсов, времени и финансовых затрат. Кроме того, присутствует человеческий фактор, который может приводить к субъективности и непоследовательности решений. В этом ключе возрастает роль и ценность автоматизированных систем для анализа текста, основанных на методах обработки естественного языка и нейронных сетях.
|
| 16 |
-
Наибольший интерес в данной ситуации представляют модели, обученные на специфических корпусах негативных текстов и комментариев в интернете. Такие модели способны определять вероятность токсичности комментария, а в некоторых случаях и классифицировать тип агрессии, что позволяет эффективно решать задачу выявления токсичности в сети. Также современные модели зачастую поддерживают несколько языков, что делает их применение более доступным для аудитории разных стран.
|
| 17 |
-
|
| 18 |
-
|
|
|
|
| 19 |
|
| 20 |
## Описание выбранных моделей
|
| 21 |
Для решения поставленной задачи были выбраны три готовые модели, предназначенные для автоматической оценки токсичности текста.
|
|
@@ -51,36 +53,36 @@ short_description: tm
|
|
| 51 |
- Ограничение данной модели — поддержка только русского языка.
|
| 52 |
|
| 53 |
## Внешний вид приложения и примеры вход/выход
|
| 54 |
-
Внешний вид приложения:
|
| 55 |

|
| 56 |
|
| 57 |
-
Примеры вход/выход в истории запросов:
|
| 58 |

|
| 59 |
|
| 60 |
-
Пример вывода первой модели:
|
| 61 |

|
| 62 |
|
| 63 |
-
Примеры вывода второй модели:
|
| 64 |

|
| 65 |

|
| 66 |
|
| 67 |
-
Примеры вывода третьей модели:
|
| 68 |

|
| 69 |

|
| 70 |
|
| 71 |
-
Пример обработки ошибки с вводом слишком длинного текста:
|
| 72 |

|
| 73 |
|
| 74 |
-
Пример обработки ошибки с вводом пустого текста
|
| 75 |

|
| 76 |
|
| 77 |
## Ограничения решения
|
| 78 |
Разработанное приложение является работоспособным и удобным инструментом для проверки токсичности текстов, однако, существует несколько ограничений:
|
| 79 |
-
|
| 80 |
- Рекомендация в текущей реализации: использовать ручную проверку для спорных случаев.
|
| 81 |
-
|
| 82 |
- Рекомендация в текущей реализации: применять приложение только к языкам, которые поддерживают выбранные модели. Рекомендация для дальнейшей доработки приложения: расширять круг используемых моделей.
|
| 83 |
-
|
| 84 |
- Рекомендация в текущей реализации: сразу же подгружать все 3 модели и далее использовать приложение.
|
| 85 |
-
|
| 86 |
- Рекомендация в текущей реализации: уведомлять пользователя об обрезке текста.
|
|
|
|
| 11 |
---
|
| 12 |
|
| 13 |
## Описание задачи
|
| 14 |
+
С каждым годом объемы контента, размещаемого пользователями в интернете стремительно растет.
|
| 15 |
+
В социальных сетях, а также в комментариях на различных сервисах людьми ежедневно публикуются миллионы сообщений и комментариев. При этом, определенная часть этого контента зачастую содержит оскорбления, агрессию, угрозы или иные формы токсичного и неподобающего поведения, что негативно влияет на качество онлайн-коммуникации, психологическое состояние пользователей и репутацию цифровых сервисов.
|
| 16 |
Модерация контента вручную в наше время является крайне неэффективной, поскольку требует значительных человеческих ресурсов, времени и финансовых затрат. Кроме того, присутствует человеческий фактор, который может приводить к субъективности и непоследовательности решений. В этом ключе возрастает роль и ценность автоматизированных систем для анализа текста, основанных на методах обработки естественного языка и нейронных сетях.
|
| 17 |
+
Наибольший интерес в данной ситуации представляют модели, обученные на специфических корпусах негативных текстов и комментариев в интернете. Такие модели способны определять вероятность токсичности комментария, а в некоторых случаях и классифицировать тип агрессии, что позволяет эффективно решать задачу выявления токсичности в сети. Также современные модели зачастую поддерживают несколько языков, что делает их применение более доступным для аудитории разных стран.
|
| 18 |
+
Использование таких моделей позволяет интегрировать интеллектуальную модерацию в реальные сервисы — от социальных сетей до образовательных платформ и онлайн-игр.
|
| 19 |
+
### Цель данного проекта — разработка веб-приложения для автоматической оценки токсичности текстовых сообщений, вводимых пользователем с использованием предобученных моделей из Hugging Face.
|
| 20 |
+
|
| 21 |
|
| 22 |
## Описание выбранных моделей
|
| 23 |
Для решения поставленной задачи были выбраны три готовые модели, предназначенные для автоматической оценки токсичности текста.
|
|
|
|
| 53 |
- Ограничение данной модели — поддержка только русского языка.
|
| 54 |
|
| 55 |
## Внешний вид приложения и примеры вход/выход
|
| 56 |
+
### Внешний вид приложения:
|
| 57 |

|
| 58 |
|
| 59 |
+
### Примеры вход/выход в истории запросов:
|
| 60 |

|
| 61 |
|
| 62 |
+
### Пример вывода первой модели:
|
| 63 |

|
| 64 |
|
| 65 |
+
### Примеры вывода второй модели:
|
| 66 |

|
| 67 |

|
| 68 |
|
| 69 |
+
### Примеры вывода третьей модели:
|
| 70 |

|
| 71 |

|
| 72 |
|
| 73 |
+
### Пример обработки ошибки с вводом слишком длинного текста:
|
| 74 |

|
| 75 |
|
| 76 |
+
### Пример обработки ошибки с вводом пустого текста
|
| 77 |

|
| 78 |
|
| 79 |
## Ограничения решения
|
| 80 |
Разработанное приложение является работоспособным и удобным инструментом для проверки токсичности текстов, однако, существует несколько ограничений:
|
| 81 |
+
1) Ограничение, связанное с моделями и данными — проблемы с сарказмом, иронией, контекстно-зависимой речью: автоматические классификаторы часто ошибаются на сарказме и иронии, что может повлечь за собой возможные ложные срабатывания.
|
| 82 |
- Рекомендация в текущей реализации: использовать ручную проверку для спорных случаев.
|
| 83 |
+
2) Ограниченная языковая поддержка — в данной реализации приложение не поддерживает все языки мира. Результаты на редких языках могут быть ненадёжны.
|
| 84 |
- Рекомендация в текущей реализации: применять приложение только к языкам, которые поддерживают выбранные модели. Рекомендация для дальнейшей доработки приложения: расширять круг используемых моделей.
|
| 85 |
+
3) Техническое ограничение — первичная загрузка каждой из моделей может занимать много времени
|
| 86 |
- Рекомендация в текущей реализации: сразу же подгружать все 3 модели и далее использовать приложение.
|
| 87 |
+
4) Ограничение по длине ввода — обрезка текста предотвращает переполнение модели, но может привести к потере важного контекста в длинных сообщениях.
|
| 88 |
- Рекомендация в текущей реализации: уведомлять пользователя об обрезке текста.
|