Spaces:

NikitaMY
/

text-moderation

Sleeping

App Files Files Community

NikitaMY commited on Mar 1

Commit

c586dfa

verified ·

1 Parent(s): cc1a386

Update README.md

Browse files

Files changed (1) hide show

README.md +17 -15

README.md CHANGED Viewed

@@ -11,11 +11,13 @@ short_description: tm
 ---
 ## Описание задачи
-С каждым годом объемы контента, размещаемого пользователями в интернете стремительно растет. В социальных сетях, а также в комментариях на различных сервисах людьми ежедневно публикуются миллионы сообщений и комментариев. При этом, определенная часть этого контента зачастую содержит оскорбления, агрессию, угрозы или иные формы токсичного и неподобающего поведения, что негативно влияет на качество онлайн-коммуникации, психологическое состояние пользователей и репутацию цифровых сервисов.
 Модерация контента вручную в наше время является крайне неэффективной, поскольку требует значительных человеческих ресурсов, времени и финансовых затрат. Кроме того, присутствует человеческий фактор, который может приводить к субъективности и непоследовательности решений. В этом ключе возрастает роль и ценность автоматизированных систем для анализа текста, основанных на методах обработки естественного языка и нейронных сетях.
-Наибольший интерес в данной ситуации представляют модели, обученные на специфических корпусах негативных текстов и комментариев в интернете. Такие модели способны определять вероятность токсичности комментария, а в некоторых случаях и классифицировать тип агрессии, что позволяет эффективно решать задачу выявления токсичности в сети. Также современные модели зачастую поддерживают несколько языков, что делает их применение более доступным для аудитории разных стран. Использование таких моделей позволяет интегрировать интеллектуальную модерацию в реальные сервисы — от социальных сетей до образовательных платформ и онлайн-игр.
-Цель данного проекта — разработка веб-приложения для автоматической оценки токсичности текстовых сообщений, вводимых пользователем с использованием предобученных моделей из Hugging Face.
-Объект исследования — процессы автоматической модерации текстовых сообщений с использованием методов обработки естественного языка. Предмет — методы и модели, применяемые для классификации токсичности текста и их практическая реализация в виде веб-приложения.
 ## Описание выбранных моделей
 Для решения поставленной задачи были выбраны три готовые модели, предназначенные для автоматической оценки токсичности текста.
@@ -51,36 +53,36 @@ short_description: tm
 - Ограничение данной модели — поддержка только русского языка.
 ## Внешний вид приложения и примеры вход/выход
-Внешний вид приложения:
 ![image](https://cdn-uploads.huggingface.co/production/uploads/68ea1842f32cc8ded49f9528/i-QH9Y2mHLqzdNGGzAHzM.png)
-Примеры вход/выход в истории запросов:
 ![image](https://cdn-uploads.huggingface.co/production/uploads/68ea1842f32cc8ded49f9528/xCELb6_-rt3PsgczqSytW.png)
-Пример вывода первой модели:
 ![image](https://cdn-uploads.huggingface.co/production/uploads/68ea1842f32cc8ded49f9528/jVnClYo_tmF5ClId0W5ZX.png)
-Примеры вывода второй модели:
 ![image](https://cdn-uploads.huggingface.co/production/uploads/68ea1842f32cc8ded49f9528/MrvPgq8BB7dX_94DnfxEi.png)
 ![image](https://cdn-uploads.huggingface.co/production/uploads/68ea1842f32cc8ded49f9528/4BkcSW4MVzlP5pUyElHzm.png)
-Примеры вывода третьей модели:
 ![image](https://cdn-uploads.huggingface.co/production/uploads/68ea1842f32cc8ded49f9528/iuEY4IX5j7iVQyci9lVJs.png)
 ![image](https://cdn-uploads.huggingface.co/production/uploads/68ea1842f32cc8ded49f9528/vTKvLr2BKaLpZkYyeDfwQ.png)
-Пример обработки ошибки с вводом слишком длинного текста:
 ![image](https://cdn-uploads.huggingface.co/production/uploads/68ea1842f32cc8ded49f9528/TGtoOow3Rjb0O87v7fsee.png)
-Пример обработки ошибки с вводом пустого текста
 ![image](https://cdn-uploads.huggingface.co/production/uploads/68ea1842f32cc8ded49f9528/yzjJiKQkWmSwW8b09B2CQ.png)
 ## Ограничения решения
 Разработанное приложение является работоспособным и удобным инструментом для проверки токсичности текстов, однако, существует несколько ограничений:
-### 1) Ограничение, связанное с моделями и данными — проблемы с сарказмом, иронией, контекстно-зависимой речью: автоматические классификаторы часто ошибаются на сарказме и иронии, что может повлечь за собой возможные ложные срабатывания.
  - Рекомендация в текущей реализации: использовать ручную проверку для спорных случаев.
-### 2) Ограниченная языковая поддержка — в данной реализации приложение не поддерживает все языки мира. Результаты на редких языках могут быть ненадёжны.
  - Рекомендация в текущей реализации: применять приложение только к языкам, которые поддерживают выбранные модели. Рекомендация для дальнейшей доработки приложения: расширять круг используемых моделей.
-### 3) Техническое ограничение — первичная загрузка каждой из моделей может занимать много времени
  - Рекомендация в текущей реализации: сразу же подгружать все 3 модели и далее использовать приложение.
-### 4) Ограничение по длине ввода — обрезка текста предотвращает переполнение модели, но может привести к потере важного контекста в длинных сообщениях.
  - Рекомендация в текущей реализации: уведомлять пользователя об обрезке текста.

 ---
 ## Описание задачи
+С каждым годом объемы контента, размещаемого пользователями в интернете стремительно растет.
+В социальных сетях, а также в комментариях на различных сервисах людьми ежедневно публикуются миллионы сообщений и комментариев. При этом, определенная часть этого контента зачастую содержит оскорбления, агрессию, угрозы или иные формы токсичного и неподобающего поведения, что негативно влияет на качество онлайн-коммуникации, психологическое состояние пользователей и репутацию цифровых сервисов.
 Модерация контента вручную в наше время является крайне неэффективной, поскольку требует значительных человеческих ресурсов, времени и финансовых затрат. Кроме того, присутствует человеческий фактор, который может приводить к субъективности и непоследовательности решений. В этом ключе возрастает роль и ценность автоматизированных систем для анализа текста, основанных на методах обработки естественного языка и нейронных сетях.
+Наибольший интерес в данной ситуации представляют модели, обученные на специфических корпусах негативных текстов и комментариев в интернете. Такие модели способны определять вероятность токсичности комментария, а в некоторых случаях и классифицировать тип агрессии, что позволяет эффективно решать задачу выявления токсичности в сети. Также современные модели зачастую поддерживают несколько языков, что делает их применение более доступным для аудитории разных стран.
+Использование таких моделей позволяет интегрировать интеллектуальную модерацию в реальные сервисы — от социальных сетей до образовательных платформ и онлайн-игр.
+### Цель данного проекта — разработка веб-приложения для автоматической оценки токсичности текстовых сообщений, вводимых пользователем с использованием предобученных моделей из Hugging Face.
 ## Описание выбранных моделей
 Для решения поставленной задачи были выбраны три готовые модели, предназначенные для автоматической оценки токсичности текста.
 - Ограничение данной модели — поддержка только русского языка.
 ## Внешний вид приложения и примеры вход/выход
+### Внешний вид приложения:
 ![image](https://cdn-uploads.huggingface.co/production/uploads/68ea1842f32cc8ded49f9528/i-QH9Y2mHLqzdNGGzAHzM.png)
+### Примеры вход/выход в истории запросов:
 ![image](https://cdn-uploads.huggingface.co/production/uploads/68ea1842f32cc8ded49f9528/xCELb6_-rt3PsgczqSytW.png)
+### Пример вывода первой модели:
 ![image](https://cdn-uploads.huggingface.co/production/uploads/68ea1842f32cc8ded49f9528/jVnClYo_tmF5ClId0W5ZX.png)
+### Примеры вывода второй модели:
 ![image](https://cdn-uploads.huggingface.co/production/uploads/68ea1842f32cc8ded49f9528/MrvPgq8BB7dX_94DnfxEi.png)
 ![image](https://cdn-uploads.huggingface.co/production/uploads/68ea1842f32cc8ded49f9528/4BkcSW4MVzlP5pUyElHzm.png)
+### Примеры вывода третьей модели:
 ![image](https://cdn-uploads.huggingface.co/production/uploads/68ea1842f32cc8ded49f9528/iuEY4IX5j7iVQyci9lVJs.png)
 ![image](https://cdn-uploads.huggingface.co/production/uploads/68ea1842f32cc8ded49f9528/vTKvLr2BKaLpZkYyeDfwQ.png)
+### Пример обработки ошибки с вводом слишком длинного текста:
 ![image](https://cdn-uploads.huggingface.co/production/uploads/68ea1842f32cc8ded49f9528/TGtoOow3Rjb0O87v7fsee.png)
+### Пример обработки ошибки с вводом пустого текста
 ![image](https://cdn-uploads.huggingface.co/production/uploads/68ea1842f32cc8ded49f9528/yzjJiKQkWmSwW8b09B2CQ.png)
 ## Ограничения решения
 Разработанное приложение является работоспособным и удобным инструментом для проверки токсичности текстов, однако, существует несколько ограничений:
+1) Ограничение, связанное с моделями и данными — проблемы с сарказмом, иронией, контекстно-зависимой речью: автоматические классификаторы часто ошибаются на сарказме и иронии, что может повлечь за собой возможные ложные срабатывания.
  - Рекомендация в текущей реализации: использовать ручную проверку для спорных случаев.
+2) Ограниченная языковая поддержка — в данной реализации приложение не поддерживает все языки мира. Результаты на редких языках могут быть ненадёжны.
  - Рекомендация в текущей реализации: применять приложение только к языкам, которые поддерживают выбранные модели. Рекомендация для дальнейшей доработки приложения: расширять круг используемых моделей.
+3) Техническое ограничение — первичная загрузка каждой из моделей может занимать много времени
  - Рекомендация в текущей реализации: сразу же подгружать все 3 модели и далее использовать приложение.
+4) Ограничение по длине ввода — обрезка текста предотвращает переполнение модели, но может привести к потере важного контекста в длинных сообщениях.
  - Рекомендация в текущей реализации: уведомлять пользователя об обрезке текста.