UrukHan
/

t5-russian-summarization

@@ -4,56 +4,215 @@ tags:
 model-index:
 - name: t5-russian-summarization
   results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
 # t5-russian-summarization
-This model is a fine-tuned version of [sberbank-ai/ruT5-base](https://huggingface.co/sberbank-ai/ruT5-base) on the None dataset.
-It achieves the following results on the evaluation set:
-- eval_loss: 1.5715
-- eval_rouge1: 9.8582
-- eval_rouge2: 2.4598
-- eval_rougeL: 9.973
-- eval_rougeLsum: 9.9206
-- eval_gen_len: 14.9874
-- eval_runtime: 35.6274
-- eval_samples_per_second: 13.389
-- eval_steps_per_second: 1.684
-- epoch: 0.57
-- step: 32000
-## Model description
-More information needed
-## Intended uses & limitations
-More information needed
-## Training and evaluation data
-More information needed
-## Training procedure
-### Training hyperparameters
-The following hyperparameters were used during training:
-- learning_rate: 5e-05
-- train_batch_size: 8
-- eval_batch_size: 8
-- seed: 42
-- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
-- lr_scheduler_type: linear
-- num_epochs: 1
-- mixed_precision_training: Native AMP
-### Framework versions
-- Transformers 4.17.0
-- Pytorch 1.10.0+cu111
-- Datasets 2.0.0
-- Tokenizers 0.11.6

 model-index:
 - name: t5-russian-summarization
   results: []
+widget:
+- text: "Официальный представитель Минобороны России генерал-майор Игорь Конашенков заявил, что два ударных вертолета Украины нанесли удар по гражданскому объекту на окраине Белгороде, в результате попадания ракет отдельные резервуары были повреждены и загорелись, при этом никакого отношения к российским Вооруженным силам нефтебаза не имеет. СК возбудил уголовное дело, действия украинских военных расцениваются как теракт."
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
+---
 # t5-russian-summarization
+---
+модель для исправление текста из распознаного аудио.   моя модлеь для распознования аудио https://huggingface.co/UrukHan/wav2vec2-russian и его результаты можно закидывать в эту модель. тестил на видео случайном с ютюба
+#
+---
+Датасеты для обучения:
+UrukHan/t5-russian-summarization   : https://huggingface.co/datasets/UrukHan/t5-russian-summarization
+---
+# Запуск на вывод результатов пример работы с комментариями в колабе https://colab.research.google.com/drive/1I3G-VPzQhB-zG_YANkg1ptB1On_1_0wE?usp=sharing :
+#
+```python
+# Установим библиотеку трансформеров
+!pip install transformers
+# Импортируем библиотеки
+from transformers import AutoModelForSeq2SeqLM, T5TokenizerFast
+# Зададим название выбронной модели из хаба
+MODEL_NAME = 't5-russian-summarization'
+MAX_INPUT = 256
+# Загрузка модели и токенизатора
+tokenizer = T5TokenizerFast.from_pretrained(MODEL_NAME)
+model = AutoModelForSeq2SeqLM.from_pretrained(MODEL_NAME)
+# Входные данные (можно массив фраз или текст)
+input_sequences = ['Официальный представитель Минобороны России генерал-майор Игорь Конашенков заявил, что два ударных вертолета Украины нанесли удар по гражданскому объекту на окраине Белгороде, в результате попадания ракет отдельные резервуары были повреждены и загорелись', 'при этом никакого отношения к российским Вооруженным силам нефтебаза не имеет. СК возбудил уголовное дело, действия украинских военных расцениваются как теракт.']   # или можно использовать одиночные фразы:  input_sequences = 'при этом никакого отношения к российским Вооруженным силам нефтебаза не имеет. СК возбудил уголовное дело, действия украинских военных расцениваются как теракт.'
+task_prefix = "Summarization: "                 # Токенизирование данных
+if type(input_sequences) != list: input_sequences = [input_sequences]
+encoded = tokenizer(
+  [task_prefix + sequence for sequence in input_sequences],
+  padding="longest",
+  max_length=MAX_INPUT,
+  truncation=True,
+  return_tensors="pt",
+)
+predicts = model.generate(encoded)    # # Прогнозирование
+tokenizer.batch_decode(predicts, skip_special_tokens=True)  # Декодируем данные
+```
+#
+---
+#Настроенный блокнот для запуска обучения и сохранения модели в свой репозиторий на huggingface hub:
+#https://colab.research.google.com/drive/1H4IoasDqa2TEjGivVDp-4Pdpm0oxrCWd?usp=sharing
+#
+```python
+# Установка библиотек
+!pip install datasets
+!apt install git-lfs
+!pip install transformers
+!pip install sentencepiece
+!pip install rouge_score
+# Импорт библиотек
+import numpy as np
+from datasets import Dataset
+import tensorflow as
+import nltk
+from transformers import T5TokenizerFast, Seq2SeqTrainingArguments, Seq2SeqTrainer, AutoModelForSeq2SeqLM, DataCollatorForSeq2Seq
+import torch
+from transformers.optimization import Adafactor, AdafactorSchedule
+from datasets import load_dataset, load_metric
+# загрузка параметров
+raw_datasets = load_dataset("xsum")
+metric = load_metric("rouge")
+nltk.download('punkt')
+# Ввести свой ключ huggingface hyb
+from huggingface_hub import notebook_login
+notebook_login()
+# Определение параметров
+REPO = "t5-russian-summarization"  # Введите наазвание название репозитория
+MODEL_NAME = "UrukHan/t5-russian-summarization" # Введите наазвание выбранной модели из хаба
+MAX_INPUT = 256  # Введите максимальную длинну входных данных  в токенах (длинна входных фраз в словах (можно считать полслова токен))
+MAX_OUTPUT  = 256 # Введите максимальную длинну прогнозов в токенах (можно уменьшить для задач суммризации или других задач где выход короче)
+BATCH_SIZE = 8
+DATASET = "UrukHan/t5-russian-summarization"   # Введите наазвание название датасета
+# Загрузка датасета использование других типов данных опишу ниже
+data = load_dataset(DATASET)
+# Загрузка модели и токенизатора
+tokenizer = T5TokenizerFast.from_pretrained(MODEL_NAME)
+model = AutoModelForSeq2SeqLM.from_pretrained(MODEL_NAME)
+model.config.max_length = MAX_OUTPUT  # по умолчанию 20, поэтому во всех моделях прогнозы обрезаются выходные последовательности
+# Закоментить после первого соъранения в репозиторий свой необъязательно
+tokenizer.push_to_hub(REPO)
+train = data['train']
+test = data['test'].train_test_split(0.02)['test']  # Уменьшил так тестовыу. выборку чтоб не ждать долго расчет ошибок между эпохами
+data_collator = DataCollatorForSeq2Seq(tokenizer, model=model) #return_tensors="tf"
+def compute_metrics(eval_pred):
+  predictions, labels = eval_pred
+  decoded_preds = tokenizer.batch_decode(predictions, skip_special_tokens=True)
+  # Replace -100 in the labels as we can't decode them.
+  labels = np.where(labels != -100, labels, tokenizer.pad_token_id)
+  decoded_labels = tokenizer.batch_decode(labels, skip_special_tokens=True)
+  # Rouge expects a newline after each sentence
+  decoded_preds = ["\n".join(nltk.sent_tokenize(pred.strip())) for pred in decoded_preds]
+  decoded_labels = ["\n".join(nltk.sent_tokenize(label.strip())) for label in decoded_labels]
+  result = metric.compute(predictions=decoded_preds, references=decoded_labels, use_stemmer=True)
+  # Extract a few results
+  result = {key: value.mid.fmeasure * 100 for key, value in result.items()}
+  # Add mean generated length
+  prediction_lens = [np.count_nonzero(pred != tokenizer.pad_token_id) for pred in predictions]
+  result["gen_len"] = np.mean(prediction_lens)
+  return {k: round(v, 4) for k, v in result.items()}
+training_args = Seq2SeqTrainingArguments(
+  output_dir = REPO,
+  #overwrite_output_dir=True,
+  evaluation_strategy='steps',
+  #learning_rate=2e-5,
+  eval_steps=5000,
+  save_steps=5000,
+  num_train_epochs=1,
+  predict_with_generate=True,
+  per_device_train_batch_size=BATCH_SIZE,
+  per_device_eval_batch_size=BATCH_SIZE,
+  fp16=True,
+  save_total_limit=2,
+  #generation_max_length=256,
+  #generation_num_beams=4,
+  weight_decay=0.005,
+  #logging_dir='logs',
+  push_to_hub=True,
+)
+# Выберем вручную оптимизатор. Т5 в оригинальной архитектуре использует Адафактор оптимизатор
+optimizer = Adafactor(
+    model.parameters(),
+    lr=1e-5,
+    eps=(1e-30, 1e-3),
+    clip_threshold=1.0,
+    decay_rate=-0.8,
+    beta1=None,
+    weight_decay=0.0,
+    relative_step=False,
+    scale_parameter=False,
+    warmup_init=False,
+)
+lr_scheduler = AdafactorSchedule(optimizer)
+trainer = Seq2SeqTrainer(
+  model=model,
+  args=training_args,
+  train_dataset = train,
+  eval_dataset = test,
+  optimizers = (optimizer, lr_scheduler),
+  tokenizer = tokenizer,
+  compute_metrics=compute_metrics
+)
+trainer.train()
+trainer.push_to_hub()
+```
+#
+---
+# Пример конвертации массивов для данной сети
+#
+```python
+input_data = ['Официальный представитель Минобороны России генерал-майор Игорь Конашенков заявил, что два ударных вертолета Украины нанесли удар по гражданскому объекту на окраине Белгороде, в результате попадания ракет отдельные резервуары были повреждены и загорелись при этом никакого отношения к российским Вооруженным силам нефтебаза не имеет. СК возбудил уголовное дело, действия украинских военных расцениваются как теракт.']
+output_data = ['Минобороны РФ: Украинские вертолеты нанесли удар по гражданскому объекту в Белгороде']
+# Токенизируем входные данные
+task_prefix = "Spell correct: "
+input_sequences = input_data
+encoding = tokenizer(
+  [task_prefix + sequence for sequence in input_sequences],
+  padding="longest",
+  max_length=MAX_INPUT,
+  truncation=True,
+  return_tensors="pt",
+)
+input_ids, attention_mask = encoding.input_ids, encoding.attention_mask
+# Токенизируем выходные данные
+target_encoding = tokenizer(output_data, padding="longest", max_length=MAX_OUTPUT, truncation=True)
+labels = target_encoding.input_ids
+# replace padding token id's of the labels by -100
+labels = torch.tensor(labels)
+labels[labels == tokenizer.pad_token_id] = -100'''
+# Конвертируем наши данные в формат dataset
+data = Dataset.from_pandas(pd.DataFrame({'input_ids': list(np.array(input_ids)), 'attention_mask': list(np.array(attention_mask)), 'labels': list(np.array(labels))}))
+data = data.train_test_split(0.02)
+# и получим на вход сети для нашешго trainer:   train_dataset = data['train'],  eval_dataset = data['test']