bond005
/

meno-tiny-0.1

@@ -34,7 +34,7 @@ Meno-Tiny-0.1 was specifically "Russified" during the fine-tuning stage, but it
 #### 1. Example of communication in English
 ```python
-from transformers import AutoModelForCausalLM, AutoTokenizer
 model_name = "bond005/meno-tiny-0.1"
@@ -44,6 +44,7 @@ model = AutoModelForCausalLM.from_pretrained(
     device_map="auto"
 )
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 prompt = "Give me a short introduction to large language model."  # in English
 messages = [
@@ -59,7 +60,7 @@ model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
 generated_ids = model.generate(
     **model_inputs,
-    max_new_tokens=1024
 )
 generated_ids = [
     output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
@@ -72,7 +73,7 @@ print(response)
 #### 2. Example of communication in Russian
 ```python
-from transformers import AutoModelForCausalLM, AutoTokenizer
 model_name = "bond005/meno-tiny-0.1"
@@ -82,6 +83,7 @@ model = AutoModelForCausalLM.from_pretrained(
     device_map="auto"
 )
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 prompt = "Напиши краткое введение в большие языковые модели."  # in Russian
 messages = [
@@ -97,7 +99,7 @@ model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
 generated_ids = model.generate(
     **model_inputs,
-    max_new_tokens=1024
 )
 generated_ids = [
     output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
@@ -109,12 +111,21 @@ print(response)
 ## Abilities of Meno-Tiny-0.1
-Using Meno-Tiny-0.1 with different system and user prompts allows you to discover its various abilities. Below are some examples of how to communicate with Meno-Tiny-0.1 in Russian in order to solve a variety of specialized tasks.
 #### 1. The answer to the question about the document
 ```python
-from transformers import AutoModelForCausalLM, AutoTokenizer
 model_name = "bond005/meno-tiny-0.1"
@@ -124,6 +135,7 @@ model = AutoModelForCausalLM.from_pretrained(
     device_map="auto"
 )
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 prompt = "Ответь на вопрос по тексту.\n\nВопрос: {question}\n\nТекст: {context}".format(
     question="Где живут пингвины?",
@@ -142,7 +154,7 @@ model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
 generated_ids = model.generate(
     **model_inputs,
-    max_new_tokens=1024
 )
 generated_ids = [
     output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
@@ -155,7 +167,7 @@ print(response)
 #### 2. Summarization
 ```python
-from transformers import AutoModelForCausalLM, AutoTokenizer
 model_name = "bond005/meno-tiny-0.1"
@@ -165,6 +177,7 @@ model = AutoModelForCausalLM.from_pretrained(
     device_map="auto"
 )
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 prompt = "Стали известны результаты, полученные открытой системой «Писец» на ежегодной акции «Тотальный диктант», которая состоялась 20 апреля. Напомним, что «Писец» был разработан научным сотрудником Лаборатории прикладных цифровых технологий Международного научно-образовательного математического центра НГУ и сооснователем стартапа «Сибирские нейросети» Иваном Бондаренко. Впервые искусственный интеллект соревновался в грамотности с человеческим в рамках задачи диктанта, и создатель «Писца» предполагал, что положительной оценки тот не получит — скорее всего, система допустит минимум орфографических ошибок, однако с расставлением знаков препинания вряд ли справится. \n\nРазработчикам «Писца» было важно собрать статистику о разнообразии совершаемых им ошибок и неточностей, чтобы в дальнейшем усовершенствовать систему. Результаты оказались неожиданными, но закономерными – «Писец»  вполне удовлетворительно расставил запятые и разбил текст на абзацы. Для этого его специально научили улавливать в речи «кодовые фразы» вроде «пишем с красной строки» или «переходим на новый абзац». В этих целях использовалась отдельная нейросеть, обученная на базе Longformer выделять такие «внесюжетные» вставки наподобие системы NER (Named Entity Recognition - распознавание именованных сущностей). Для обучения использовался синтетический текстовый корпус. Сам же «Писец» использовал в своей работе связку Wav2Vec2-Large-Ru-Golos + Whisper-Podlodka (о Wav2Vec2-Large-Ru-Golos мы ранее писали https://www.nsu.ru/n/media/news/nauka/razrabotannuyu-professorom-ngu-model-raspoznavaniya-rechi-nauchili-razlichat-emotsii, а Whisper-Podlodka является новой моделью). Однако галлюцинаций избежать не удалось.\n\nГаллюцинация — это ответ авторегрессионной нейросетевой модели языка, который корректен грамматически, но неверен семантически (не соответствует входному запросу по смыслу)."
 messages = [
@@ -180,7 +193,7 @@ model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
 generated_ids = model.generate(
     **model_inputs,
-    max_new_tokens=1024
 )
 generated_ids = [
     output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
@@ -193,7 +206,7 @@ print(response)
 #### 3. Anaphora resolution in dialogue (with few-shot prompting)
 ```python
-from transformers import AutoModelForCausalLM, AutoTokenizer
 model_name = "bond005/meno-tiny-0.1"
@@ -203,6 +216,7 @@ model = AutoModelForCausalLM.from_pretrained(
     device_map="auto"
 )
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 user_prompt = "User: Кто сейчас ректор Новосибирского государственного университета?\nAssistant: Ректором Новосибирского государственного университета является Михаил Петрович Федорук, академик Российской академии наук, доктор физико-математических наук, профессор.\nUser: Какие у него научные интересы?"
 few_shots_for_anaphora = [
@@ -228,7 +242,7 @@ model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
 generated_ids = model.generate(
     **model_inputs,
-    max_new_tokens=1024
 )
 generated_ids = [
     output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
@@ -241,7 +255,7 @@ print(response)
 ### 4. Correction of speech recognition output (with few-shot prompting)
 ```python
-from transformers import AutoModelForCausalLM, AutoTokenizer
 model_name = "bond005/meno-tiny-0.1"
@@ -251,8 +265,9 @@ model = AutoModelForCausalLM.from_pretrained(
     device_map="auto"
 )
 tokenizer = AutoTokenizer.from_pretrained(model_name)
-user_prompt = "то есть мы в каждый момент времени знаем про звук еще и какое то такое распределение частот и связанное это с тем что наше ухо на самом деле примерно также и воспринимать звук то есть мы не просто притуду понимаем что вот где то там громче где то тише а наше уху еще понимает что вот этот  звук выше этот ниже этот голос боле высокий этот голос низки"
 few_shots_for_ASR_correction = [
     {"role": "user", "content": "вы выборском районе города проводится проверка по факту нападению на квартиру"},
     {"role": "assistant", "content": "В Выборгском районе города проводится проверка по факту нападения на квартиру."},
@@ -278,7 +293,7 @@ model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
 generated_ids = model.generate(
     **model_inputs,
-    max_new_tokens=1024
 )
 generated_ids = [
     output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)

 #### 1. Example of communication in English
 ```python
+from transformers import AutoModelForCausalLM, AutoTokenizer, GenerationConfig
 model_name = "bond005/meno-tiny-0.1"
     device_map="auto"
 )
 tokenizer = AutoTokenizer.from_pretrained(model_name)
+gen_config = GenerationConfig.from_pretrained(model_name)
 prompt = "Give me a short introduction to large language model."  # in English
 messages = [
 generated_ids = model.generate(
     **model_inputs,
+    generation_config=gen_config
 )
 generated_ids = [
     output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
 #### 2. Example of communication in Russian
 ```python
+from transformers import AutoModelForCausalLM, AutoTokenizer, GenerationConfig
 model_name = "bond005/meno-tiny-0.1"
     device_map="auto"
 )
 tokenizer = AutoTokenizer.from_pretrained(model_name)
+gen_config = GenerationConfig.from_pretrained(model_name)
 prompt = "Напиши краткое введение в большие языковые модели."  # in Russian
 messages = [
 generated_ids = model.generate(
     **model_inputs,
+    generation_config=gen_config
 )
 generated_ids = [
     output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
 ## Abilities of Meno-Tiny-0.1
+Using Meno-Tiny-0.1 with different system and user prompts allows you to discover its various abilities. The main tasks that Meno-Tiny-0.1 can solve, including in the few-shot prompting mode, are:
+- Answering questions about the text;
+- Summarization;
+- Determining text toxicity and detoxifying the text;
+- Anaphora resolution;
+- Correcting speech recognition errors;
+- and so on.
+Below are some examples of how to communicate with Meno-Tiny-0.1 in Russian in order to solve a variety of specialized tasks.
 #### 1. The answer to the question about the document
 ```python
+from transformers import AutoModelForCausalLM, AutoTokenizer, GenerationConfig
 model_name = "bond005/meno-tiny-0.1"
     device_map="auto"
 )
 tokenizer = AutoTokenizer.from_pretrained(model_name)
+gen_config = GenerationConfig.from_pretrained(model_name)
 prompt = "Ответь на вопрос по тексту.\n\nВопрос: {question}\n\nТекст: {context}".format(
     question="Где живут пингвины?",
 generated_ids = model.generate(
     **model_inputs,
+    generation_config=gen_config
 )
 generated_ids = [
     output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
 #### 2. Summarization
 ```python
+from transformers import AutoModelForCausalLM, AutoTokenizer, GenerationConfig
 model_name = "bond005/meno-tiny-0.1"
     device_map="auto"
 )
 tokenizer = AutoTokenizer.from_pretrained(model_name)
+gen_config = GenerationConfig.from_pretrained(model_name)
 prompt = "Стали известны результаты, полученные открытой системой «Писец» на ежегодной акции «Тотальный диктант», которая состоялась 20 апреля. Напомним, что «Писец» был разработан научным сотрудником Лаборатории прикладных цифровых технологий Международного научно-образовательного математического центра НГУ и сооснователем стартапа «Сибирские нейросети» Иваном Бондаренко. Впервые искусственный интеллект соревновался в грамотности с человеческим в рамках задачи диктанта, и создатель «Писца» предполагал, что положительной оценки тот не получит — скорее всего, система допустит минимум орфографических ошибок, однако с расставлением знаков препинания вряд ли справится. \n\nРазработчикам «Писца» было важно собрать статистику о разнообразии совершаемых им ошибок и неточностей, чтобы в дальнейшем усовершенствовать систему. Результаты оказались неожиданными, но закономерными – «Писец»  вполне удовлетворительно расставил запятые и разбил текст на абзацы. Для этого его специально научили улавливать в речи «кодовые фразы» вроде «пишем с красной строки» или «переходим на новый абзац». В этих целях использовалась отдельная нейросеть, обученная на базе Longformer выделять такие «внесюжетные» вставки наподобие системы NER (Named Entity Recognition - распознавание именованных сущностей). Для обучения использовался синтетический текстовый корпус. Сам же «Писец» использовал в своей работе связку Wav2Vec2-Large-Ru-Golos + Whisper-Podlodka (о Wav2Vec2-Large-Ru-Golos мы ранее писали https://www.nsu.ru/n/media/news/nauka/razrabotannuyu-professorom-ngu-model-raspoznavaniya-rechi-nauchili-razlichat-emotsii, а Whisper-Podlodka является новой моделью). Однако галлюцинаций избежать не удалось.\n\nГаллюцинация — это ответ авторегрессионной нейросетевой модели языка, который корректен грамматически, но неверен семантически (не соответствует входному запросу по смыслу)."
 messages = [
 generated_ids = model.generate(
     **model_inputs,
+    generation_config=gen_config
 )
 generated_ids = [
     output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
 #### 3. Anaphora resolution in dialogue (with few-shot prompting)
 ```python
+from transformers import AutoModelForCausalLM, AutoTokenizer, GenerationConfig
 model_name = "bond005/meno-tiny-0.1"
     device_map="auto"
 )
 tokenizer = AutoTokenizer.from_pretrained(model_name)
+gen_config = GenerationConfig.from_pretrained(model_name)
 user_prompt = "User: Кто сейчас ректор Новосибирского государственного университета?\nAssistant: Ректором Новосибирского государственного университета является Михаил Петрович Федорук, академик Российской академии наук, доктор физико-математических наук, профессор.\nUser: Какие у него научные интересы?"
 few_shots_for_anaphora = [
 generated_ids = model.generate(
     **model_inputs,
+    generation_config=gen_config
 )
 generated_ids = [
     output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
 ### 4. Correction of speech recognition output (with few-shot prompting)
 ```python
+from transformers import AutoModelForCausalLM, AutoTokenizer, GenerationConfig
 model_name = "bond005/meno-tiny-0.1"
     device_map="auto"
 )
 tokenizer = AutoTokenizer.from_pretrained(model_name)
+gen_config = GenerationConfig.from_pretrained(model_name)
+user_prompt = "то есть мы в каждый момент времени знаем про звук еще и какое то такое распределение частот и связанное это с тем что наше ухо на самом деле примерно также и воспринимать звук то есть мы не просто понимаем что вот где то там громче где то тише а наше уху еще понимает что вот этот  звук выше этот ниже этот голос боле высокий этот голос низки"
 few_shots_for_ASR_correction = [
     {"role": "user", "content": "вы выборском районе города проводится проверка по факту нападению на квартиру"},
     {"role": "assistant", "content": "В Выборгском районе города проводится проверка по факту нападения на квартиру."},
 generated_ids = model.generate(
     **model_inputs,
+    generation_config=gen_config
 )
 generated_ids = [
     output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)