AlexWortega commited on
Commit
77ffbd5
·
1 Parent(s): ac136eb

Create README.md

Browse files
Files changed (1) hide show
  1. README.md +113 -0
README.md ADDED
@@ -0,0 +1,113 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ datasets:
3
+ - IlyaGusev/habr
4
+ - Den4ikAI/russian_instructions
5
+ - wiki_qa
6
+ inference:
7
+ parameters:
8
+ min_length: 20
9
+ max_new_tokens: 250
10
+ top_k: 50
11
+ top_p: 0.9
12
+ early_stopping: True
13
+ no_repeat_ngram_size: 2
14
+ use_cache: True
15
+ repetition_penalty: 1.5
16
+ length_penalty: 0.8
17
+ num_beams: 2
18
+
19
+ license: apache-2.0
20
+ language:
21
+ - ru
22
+ pipeline_tag: text-generation
23
+ widget:
24
+ - text: "Может ли встретиться пингвин и белый медведь?"
25
+ example_title: Question Answering
26
+ - text: "Как зарабатывать много денег обучая модели?"
27
+ example_title: Open domain Knoweledge
28
+ - text: "Напиши код который выведет Привет Мир"
29
+ example_title: Scientific knowledge
30
+ library_name: transformers
31
+ tags:
32
+ - finance
33
+ - code
34
+ ---
35
+
36
+ <h1 style="font-size: 42px">Instructions ruGPT large v0.11_25к_a<h1/>
37
+
38
+
39
+
40
+ # Model Summary
41
+
42
+ > Это ruGPTlarge дообученная в инструктивно-флановом сетапе, она более ли менее зирошотиться и работает лучше чем XGLM1.7b,mgpt на русском язеку
43
+
44
+
45
+ # Quick Start
46
+
47
+ ```python
48
+ from transformers import pipeline
49
+ #в душе не ебу будет ли норм работать, ставлю жопу автора хф что токенайзер мисматчнет с моделью, вообще грузите по нормальному
50
+ pipe = pipeline(model='AlexWortega/instruct_rugptlarge')
51
+ pipe('''Как собрать питон код?''')
52
+ ```
53
+ or
54
+ ```python
55
+ from transformers import GPT2TokenizerFast,GPT2LMHeadModel
56
+ tokenizer = GPT2TokenizerFast.from_pretrained("AlexWortega/instruct_rugptlarge")
57
+ special_tokens_dict = {'additional_special_tokens': ['<code>', '</code>', '<instructionS>', '<instructionE>', '<next>']}
58
+
59
+ tokenizer.add_special_tokens(special_tokens_dict)
60
+ device = 'cuda:1'
61
+ model = GPT2LMHeadModel.from_pretrained("AlexWortega/instruct_rugptlarge")
62
+ model.to(device)
63
+
64
+ model.resize_token_embeddings(len(tokenizer))
65
+ ```
66
+ обратите внимание, что лучшие параметры для генерации
67
+ ```
68
+ gen_kwargs = {
69
+ "min_length": 20,
70
+ "max_new_tokens": 100,
71
+ "top_k": 50,
72
+ "top_p": 0.9,
73
+ "do_sample": True,
74
+ "early_stopping": True,
75
+ "no_repeat_ngram_size": 2,
76
+ "eos_token_id": tokenizer.eos_token_id,
77
+ "pad_token_id": tokenizer.eos_token_id,
78
+ "use_cache": True,
79
+ "repetition_penalty": 1.5,
80
+ "length_penalty": 0.8,
81
+ "num_beams": 4,
82
+ "num_return_sequences": k
83
+ }
84
+ ```
85
+ # License
86
+
87
+ The weights of Instructions ruGPT Small v0.1a are licensed under version 2.0 of the Apache License.
88
+
89
+
90
+
91
+ ## Hyperparameters
92
+
93
+ I used Novograd with a learning rate of 2e-5 and global batch size of 6 (3 for each data parallel worker).
94
+ I use both data parallelism and pipeline parallelism to conduct training.
95
+ During training, we truncate the input sequence to 1024 tokens, and for input sequence that contains less than 1024 tokens, we concatenate multiple sequences into one long sequence to improve the data efficiency.
96
+
97
+
98
+
99
+ # References
100
+
101
+ #Metrics
102
+
103
+ ван дей пипл, ван дееей
104
+
105
+ ## BibTeX entry and citation info
106
+
107
+ ```bibtex
108
+ @article{
109
+ title={GPT2xl is underrated task solver},
110
+ author={Nickolich Aleksandr, 5Q, datascience, Ilya Gusev, Alex Kukushkin, Karina Romanova, Arseniy Shahmatov, Maksim Gersimenko},
111
+ year={2023}
112
+ }
113
+ ```