operator81 commited on
Commit
f332f70
·
verified ·
1 Parent(s): 0aceb29

Upload 14 files

Browse files
README.md CHANGED
@@ -1,19 +1,12 @@
1
  ---
2
- title: PP3
3
- emoji: 🚀
4
- colorFrom: red
5
- colorTo: red
6
- sdk: docker
7
- app_port: 8501
8
- tags:
9
- - streamlit
10
  pinned: false
11
- short_description: Streamlit template space
12
  ---
13
 
14
- # Welcome to Streamlit!
15
-
16
- Edit `/src/streamlit_app.py` to customize this app to your heart's desire. :heart:
17
-
18
- If you have any questions, checkout our [documentation](https://docs.streamlit.io) and [community
19
- forums](https://discuss.streamlit.io).
 
1
  ---
2
+ title: PP3 Team 1
3
+ emoji: 🐢
4
+ colorFrom: pink
5
+ colorTo: blue
6
+ sdk: streamlit
7
+ sdk_version: 1.40.2
8
+ app_file: app.py
 
9
  pinned: false
 
10
  ---
11
 
12
+ Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference
 
 
 
 
 
_app.py ADDED
@@ -0,0 +1,107 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ import streamlit as st
2
+ import pandas as pd
3
+ import numpy as np
4
+ import nltk
5
+ from nltk.tokenize import sent_tokenize, word_tokenize
6
+ from transformers import AutoModelForCausalLM, AutoTokenizer
7
+
8
+
9
+ # Настройка конфигурации страницы Streamlit
10
+ st.set_page_config(
11
+ page_title="Generate reviews",
12
+ initial_sidebar_state="expanded"
13
+ )
14
+
15
+ # Заголовок приложения
16
+ st.title("Генератор отзывов на основе ИИ")
17
+ st.write("Создайте уникальные текстовые отзывы о различных местах на основе категорий, рейтинга и ключевых слов.")
18
+
19
+
20
+ def download_nltk_data():
21
+ nltk.download('punkt')
22
+ nltk.download('punkt_tab')
23
+
24
+
25
+ # Загрузка модели и токенизатора
26
+ # @st.cache_data()
27
+ @st.cache_resource
28
+ def get_model():
29
+ # Загрузка модели
30
+ model = AutoModelForCausalLM.from_pretrained('model')
31
+ # Загрузка токенизатора
32
+ tokenizer = AutoTokenizer.from_pretrained('model')
33
+ return model, tokenizer
34
+
35
+
36
+ # Генерация отзыва
37
+ def gen_review(input_text):
38
+ model, tokenizer = get_model()
39
+ input_ids = tokenizer.encode(input_text, return_tensors='pt')
40
+ output = model.generate(
41
+ input_ids,
42
+ max_length=200,
43
+ num_return_sequences=1,
44
+ no_repeat_ngram_size=2,
45
+ do_sample=True,
46
+ top_p=0.95,
47
+ top_k=60,
48
+ temperature=0.9,
49
+ eos_token_id=tokenizer.eos_token_id,
50
+ )
51
+ return tokenizer.decode(output[0], skip_special_tokens=True)
52
+
53
+
54
+ def capitalize_and_punctuate(text):
55
+ # Разделяем текст на предложения
56
+ text = text.split(":")[-1].strip()
57
+ sentences = sent_tokenize(text)
58
+
59
+ # Проверка последнего предложения
60
+ last_sentence = sentences[-1]
61
+ if not last_sentence.endswith('.'):
62
+ sentences.pop()
63
+
64
+ # Обрабатываем оставшиеся предложения
65
+ corrected_sentences = []
66
+ for sentence in sentences:
67
+ words = word_tokenize(sentence)
68
+
69
+ # Делаем первую букву первого слова заглавной
70
+ if len(words) > 0:
71
+ words[0] = words[0].capitalize()
72
+
73
+ # Собираем обратно предложение
74
+ corrected_sentence = ' '.join(words)
75
+ corrected_sentences.append(corrected_sentence)
76
+
77
+ # Объединяем все предложения в единый текст
78
+ final_text = ' '.join(corrected_sentences)
79
+ final_text = final_text.replace(' .', '.')
80
+
81
+ return final_text
82
+
83
+
84
+ # Главная функция
85
+ def main():
86
+
87
+ if 'btn_predict' not in st.session_state:
88
+ st.session_state['btn_predict'] = False
89
+
90
+ category = st.text_input("Категория:", value="Кондитерская")
91
+ rating = st.slider("Рейтинг", 1, 5, 1)
92
+ key_words = st.text_input("Ключевые слова", value="десерт, торт, цена")
93
+
94
+ # Ввод новых параметров
95
+ input_text = f"Категория: {category}; Рейтинг: {rating}; Ключевые слова: {key_words} -> Отзыв:"
96
+
97
+ if st.button('Generate'):
98
+ with st.spinner('Генерация отзыва...'):
99
+ generated_text = gen_review(input_text)
100
+ generated_text = capitalize_and_punctuate(generated_text)
101
+ st.success("Готово!")
102
+ st.text(generated_text)
103
+
104
+
105
+ if __name__ == "__main__":
106
+ download_nltk_data()
107
+ main()
_app2.py ADDED
@@ -0,0 +1,103 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ import streamlit as st
2
+ import pandas as pd
3
+
4
+
5
+ from transformers import AutoModelForCausalLM, AutoTokenizer
6
+
7
+
8
+ # Настройка конфигурации страницы Streamlit
9
+ st.set_page_config(
10
+ page_title="Generate reviews",
11
+ initial_sidebar_state="expanded"
12
+ )
13
+
14
+ # Заголовок приложения
15
+ st.title("Генератор отзывов на основе ИИ")
16
+ st.write("Создайте уникальные текстовые отзывы о различных местах на основе категорий, рейтинга и ключевых слов.")
17
+
18
+
19
+ # Загрузка модели и токенизатора
20
+ # @st.cache_data()
21
+ @st.cache_resource
22
+ def get_model():
23
+ # Загрузка модели
24
+ model = AutoModelForCausalLM.from_pretrained('model')
25
+ # Загрузка токенизатора
26
+ tokenizer = AutoTokenizer.from_pretrained('model')
27
+ return model, tokenizer
28
+
29
+
30
+ # Генерация отзыва
31
+ def gen_review(input_text):
32
+ model, tokenizer = get_model()
33
+ input_ids = tokenizer.encode(input_text, return_tensors='pt')
34
+ output = model.generate(
35
+ input_ids,
36
+ max_length=200,
37
+ num_return_sequences=1,
38
+ no_repeat_ngram_size=2,
39
+ do_sample=True,
40
+ top_p=0.95,
41
+ top_k=60,
42
+ temperature=0.9,
43
+ eos_token_id=tokenizer.eos_token_id,
44
+ )
45
+ return tokenizer.decode(output[0], skip_special_tokens=True)
46
+
47
+
48
+ def capitalize_and_punctuate(text):
49
+ # Извлекаем часть текста после последнего двоеточия
50
+ text = text.split(":")[-1].strip()
51
+
52
+ # Разделяем текст на предложения по общим знакам препинания
53
+ sentences = []
54
+ current_sentence = []
55
+ for char in text:
56
+ current_sentence.append(char)
57
+ # Если встречаем знак конца предложения, добавляем его в список предложений
58
+ if char in '.!?':
59
+ sentences.append(''.join(current_sentence).strip())
60
+ current_sentence = []
61
+
62
+ # Если остался текст, добавляем его как последнее предложение
63
+ if current_sentence:
64
+ sentences.append(''.join(current_sentence).strip())
65
+
66
+ # Обрабатываем каждое предложение, чтобы сделать первую букву заглавной
67
+ corrected_sentences = []
68
+ for sentence in sentences:
69
+ if sentence:
70
+ # Делаем первую букву заглавной и добавляем точку в конце, если её нет
71
+ corrected_sentence = sentence[0].upper() + sentence[1:]
72
+ if not corrected_sentence.endswith('.'):
73
+ corrected_sentence += '.'
74
+ corrected_sentences.append(corrected_sentence)
75
+
76
+ # Объединяем все исправленные предложения в финальный текст
77
+ final_text = ' '.join(corrected_sentences)
78
+ return final_text
79
+
80
+
81
+ # Главная функция
82
+ def main():
83
+
84
+ if 'btn_predict' not in st.session_state:
85
+ st.session_state['btn_predict'] = False
86
+
87
+ category = st.text_input("Категория:", value="Кондитерская")
88
+ rating = st.slider("Рейтинг", 1, 5, 1)
89
+ key_words = st.text_input("Ключевые слова", value="десерт, торт, цена")
90
+
91
+ # Ввод новых параметров
92
+ input_text = f"Категория: {category}; Рейтинг: {rating}; Ключевые слова: {key_words} -> Отзыв:"
93
+
94
+ if st.button('Generate'):
95
+ with st.spinner('Генерация отзыва...'):
96
+ generated_text = gen_review(input_text)
97
+ generated_text = capitalize_and_punctuate(generated_text)
98
+ st.success("Готово!")
99
+ st.text(generated_text)
100
+
101
+
102
+ if __name__ == "__main__":
103
+ main()
app.py ADDED
@@ -0,0 +1,113 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ import streamlit as st
2
+ import pandas as pd
3
+
4
+
5
+ from transformers import AutoModelForCausalLM, AutoTokenizer
6
+
7
+
8
+ # Настройка конфигурации страницы Streamlit
9
+ st.set_page_config(
10
+ page_title="Generate reviews",
11
+ initial_sidebar_state="expanded"
12
+ )
13
+
14
+ # Заголовок приложения
15
+ st.title("Генератор отзывов на основе ИИ")
16
+ st.write("Создайте уникальные текстовые отзывы о различных местах на основе категорий, рейтинга и ключевых слов.")
17
+ st.sidebar.title("Параметры генерации")
18
+
19
+ # Загрузка модели и токенизатора
20
+ # @st.cache_data()
21
+ @st.cache_resource
22
+ def get_model():
23
+ # Загрузка модели
24
+ model = AutoModelForCausalLM.from_pretrained('model')
25
+ # Загрузка токенизатора
26
+ tokenizer = AutoTokenizer.from_pretrained('model')
27
+ return model, tokenizer
28
+
29
+
30
+ # Генерация отзыва
31
+ def gen_review(input_text, model, tokenizer, params):
32
+ input_ids = tokenizer.encode(input_text, return_tensors='pt')
33
+ output = model.generate(
34
+ input_ids,
35
+ max_length=params['max_length'],
36
+ num_return_sequences=params['num_return_sequences'],
37
+ no_repeat_ngram_size=params['no_repeat_ngram_size'],
38
+ do_sample=params['do_sample'],
39
+ top_p=params['top_p'],
40
+ top_k=params['top_k'],
41
+ temperature=params['temperature'],
42
+ eos_token_id=tokenizer.eos_token_id,
43
+ )
44
+ return tokenizer.decode(output[0], skip_special_tokens=True)
45
+
46
+
47
+ def capitalize_and_punctuate(text):
48
+ # Извлекаем часть текста после последнего двоеточия
49
+ text = text.split(":")[-1].strip()
50
+
51
+ # Разделяем текст на предложения по общим знакам препинания
52
+ sentences = []
53
+ current_sentence = []
54
+ for char in text:
55
+ current_sentence.append(char)
56
+ # Если встречаем знак конца предложения, добавляем его в список предложений
57
+ if char in '.!?':
58
+ sentences.append(''.join(current_sentence).strip())
59
+ current_sentence = []
60
+
61
+ # Если остался текст, добавляем его как последнее предложение
62
+ if current_sentence:
63
+ sentences.append(''.join(current_sentence).strip())
64
+
65
+ # Обрабатываем каждое предложение, чтобы сделать первую букву заглавной
66
+ corrected_sentences = []
67
+ for sentence in sentences:
68
+ if sentence:
69
+ # Делаем первую букву заглавной и добавляем точку в конце, если её нет
70
+ corrected_sentence = sentence[0].upper() + sentence[1:]
71
+ if not corrected_sentence.endswith('.'):
72
+ corrected_sentence += '.'
73
+ corrected_sentences.append(corrected_sentence)
74
+
75
+ # Объединяем все исправленные предложения в финальный текст
76
+ final_text = ' '.join(corrected_sentences)
77
+ return final_text
78
+
79
+
80
+ # Главная функция
81
+ def main():
82
+ # Загружаем модель и токенизатор
83
+ model, tokenizer = get_model()
84
+ if 'btn_predict' not in st.session_state:
85
+ st.session_state['btn_predict'] = False
86
+
87
+ # Параметры генерации
88
+ params = {}
89
+ params['max_length'] = st.sidebar.slider('Максимальная длина', min_value=50, max_value=300, value=200)
90
+ params['num_return_sequences'] = st.sidebar.number_input('Количество ответов', min_value=1, max_value=10, value=1)
91
+ params['no_repeat_ngram_size'] = st.sidebar.number_input('Размер n-грамм без повтора', min_value=1, max_value=20, value=2)
92
+ params['do_sample'] = st.sidebar.checkbox('Использовать случайную выборку', value=True)
93
+ params['top_p'] = st.sidebar.slider('Вероятность отбора (Top-p)', min_value=0.01, max_value=1.00, step=0.05, value=0.95)
94
+ params['top_k'] = st.sidebar.number_input('Топ-k отбор', min_value=1, max_value=100, value=60)
95
+ params['temperature'] = st.sidebar.slider('Температура', min_value=0.01, max_value=2.00, step=0.05, value=0.90)
96
+
97
+ category = st.text_input("Категория:", value="Кондитерская")
98
+ rating = st.slider("Рейтинг", 1, 5, 1)
99
+ key_words = st.text_input("Ключевые слова", value="десерт, торт, цена")
100
+
101
+ # Ввод новых параметров
102
+ input_text = f"Категория: {category}; Рейтинг: {rating}; Ключевые слова: {key_words} -> Отзыв:"
103
+
104
+ if st.button('Generate'):
105
+ with st.spinner('Генерация отзыва...'):
106
+ generated_text = gen_review(input_text, model, tokenizer, params)
107
+ generated_text = capitalize_and_punctuate(generated_text)
108
+ st.success("Готово!")
109
+ st.text(generated_text)
110
+
111
+
112
+ if __name__ == "__main__":
113
+ main()
app3.py ADDED
@@ -0,0 +1,103 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ import streamlit as st
2
+ import pandas as pd
3
+
4
+
5
+ from transformers import AutoModelForCausalLM, AutoTokenizer
6
+
7
+
8
+ # Настройка конфигурации страницы Streamlit
9
+ st.set_page_config(
10
+ page_title="Generate reviews",
11
+ initial_sidebar_state="expanded"
12
+ )
13
+
14
+ # Заголовок приложения
15
+ st.title("Генератор отзывов на основе ИИ")
16
+ st.write("Создайте уникальные текстовые отзывы о различных местах на основе категорий, рейтинга и ключевых слов.")
17
+
18
+
19
+ # Загрузка модели и токенизатора
20
+ # @st.cache_data()
21
+ @st.cache_resource
22
+ def get_model():
23
+ # Загрузка модели
24
+ model = AutoModelForCausalLM.from_pretrained('model')
25
+ # Загрузка токенизатора
26
+ tokenizer = AutoTokenizer.from_pretrained('model')
27
+ return model, tokenizer
28
+
29
+
30
+ # Генерация отзыва
31
+ def gen_review(input_text, model, tokenizer):
32
+ input_ids = tokenizer.encode(input_text, return_tensors='pt')
33
+ output = model.generate(
34
+ input_ids,
35
+ max_length=200,
36
+ num_return_sequences=1,
37
+ no_repeat_ngram_size=2,
38
+ do_sample=True,
39
+ top_p=0.95,
40
+ top_k=60,
41
+ temperature=0.9,
42
+ eos_token_id=tokenizer.eos_token_id,
43
+ )
44
+ return tokenizer.decode(output[0], skip_special_tokens=True)
45
+
46
+
47
+ def capitalize_and_punctuate(text):
48
+ # Извлекаем часть текста после последнего двоеточия
49
+ text = text.split(":")[-1].strip()
50
+
51
+ # Разделяем текст на предложения по общим знакам препинания
52
+ sentences = []
53
+ current_sentence = []
54
+ for char in text:
55
+ current_sentence.append(char)
56
+ # Если встречаем знак конца предложения, добавляем его в список предложений
57
+ if char in '.!?':
58
+ sentences.append(''.join(current_sentence).strip())
59
+ current_sentence = []
60
+
61
+ # Если остался текст, добавляем его как последнее предложение
62
+ if current_sentence:
63
+ sentences.append(''.join(current_sentence).strip())
64
+
65
+ # Обрабатываем каждое предложение, чтобы сделать первую букву заглавной
66
+ corrected_sentences = []
67
+ for sentence in sentences:
68
+ if sentence:
69
+ # Делаем первую букву заглавной и добавляем точку в конце, если её нет
70
+ corrected_sentence = sentence[0].upper() + sentence[1:]
71
+ if not corrected_sentence.endswith('.'):
72
+ corrected_sentence += '.'
73
+ corrected_sentences.append(corrected_sentence)
74
+
75
+ # Объединяем все исправленные предложения в финальный текст
76
+ final_text = ' '.join(corrected_sentences)
77
+ return final_text
78
+
79
+
80
+ # Главная функция
81
+ def main():
82
+ # Загружаем модель и токенизатор
83
+ model, tokenizer = get_model()
84
+ if 'btn_predict' not in st.session_state:
85
+ st.session_state['btn_predict'] = False
86
+
87
+ category = st.text_input("Категория:", value="Кондитерская")
88
+ rating = st.slider("Рейтинг", 1, 5, 1)
89
+ key_words = st.text_input("Ключевые слова", value="десерт, торт, цена")
90
+
91
+ # Ввод новых параметров
92
+ input_text = f"Категория: {category}; Рейтинг: {rating}; Ключевые слова: {key_words} -> Отзыв:"
93
+
94
+ if st.button('Generate'):
95
+ with st.spinner('Генерация отзыва...'):
96
+ generated_text = gen_review(input_text, model, tokenizer)
97
+ generated_text = capitalize_and_punctuate(generated_text)
98
+ st.success("Готово!")
99
+ st.text(generated_text)
100
+
101
+
102
+ if __name__ == "__main__":
103
+ main()
gitattributes ADDED
@@ -0,0 +1,35 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ *.7z filter=lfs diff=lfs merge=lfs -text
2
+ *.arrow filter=lfs diff=lfs merge=lfs -text
3
+ *.bin filter=lfs diff=lfs merge=lfs -text
4
+ *.bz2 filter=lfs diff=lfs merge=lfs -text
5
+ *.ckpt filter=lfs diff=lfs merge=lfs -text
6
+ *.ftz filter=lfs diff=lfs merge=lfs -text
7
+ *.gz filter=lfs diff=lfs merge=lfs -text
8
+ *.h5 filter=lfs diff=lfs merge=lfs -text
9
+ *.joblib filter=lfs diff=lfs merge=lfs -text
10
+ *.lfs.* filter=lfs diff=lfs merge=lfs -text
11
+ *.mlmodel filter=lfs diff=lfs merge=lfs -text
12
+ *.model filter=lfs diff=lfs merge=lfs -text
13
+ *.msgpack filter=lfs diff=lfs merge=lfs -text
14
+ *.npy filter=lfs diff=lfs merge=lfs -text
15
+ *.npz filter=lfs diff=lfs merge=lfs -text
16
+ *.onnx filter=lfs diff=lfs merge=lfs -text
17
+ *.ot filter=lfs diff=lfs merge=lfs -text
18
+ *.parquet filter=lfs diff=lfs merge=lfs -text
19
+ *.pb filter=lfs diff=lfs merge=lfs -text
20
+ *.pickle filter=lfs diff=lfs merge=lfs -text
21
+ *.pkl filter=lfs diff=lfs merge=lfs -text
22
+ *.pt filter=lfs diff=lfs merge=lfs -text
23
+ *.pth filter=lfs diff=lfs merge=lfs -text
24
+ *.rar filter=lfs diff=lfs merge=lfs -text
25
+ *.safetensors filter=lfs diff=lfs merge=lfs -text
26
+ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
27
+ *.tar.* filter=lfs diff=lfs merge=lfs -text
28
+ *.tar filter=lfs diff=lfs merge=lfs -text
29
+ *.tflite filter=lfs diff=lfs merge=lfs -text
30
+ *.tgz filter=lfs diff=lfs merge=lfs -text
31
+ *.wasm filter=lfs diff=lfs merge=lfs -text
32
+ *.xz filter=lfs diff=lfs merge=lfs -text
33
+ *.zip filter=lfs diff=lfs merge=lfs -text
34
+ *.zst filter=lfs diff=lfs merge=lfs -text
35
+ *tfevents* filter=lfs diff=lfs merge=lfs -text
model/config.json ADDED
@@ -0,0 +1,41 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "sberbank-ai/rugpt3small_based_on_gpt2",
3
+ "activation_function": "gelu_new",
4
+ "architectures": [
5
+ "GPT2LMHeadModel"
6
+ ],
7
+ "attn_pdrop": 0.1,
8
+ "bos_token_id": 1,
9
+ "embd_pdrop": 0.1,
10
+ "eos_token_id": 2,
11
+ "gradient_checkpointing": false,
12
+ "id2label": {
13
+ "0": "LABEL_0"
14
+ },
15
+ "initializer_range": 0.02,
16
+ "label2id": {
17
+ "LABEL_0": 0
18
+ },
19
+ "layer_norm_epsilon": 1e-05,
20
+ "model_type": "gpt2",
21
+ "n_ctx": 2048,
22
+ "n_embd": 768,
23
+ "n_head": 12,
24
+ "n_inner": null,
25
+ "n_layer": 12,
26
+ "n_positions": 2048,
27
+ "pad_token_id": 0,
28
+ "reorder_and_upcast_attn": false,
29
+ "resid_pdrop": 0.1,
30
+ "scale_attn_by_inverse_layer_idx": false,
31
+ "scale_attn_weights": true,
32
+ "summary_activation": null,
33
+ "summary_first_dropout": 0.1,
34
+ "summary_proj_to_labels": true,
35
+ "summary_type": "cls_index",
36
+ "summary_use_proj": true,
37
+ "torch_dtype": "float32",
38
+ "transformers_version": "4.46.3",
39
+ "use_cache": true,
40
+ "vocab_size": 50264
41
+ }
model/generation_config.json ADDED
@@ -0,0 +1,7 @@
 
 
 
 
 
 
 
 
1
+ {
2
+ "_from_model_config": true,
3
+ "bos_token_id": 1,
4
+ "eos_token_id": 2,
5
+ "pad_token_id": 0,
6
+ "transformers_version": "4.46.3"
7
+ }
model/merges.txt ADDED
The diff for this file is too large to render. See raw diff
 
model/model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4c4a4f2313095a80c16a071f619dc17528f49e00437f87a1fbdbe3b06fb42feb
3
+ size 500941440
model/special_tokens_map.json ADDED
@@ -0,0 +1,37 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": true,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "eos_token": {
10
+ "content": "</s>",
11
+ "lstrip": false,
12
+ "normalized": true,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "mask_token": {
17
+ "content": "<mask>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "pad_token": {
24
+ "content": "<pad>",
25
+ "lstrip": false,
26
+ "normalized": true,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "unk_token": {
31
+ "content": "<unk>",
32
+ "lstrip": false,
33
+ "normalized": true,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ }
37
+ }
model/tokenizer_config.json ADDED
@@ -0,0 +1,58 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "add_bos_token": false,
3
+ "add_prefix_space": false,
4
+ "added_tokens_decoder": {
5
+ "0": {
6
+ "content": "<pad>",
7
+ "lstrip": false,
8
+ "normalized": true,
9
+ "rstrip": false,
10
+ "single_word": false,
11
+ "special": true
12
+ },
13
+ "1": {
14
+ "content": "<s>",
15
+ "lstrip": false,
16
+ "normalized": true,
17
+ "rstrip": false,
18
+ "single_word": false,
19
+ "special": true
20
+ },
21
+ "2": {
22
+ "content": "</s>",
23
+ "lstrip": false,
24
+ "normalized": true,
25
+ "rstrip": false,
26
+ "single_word": false,
27
+ "special": true
28
+ },
29
+ "3": {
30
+ "content": "<unk>",
31
+ "lstrip": false,
32
+ "normalized": true,
33
+ "rstrip": false,
34
+ "single_word": false,
35
+ "special": true
36
+ },
37
+ "4": {
38
+ "content": "<mask>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false,
43
+ "special": true
44
+ }
45
+ },
46
+ "bos_token": "<s>",
47
+ "clean_up_tokenization_spaces": true,
48
+ "eos_token": "</s>",
49
+ "errors": "replace",
50
+ "mask_token": "<mask>",
51
+ "model_max_length": 2048,
52
+ "pad_token": "<pad>",
53
+ "padding_side": "left",
54
+ "tokenizer_class": "GPT2Tokenizer",
55
+ "truncation_side": "left",
56
+ "trust_remote_code": false,
57
+ "unk_token": "<unk>"
58
+ }
model/vocab.json ADDED
The diff for this file is too large to render. See raw diff
 
requirements.txt CHANGED
@@ -1,3 +1,4 @@
1
- altair
2
  pandas
3
- streamlit
 
 
1
+ streamlit
2
  pandas
3
+ transformers
4
+ torch