Spaces:

Kdnv
/

nlp_project

Sleeping

App Files Files Community

Kdnv commited on Aug 9, 2024

Commit

8ac4e2f

1 Parent(s): dc54d88

init

Browse files

Files changed (4) hide show

app.py +21 -0
models/kdnv_model.pt +3 -0
models/kdnv_preprocess.py +96 -0
pages/kdnv_model.py +58 -0

app.py ADDED Viewed

	@@ -0,0 +1,21 @@

+import streamlit as st
+st.title('Супер классные нейросетки')
+st.caption('От Димы, Наташи и Серёжи')
+st.divider()
+col1, col2, col3 = st.columns(3)
+# with col1:
+    # st.page_link('pages/chernyshov_model.py', label='Модель Серёжи Ч.', icon='🍆')
+    # st.page_link('pages/chernyshov_learning.py', label='Обучение', icon='💀')
+# with col2:
+    # st.page_link('pages/bond_model.py', label='Модель Любы.', icon='🧠')
+    # st.page_link('pages/bond_learning.py', label='Обучение', icon='ℹ️')
+with col3:
+    st.page_link('pages/kdnv_model.py', label='Модель Серёжи К.', icon='🌲')
+    # st.page_link('pages/kdnv_history.py', label='Инфа по модели', icon='👀')
+st.divider()

models/kdnv_model.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:57a165966b26b1498022b6307b2dd219585e4dede223f52aaeb819f15b1cae34
+size 500982354

models/kdnv_preprocess.py ADDED Viewed

	@@ -0,0 +1,96 @@

+import inspect
+# Патч для pymorphy2, чтобы использовать getfullargspec вместо getargspec
+if not hasattr(inspect, 'getargspec'):
+    def getargspec(func):
+        specs = inspect.getfullargspec(func)
+        return specs.args, specs.varargs, specs.varkw, specs.defaults
+    inspect.getargspec = getargspec
+import re
+import string
+import numpy as np
+import torch
+from torch import Tensor
+import spacy
+import pymorphy2
+from nltk.corpus import stopwords
+# Загрузка стоп-слов для русского языка
+stop_words = set(stopwords.words('russian'))
+# Загрузка модели spacy для русского языка
+nlp = spacy.load("ru_core_news_sm", disable=["parser", "ner"])
+# Инициализация pymorphy2
+morph = pymorphy2.MorphAnalyzer()
+def data_preprocessing(text: str) -> str:
+    # Приведение к нижнему регистру
+    text = text.lower()
+    # Удаление HTML-тегов
+    text = re.sub(r'<.*?>', '', text)
+    # Удаление символов переноса строки и неразрывного пробела
+    text = text.replace('\n', ' ').replace('\xa0', ' ')
+    # Удаление пунктуации и цифр в одном шаге
+    text = ''.join([c for c in text if c not in string.punctuation and not c.isdigit()])
+    # Удаление стоп-слов и лемматизация
+    doc = nlp(text)
+    text = ' '.join([morph.parse(token.text)[0].normal_form for token in doc if token.text not in stop_words and not token.is_digit])
+    return text
+def get_words_by_freq(sorted_words: list[tuple[str, int]], n: int = 10) -> list:
+    return list(filter(lambda x: x[1] > n, sorted_words))
+def padding(review_int: list, seq_len: int) -> np.array:
+    """Make left-sided padding for input list of tokens
+    Args:
+        review_int (list): input list of tokens
+        seq_len (int): max length of sequence, it len(review_int[i]) > seq_len it will be trimmed, else it will be padded by zeros
+    Returns:
+        np.array: padded sequences
+    """
+    features = np.zeros((len(review_int), seq_len), dtype=int)
+    for i, review in enumerate(review_int):
+        if len(review) <= seq_len:
+            zeros = list(np.zeros(seq_len - len(review)))
+            new = zeros + review
+        else:
+            new = review[: seq_len]
+        features[i, :] = np.array(new)
+    return features
+def preprocess_single_string(
+        input_string: str,
+        seq_len: int,
+        vocab_to_int: dict,
+        verbose: bool = False
+) -> Tensor:
+    """Function for all preprocessing steps on a single string
+    Args:
+        input_string (str): input single string for preprocessing
+        seq_len (int): max length of sequence, it len(review_int[i]) > seq_len it will be trimmed, else it will be padded by zeros
+        vocab_to_int (dict, optional): word corpus {'word' : int index}. Defaults to vocab_to_int.
+    Returns:
+        list: preprocessed string
+    """
+    preprocessed_string = data_preprocessing(input_string)
+    result_list = []
+    for word in preprocessed_string.split():
+        try:
+            result_list.append(vocab_to_int[word])
+        except KeyError as e:
+            if verbose:
+                print(f'{e}: not in dictionary!')
+            pass
+    result_padded = padding([result_list], seq_len)[0]
+    return Tensor(result_padded)

pages/kdnv_model.py ADDED Viewed

	@@ -0,0 +1,58 @@

+import torch
+import streamlit as st
+from transformers import GPT2LMHeadModel, GPT2Tokenizer
+import textwrap
+@st.cache_resource()
+def load_model():
+    model = GPT2LMHeadModel.from_pretrained('sberbank-ai/rugpt3small_based_on_gpt2')
+    model.load_state_dict(torch.load('models/kdnv_model.pt', map_location=torch.device('cpu')))
+    return model
+model = load_model()
+tokenizer = GPT2Tokenizer.from_pretrained('sberbank-ai/rugpt3small_based_on_gpt2')
+def predict(text, max_len=100, num_beams=10, temperature=1.5, top_p=0.7):
+    with torch.inference_mode():
+        prompt = text
+        prompt = tokenizer.encode(prompt, return_tensors='pt')
+        out = model.generate(
+            input_ids=prompt,
+            max_length=max_len,
+            num_beams=num_beams,
+            do_sample=True,
+            temperature=temperature,
+            top_p=top_p,
+            no_repeat_ngram_size=1,
+            num_return_sequences=1,
+            ).cpu().numpy()
+    return textwrap.fill(tokenizer.decode(out[0]))
+st.title('Ночной собутыльник')
+st.caption('От Серёжи')
+st.divider()
+with st.form(key='Промт'):
+    prompt = st.text_input("Твоя фраза")
+    col = st.columns(4)
+    with col[0]:
+        max_len = st.slider("Длина ответа", 20, 200, 100)
+    with col[1]:
+        num_beams = st.slider("Глубина мысли", 0.1, 1., 0.5)
+    with col[2]:
+        temperature = st.slider("Связность речи", 0.1, 1., 0.35)
+    with col[3]:
+        top_p = st.slider("Уровень опьянения", 0.1, 1.0, 0.7)
+    submit = st.form_submit_button('Отвечай!')
+if submit:
+    if prompt:
+        pred = predict(prompt, max_len=max_len, num_beams=int(num_beams * 20), temperature=(1-temperature) * 5, top_p=top_p)
+        st.write(pred)