Spaces:

Bjg6742635
/

my-history-qa

Runtime error

App Files Files Community

Bjg6742635 commited on 5 days ago

Commit

269a65b

1 Parent(s): 8bbebf1

Update Dockerfile and app.py

Browse files

Files changed (2) hide show

Dockerfile +1 -1
app.py +4 -6

Dockerfile CHANGED Viewed

@@ -10,7 +10,7 @@ RUN pip3 install --no-cache-dir -r requirements.txt
 # === НОВЫЙ БЛОК: Загрузка моделей при сборке ===
 # Загрузка модели и токенизатора transformers
-RUN python -c "import spacy; spacy.cli.download('ru_core_news_lg')"
 RUN python -c "import nltk; nltk.download('punkt_tab', download_dir='/usr/local/share/nltk_data')"
 RUN python -c "import nltk; nltk.download('stopwords')"

 # === НОВЫЙ БЛОК: Загрузка моделей при сборке ===
 # Загрузка модели и токенизатора transformers
+RUN python -c "import spacy; spacy.cli.download('ru_core_news_sm')"
 RUN python -c "import nltk; nltk.download('punkt_tab', download_dir='/usr/local/share/nltk_data')"
 RUN python -c "import nltk; nltk.download('stopwords')"

app.py CHANGED Viewed

@@ -28,7 +28,7 @@ def load_data():
 @st.cache_resource
 def load_model_and_tokenizer():
     # Загрузка предобученной модели вопрос-ответа (например, SberQuad)
-    model_name = "AlexKay/xlm-roberta-large-qa-multilingual-finedtuned-ru"
   # замените на нужную модель, например, "bert-base-uncased"
     tokenizer = AutoTokenizer.from_pretrained(model_name)
     model = AutoModelForQuestionAnswering.from_pretrained(model_name)
@@ -44,7 +44,7 @@ def build_vectorizer(_df):
 # === Предобработка текста ===
 # Загрузка Spacy модели
-nlp = spacy.load('ru_core_news_lg')
 stop_words = set(stopwords.words('russian'))
 cache_dict = {}
@@ -85,8 +85,6 @@ def preprocess_text(text):
     return ' '.join(tokens)
 # === Основная функция получения ответа ===
 def get_answer_from_qa_model(user_question, df, vectorizer, tfidf_matrix, model, tokenizer):
     processed = preprocess_text(user_question)
@@ -96,7 +94,7 @@ def get_answer_from_qa_model(user_question, df, vectorizer, tfidf_matrix, model,
     # Проверка, что similarities не пустой
     if len(similarities) == 0:
-        return "Датасет пуст или не загружен корректно."
     best_match_idx = similarities.argmax()
     best_score = similarities[best_match_idx]
@@ -104,7 +102,7 @@ def get_answer_from_qa_model(user_question, df, vectorizer, tfidf_matrix, model,
     if best_score > 0.1:
         # Проверка, что индекс не выходит за границы
         if best_match_idx >= len(df):
-            return "Ошибка: индекс вне диапазона."
         context = df.iloc[best_match_idx]['answer']
         question = user_question

 @st.cache_resource
 def load_model_and_tokenizer():
     # Загрузка предобученной модели вопрос-ответа (например, SberQuad)
+    model_name = "DeepPavlov/rubert-base-cased-squad2"   #"AlexKay/xlm-roberta-large-qa-multilingual-finedtuned-ru"
   # замените на нужную модель, например, "bert-base-uncased"
     tokenizer = AutoTokenizer.from_pretrained(model_name)
     model = AutoModelForQuestionAnswering.from_pretrained(model_name)
 # === Предобработка текста ===
 # Загрузка Spacy модели
+nlp = spacy.load('ru_core_news_sm')  #'ru_core_news_lg'
 stop_words = set(stopwords.words('russian'))
 cache_dict = {}
     return ' '.join(tokens)
 # === Основная функция получения ответа ===
 def get_answer_from_qa_model(user_question, df, vectorizer, tfidf_matrix, model, tokenizer):
     processed = preprocess_text(user_question)
     # Проверка, что similarities не пустой
     if len(similarities) == 0:
+        return "Тема не входит в программу этих классов."
     best_match_idx = similarities.argmax()
     best_score = similarities[best_match_idx]
     if best_score > 0.1:
         # Проверка, что индекс не выходит за границы
         if best_match_idx >= len(df):
+            return "Тема не входит в программу этих классов."
         context = df.iloc[best_match_idx]['answer']
         question = user_question