Spaces:

sashadd
/

LLM_RAG

Running

App Files Files Community

sashadd commited on 26 days ago

Commit

283442c

verified ·

1 Parent(s): d56d6d4

Update app.py

Browse files

Files changed (1) hide show

app.py +12 -25

app.py CHANGED Viewed

@@ -62,7 +62,7 @@ def generate_response(
     question = truncate_text(question, MAX_QUESTION_CHARS)
     # Формирование промпта (простая инструкция)
-    prompt = f"Ты бот, который дает короткий и чёткий ответ пользователю строго по данным из документа. Данные из документа: <document>{document}</document>\nВопрос по данным из документа: {question}\nОтвет на вопрос:"
     messages = [
         {"role": "system", "content": f"Ты бот, который дает короткий и чёткий ответ пользователю строго по данным из документа. Данные из документа: <document>{document}</document>"},
@@ -91,30 +91,17 @@ def generate_response(
     # Генерация
     start_time = time.time()
     try:
-        if (temperature < 0.1):
-            with torch.no_grad():
-                outputs = model.generate(
-                    inputs.input_ids,
-                    max_new_tokens=max_new_tokens,
-                    temperature=0,
-                    do_sample=True,
-                    top_p=0.95,
-                    repetition_penalty=repetition_penalty,      # штраф за повторяющиеся токены
-                    early_stopping=True,          # остановка при достижении eos_token
-                    pad_token_id=tokenizer.eos_token_id
-                )
-        else:
-            with torch.no_grad():
-                outputs = model.generate(
-                    inputs.input_ids,
-                    max_new_tokens=max_new_tokens,
-                    temperature=temperature,
-                    do_sample=True,
-                    top_p=0.95,
-                    repetition_penalty=repetition_penalty,      # штраф за повторяющиеся токены
-                    early_stopping=True,          # остановка при достижении eos_token
-                    pad_token_id=tokenizer.eos_token_id
-                )
         latency = time.time() - start_time
     except Exception as e:
         return f"Ошибка генерации: {type(e).__name__}: {e}", time.time() - start_time

     question = truncate_text(question, MAX_QUESTION_CHARS)
     # Формирование промпта (простая инструкция)
+    prompt = f"<|query_start|>{question}<|query_end|>\n<|source_start|><|source_id|>1 {document}<|source_end|>\n<|language_start|>\n"
     messages = [
         {"role": "system", "content": f"Ты бот, который дает короткий и чёткий ответ пользователю строго по данным из документа. Данные из документа: <document>{document}</document>"},
     # Генерация
     start_time = time.time()
     try:
+        with torch.no_grad():
+            outputs = model.generate(
+                inputs.input_ids,
+                max_new_tokens=max_new_tokens,
+                temperature=temperature if temperature > 0 else None,
+                do_sample=True,
+                top_p=0.95,
+                repetition_penalty=repetition_penalty,      # штраф за повторяющиеся токены
+                early_stopping=True,          # остановка при достижении eos_token
+                pad_token_id=tokenizer.eos_token_id
+            )
         latency = time.time() - start_time
     except Exception as e:
         return f"Ошибка генерации: {type(e).__name__}: {e}", time.time() - start_time