Spaces:

jaczad
/

Szuflada

Sleeping

App Files Files Community

jaczad commited on Aug 18, 2025

Commit

2a89cf0

1 Parent(s): fa696d9

Działający zestaw

Browse files

Files changed (4) hide show

.DS_Store +0 -0
.gradio/certificate.pem +31 -0
README.md +83 -1
app.py +30 -25

.DS_Store ADDED Viewed

Binary file (6.15 kB). View file

.gradio/certificate.pem ADDED Viewed

	@@ -0,0 +1,31 @@

+-----BEGIN CERTIFICATE-----
+MIIFazCCA1OgAwIBAgIRAIIQz7DSQONZRGPgu2OCiwAwDQYJKoZIhvcNAQELBQAw
+TzELMAkGA1UEBhMCVVMxKTAnBgNVBAoTIEludGVybmV0IFNlY3VyaXR5IFJlc2Vh
+cmNoIEdyb3VwMRUwEwYDVQQDEwxJU1JHIFJvb3QgWDEwHhcNMTUwNjA0MTEwNDM4
+WhcNMzUwNjA0MTEwNDM4WjBPMQswCQYDVQQGEwJVUzEpMCcGA1UEChMgSW50ZXJu
+ZXQgU2VjdXJpdHkgUmVzZWFyY2ggR3JvdXAxFTATBgNVBAMTDElTUkcgUm9vdCBY
+MTCCAiIwDQYJKoZIhvcNAQEBBQADggIPADCCAgoCggIBAK3oJHP0FDfzm54rVygc
+h77ct984kIxuPOZXoHj3dcKi/vVqbvYATyjb3miGbESTtrFj/RQSa78f0uoxmyF+
+0TM8ukj13Xnfs7j/EvEhmkvBioZxaUpmZmyPfjxwv60pIgbz5MDmgK7iS4+3mX6U
+A5/TR5d8mUgjU+g4rk8Kb4Mu0UlXjIB0ttov0DiNewNwIRt18jA8+o+u3dpjq+sW
+T8KOEUt+zwvo/7V3LvSye0rgTBIlDHCNAymg4VMk7BPZ7hm/ELNKjD+Jo2FR3qyH
+B5T0Y3HsLuJvW5iB4YlcNHlsdu87kGJ55tukmi8mxdAQ4Q7e2RCOFvu396j3x+UC
+B5iPNgiV5+I3lg02dZ77DnKxHZu8A/lJBdiB3QW0KtZB6awBdpUKD9jf1b0SHzUv
+KBds0pjBqAlkd25HN7rOrFleaJ1/ctaJxQZBKT5ZPt0m9STJEadao0xAH0ahmbWn
+OlFuhjuefXKnEgV4We0+UXgVCwOPjdAvBbI+e0ocS3MFEvzG6uBQE3xDk3SzynTn
+jh8BCNAw1FtxNrQHusEwMFxIt4I7mKZ9YIqioymCzLq9gwQbooMDQaHWBfEbwrbw
+qHyGO0aoSCqI3Haadr8faqU9GY/rOPNk3sgrDQoo//fb4hVC1CLQJ13hef4Y53CI
+rU7m2Ys6xt0nUW7/vGT1M0NPAgMBAAGjQjBAMA4GA1UdDwEB/wQEAwIBBjAPBgNV
+HRMBAf8EBTADAQH/MB0GA1UdDgQWBBR5tFnme7bl5AFzgAiIyBpY9umbbjANBgkq
+hkiG9w0BAQsFAAOCAgEAVR9YqbyyqFDQDLHYGmkgJykIrGF1XIpu+ILlaS/V9lZL
+ubhzEFnTIZd+50xx+7LSYK05qAvqFyFWhfFQDlnrzuBZ6brJFe+GnY+EgPbk6ZGQ
+3BebYhtF8GaV0nxvwuo77x/Py9auJ/GpsMiu/X1+mvoiBOv/2X/qkSsisRcOj/KK
+NFtY2PwByVS5uCbMiogziUwthDyC3+6WVwW6LLv3xLfHTjuCvjHIInNzktHCgKQ5
+ORAzI4JMPJ+GslWYHb4phowim57iaztXOoJwTdwJx4nLCgdNbOhdjsnvzqvHu7Ur
+TkXWStAmzOVyyghqpZXjFaH3pO3JLF+l+/+sKAIuvtd7u+Nxe5AW0wdeRlN8NwdC
+jNPElpzVmbUq4JUagEiuTDkHzsxHpFKVK7q4+63SM1N95R1NbdWhscdCb+ZAJzVc
+oyi3B43njTOQ5yOf+1CceWxG1bQVs5ZufpsMljq4Ui0/1lvh+wjChP4kqKOJ2qxq
+4RgqsahDYVvTH9w7jXbyLeiNdd8XM2w9U/t7y0Ff/9yi0GE44Za4rF2LN9d11TPA
+mRGunUHBcnWEvgJBQl9nJEiU0Zsnvgc/ubhPgXRR4Xq37Z0j4r7g1SgEEzwxA57d
+emyPxgcYxn/eR44/KJ4EBs+lVDR3veyJm+kXQ99b21/+jh5Xos1AnX5iItreGCc=
+-----END CERTIFICATE-----

README.md CHANGED Viewed

@@ -10,5 +10,87 @@ pinned: false
 license: cc-by-4.0
 short_description: Chatbot korzystający z zasobów serwisu mojaszuflada.pl
 ---
-An example chatbot using [Gradio](https://gradio.app), [`huggingface_hub`](https://huggingface.co/docs/huggingface_hub/v0.22.2/en/index), and the [Hugging Face Inference API](https://huggingface.co/docs/api-inference/index).

 license: cc-by-4.0
 short_description: Chatbot korzystający z zasobów serwisu mojaszuflada.pl
 ---
+# Szuflada
+Czatbot korzystający z zasobów serwisu [mojaszuflada.pl](https://mojaszuflada.pl), wykorzystujący Gradio oraz RAG z lokalną bazą Chroma i Hugging Face Inference API.
+## Instalacja
+1. Sklonuj repozytorium:
+   ```bash
+   git clone https://github.com/<użytkownik>/szuflada.git
+   cd szuflada
+   ```
+2. Utwórz i aktywuj środowisko wirtualne:
+   ```bash
+   python3 -m venv venv
+   source venv/bin/activate   # Linux/macOS
+   venv\Scripts\activate    # Windows
+   ```
+3. Zainstaluj zależności:
+   ```bash
+   pip install -r requirements.txt
+   ```
+4. Zaloguj się do Hugging Face (jeśli korzystasz z API):
+   ```bash
+   huggingface-cli login
+   ```
+5. (Opcjonalnie) Ustaw zmienną środowiskową z tokenem:
+   ```bash
+   export HUGGINGFACEHUB_API_TOKEN=Twój_Token
+   ```
+## Użycie
+Uruchom aplikację lokalnie:
+```bash
+python app.py
+```
+Aplikacja będzie dostępna pod adresem <http://localhost:7860>. Otwórz tę stronę w przeglądarce, aby rozpocząć czat.
+## Osadzanie na innych stronach internetowych
+### Metoda 1: iframe
+```html
+<iframe src="http://adres_twojej_aplikacji:7860" width="700" height="800" frameborder="0"></iframe>
+```
+### Metoda 2: Embed Gradio (Hugging Face Spaces)
+Jeśli aplikacja jest wdrożona jako Space na Hugging Face, użyj oficjalnego skryptu:
+```html
+<script src="https://cdn.jsdelivr.net/npm/@gradio/embed"></script>
+<gradio-embed
+  src="username/szuflada"  <!-- zastąp username swoją nazwą użytkownika/Space -->
+  width="700"
+  height="800"
+></gradio-embed>
+```
+### Metoda 3: JavaScript SDK
+```html
+<script type="module">
+  import Gradio from "https://cdn.jsdelivr.net/npm/@gradio/embed@2.0.0/+esm";
+  new Gradio.Embed("https://huggingface.co/embed/username/szuflada", {
+    container: document.getElementById("gradio-container"),
+    width: 700,
+    height: 800
+  });
+</script>
+<div id="gradio-container"></div>
+```

app.py CHANGED Viewed

@@ -10,8 +10,10 @@ from langchain_community.chat_message_histories import ChatMessageHistory
 from langchain_core.runnables.history import RunnableWithMessageHistory
 # --- 1. Inicjalizacja modeli i retrievera ---
-llm = ChatOpenAI(model="gpt-4o-mini", temperature=0.1)
 embedder = OpenAIEmbeddings(model="text-embedding-3-small")
 baza = Chroma(
     collection_name="szuflada",
     embedding_function=embedder,
@@ -22,13 +24,13 @@ baza = Chroma(
 # - "mmr" (Maximal Marginal Relevance)
 # - "similarity_score_threshold" (z progiem score_threshold)
-# Przykład zmiany na standardowe wyszukiwanie podobieństw:
 retriever = baza.as_retriever(
-    search_type="similarity",  # <- zmień na "similarity" lub "mmr" jeśli chcesz
-    search_kwargs={"k": 5}
 )
 # --- 2. Tworzenie łańcucha RAG z historią ---
 contextualize_q_system_prompt = (
     "Biorąc pod uwagę historię czatu i ostatnie pytanie użytkownika, "
     "które może odnosić się do kontekstu w historii czatu, "
@@ -43,15 +45,17 @@ contextualize_q_prompt = ChatPromptTemplate.from_messages(
         ("human", "{input}"),
     ]
 )
 history_aware_retriever = create_history_aware_retriever(
     llm, retriever, contextualize_q_prompt
 )
 qa_system_prompt = (
     "Jesteś asystentem do zadawania pytań i odpowiedzi na temat treści ze strony mojaszuflada.pl. "
     "Użyj poniższych fragmentów odzyskanego kontekstu, aby odpowiedzieć na pytanie. "
     "Odpowiadaj zawsze w języku polskim. "
-    "Jeśli nie znasz odpowiedzi, po prostu powiedz, że nie wiesz. "
     "Zachowaj zwięzłość odpowiedzi, ale bądź pomocny i przyjazny."
     "\n\n{context}"
 )
@@ -62,17 +66,22 @@ qa_prompt = ChatPromptTemplate.from_messages(
         ("human", "{input}"),
     ]
 )
 question_answer_chain = create_stuff_documents_chain(llm, qa_prompt)
 rag_chain = create_retrieval_chain(history_aware_retriever, question_answer_chain)
 store = {}
 def get_session_history(session_id: str) -> BaseChatMessageHistory:
     if session_id not in store:
         store[session_id] = ChatMessageHistory()
     return store[session_id]
 conversational_rag_chain = RunnableWithMessageHistory(
     rag_chain,
     get_session_history,
@@ -83,8 +92,9 @@ conversational_rag_chain = RunnableWithMessageHistory(
 # --- 3. Funkcje pomocnicze dla Gradio ---
 def format_sources(source_docs):
     if not source_docs:
-        return "_Brak źródeł do wyświetlenia._"
     sources = []
     for doc in source_docs:
@@ -98,8 +108,6 @@ def format_sources(source_docs):
             sources.append(f"- [{title}]({source_url}) ({pub_date})")
         else:
             sources.append(f"- [{title}]({source_url})")
-    # Dodaj informację o liczbie chunków (debug)
-    sources.append(f"\n_Znaleziono chunków: {len(source_docs)}_")
     return "\n".join(sources)
 # --- 4. Budowa interfejsu Gradio ---
@@ -107,15 +115,17 @@ with gr.Blocks(theme=gr.themes.Soft(primary_hue="blue"), title="Szuflada Chatbot
     session_id = gr.State(lambda: str(uuid.uuid4()))
     gr.Markdown(
-        """# Czat z Szufladą\n### Zadaj pytanie na temat treści ze strony [mojaszuflada.pl](https://mojaszuflada.pl)
         """
     )
     chatbot = gr.Chatbot(
         label="Rozmowa",
         height=500,
     )
     with gr.Row():
         msg = gr.Textbox(
             show_label=False,
@@ -125,27 +135,32 @@ with gr.Blocks(theme=gr.themes.Soft(primary_hue="blue"), title="Szuflada Chatbot
         )
         submit_btn = gr.Button("Wyślij", variant="primary", scale=1)
     def respond(message, chat_history, sess_id):
         response = conversational_rag_chain.invoke(
             {"input": message},
             config={"configurable": {"session_id": sess_id}},
         )
-        # Dodaj logowanie score dla debugowania
         context_docs = response.get("context", [])
-        for i, doc in enumerate(context_docs):
-            score = doc.metadata.get("score", "brak score")
-            print(f"Chunk {i+1}: score={score}, title={doc.metadata.get('title')}")
         sources_md = format_sources(context_docs)
-        answer_with_sources = response["answer"] + "\n\n**Źródła:**\n" + sources_md
         chat_history.append((message, answer_with_sources))
         return chat_history
     submit_btn.click(
         respond,
         [msg, chatbot, session_id],
         [chatbot]
     ).then(lambda: gr.update(value=""), None, [msg], queue=False)
     msg.submit(
         respond,
         [msg, chatbot, session_id],
@@ -154,15 +169,5 @@ with gr.Blocks(theme=gr.themes.Soft(primary_hue="blue"), title="Szuflada Chatbot
 # --- 5. Uruchomienie aplikacji ---
 if __name__ == "__main__":
-    # --- TEST: sprawdź bezpośrednio retriever ---
-    test_query = "test"  # <- wpisz tu frazę, która powinna być w bazie
-    print("\n=== TEST RETRIEVER ===")
-    docs = retriever.get_relevant_documents(test_query)
-    print(f"Znaleziono {len(docs)} dokumentów dla zapytania: '{test_query}'")
-    for i, doc in enumerate(docs):
-        score = doc.metadata.get("score", "brak score")
-        print(f"Chunk {i+1}: score={score}, title={doc.metadata.get('title')}, source={doc.metadata.get('source')}")
-    print("=== KONIEC TESTU ===\n")
-    # --- KONIEC TESTU ---
     demo.launch(inbrowser=True)

 from langchain_core.runnables.history import RunnableWithMessageHistory
 # --- 1. Inicjalizacja modeli i retrievera ---
+# Inicjalizacja modelu językowego oraz embeddera
+llm = ChatOpenAI(model="gpt-4o-mini", temperature=0.0)
 embedder = OpenAIEmbeddings(model="text-embedding-3-small")
+# Inicjalizacja bazy Chroma z embeddingami
 baza = Chroma(
     collection_name="szuflada",
     embedding_function=embedder,
 # - "mmr" (Maximal Marginal Relevance)
 # - "similarity_score_threshold" (z progiem score_threshold)
+# Retriever do wyszukiwania podobnych fragmentów
 retriever = baza.as_retriever(
+    search_kwargs={"k": 3}
 )
 # --- 2. Tworzenie łańcucha RAG z historią ---
+# Prompt do kontekstualizacji pytania na podstawie historii czatu
 contextualize_q_system_prompt = (
     "Biorąc pod uwagę historię czatu i ostatnie pytanie użytkownika, "
     "które może odnosić się do kontekstu w historii czatu, "
         ("human", "{input}"),
     ]
 )
+# Łańcuch do kontekstualizacji pytania z historią
 history_aware_retriever = create_history_aware_retriever(
     llm, retriever, contextualize_q_prompt
 )
+# Prompt do generowania odpowiedzi na podstawie kontekstu
 qa_system_prompt = (
     "Jesteś asystentem do zadawania pytań i odpowiedzi na temat treści ze strony mojaszuflada.pl. "
     "Użyj poniższych fragmentów odzyskanego kontekstu, aby odpowiedzieć na pytanie. "
     "Odpowiadaj zawsze w języku polskim. "
+    "Jeśli nie znasz odpowiedzi, po prostu powiedz, że tego nie wiesz. "
     "Zachowaj zwięzłość odpowiedzi, ale bądź pomocny i przyjazny."
     "\n\n{context}"
 )
         ("human", "{input}"),
     ]
 )
+# Łańcuch generujący odpowiedź na podstawie dokumentów
 question_answer_chain = create_stuff_documents_chain(llm, qa_prompt)
+# Połączenie retrievera z generatorem odpowiedzi
 rag_chain = create_retrieval_chain(history_aware_retriever, question_answer_chain)
+# Słownik do przechowywania historii czatu dla sesji
 store = {}
 def get_session_history(session_id: str) -> BaseChatMessageHistory:
+    # Zwraca historię czatu dla danej sesji (tworzy jeśli nie istnieje)
     if session_id not in store:
         store[session_id] = ChatMessageHistory()
     return store[session_id]
+# Łańcuch RAG z obsługą historii wiadomości
 conversational_rag_chain = RunnableWithMessageHistory(
     rag_chain,
     get_session_history,
 # --- 3. Funkcje pomocnicze dla Gradio ---
 def format_sources(source_docs):
+    # Formatuje listę źródeł do wyświetlenia w odpowiedzi
     if not source_docs:
+        return "?"
     sources = []
     for doc in source_docs:
             sources.append(f"- [{title}]({source_url}) ({pub_date})")
         else:
             sources.append(f"- [{title}]({source_url})")
     return "\n".join(sources)
 # --- 4. Budowa interfejsu Gradio ---
     session_id = gr.State(lambda: str(uuid.uuid4()))
     gr.Markdown(
+        """# Czat z Moją Szufladą\n### Zadaj pytanie na temat treści ze strony [mojaszuflada.pl](https://mojaszuflada.pl)
         """
     )
+    # Komponent czatu
     chatbot = gr.Chatbot(
         label="Rozmowa",
         height=500,
     )
+    # Pole tekstowe i przycisk do wysyłania wiadomości
     with gr.Row():
         msg = gr.Textbox(
             show_label=False,
         )
         submit_btn = gr.Button("Wyślij", variant="primary", scale=1)
+    # Funkcja obsługująca odpowiedź na wiadomość użytkownika
     def respond(message, chat_history, sess_id):
+        # Wywołanie łańcucha RAG z historią
         response = conversational_rag_chain.invoke(
             {"input": message},
             config={"configurable": {"session_id": sess_id}},
         )
         context_docs = response.get("context", [])
+        # Debug: wypisz poziom podobieństwa dla znalezionych chunków
+        debug_scores = baza.similarity_search_with_score(message, k=len(context_docs))
+        for i, (doc, score) in enumerate(debug_scores):
+            print(f"Chunk {i+1}: similarity_score={score}, title={doc.metadata.get('title')}")
         sources_md = format_sources(context_docs)
+        answer = response.get("answer") or ""
+        answer_with_sources = answer + "\n\n**Źródła:**\n" + sources_md
         chat_history.append((message, answer_with_sources))
         return chat_history
+    # Obsługa kliknięcia przycisku "Wyślij"
     submit_btn.click(
         respond,
         [msg, chatbot, session_id],
         [chatbot]
     ).then(lambda: gr.update(value=""), None, [msg], queue=False)
+    # Obsługa wysłania wiadomości enterem
     msg.submit(
         respond,
         [msg, chatbot, session_id],
 # --- 5. Uruchomienie aplikacji ---
 if __name__ == "__main__":
+    # Uruchom aplikację Gradio z publicznym linkiem
     demo.launch(inbrowser=True)