HarisVasilo commited on
Commit
b9f4a34
·
verified ·
1 Parent(s): 32858f5

Upload README.md

Browse files
Files changed (1) hide show
  1. README.md +57 -0
README.md ADDED
@@ -0,0 +1,57 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: apache-2.0
3
+ title: Chatbot Q&A
4
+ sdk: streamlit
5
+ colorFrom: blue
6
+ short_description: A RAG app using DeepSeek to answer questions based on .pdf
7
+ ---
8
+
9
+ # 📄 RAG PDF Q&A με Quantized DeepSeek-7B
10
+
11
+ **Ένας βοηθός που απαντάει στις ερωτήσεις του χρήστη αποκλειστικά με βάση το κείμενο που του δόθηκε από τον χρήστη (PDF) και όχι με βάση την εσωτερική του γνώση.**
12
+
13
+ ---
14
+
15
+ ## 🚀 Βασίζεται σε:
16
+
17
+ - **LangChain** για chunking και ανάκτηση συμφραζομένων (retrieval)
18
+ - **MiniLM (sentence-transformers/all-MiniLM-L6-v2)** για embeddings
19
+ - **ChromaDB** ως προσωρινό vector store
20
+ - **DeepSeek LLM (deepseek-ai/deepseek-llm-7b-chat)** σε 4-bit quantization
21
+ - **Streamlit** για το περιβάλλον χρήστη
22
+ - **langid** για αναγνώριση γλώσσας
23
+
24
+ ---
25
+
26
+ ## 🏷️ Χαρακτηριστικά
27
+
28
+ ✅ **Ανέβασμα PDF** (Ελληνικά ή Αγγλικά)
29
+ ✅ Αυτόματη εξαγωγή κειμένου
30
+ ✅ **Chunking** με μέγεθος 1000 και overlap 300
31
+ ✅ Δημιουργία embeddings με **MiniLM**
32
+ ✅ **ChromaDB** για προσωρινό vector store
33
+ ✅ **Καθαρισμός retriever και vectorstore** όταν αλλάζει PDF (δεν κρατά παλιές πληροφορίες)
34
+ ✅ **Αναγνώριση γλώσσας** (langid)
35
+ ✅ **Απάντηση στη γλώσσα της ερώτησης** (με αυτόματη μετάφραση όταν χρειάζεται)
36
+ ✅ Επιστροφή **IDs των chunks** που χρησιμοποιήθηκαν για τη δημιουργία της απάντησης
37
+ ✅ Αν δεν βρεθεί σχετική πληροφορία, απαντά **"I do not know."** ή **"Δεν γνωρίζω."**
38
+ ✅ **Quantization 4-bit** του **DeepSeek LLM** για αποδοτική χρήση GPU (A10g)
39
+ ✅ **Cache** του LLM και των pipelines για αποφυγή επανυπολογισμών
40
+
41
+ ---
42
+
43
+ ## 🗂️ Αρχεία
44
+
45
+ | Όνομα αρχείου | Περιγραφή |
46
+ |------------------|-------------------------------|
47
+ | `app.py` | Κύριο Streamlit app |
48
+ | `requirements.txt` | Απαιτούμενες βιβλιοθήκες |
49
+ | `Dockerfile` | Ρυθμίσεις για Hugging Face Space |
50
+ | `README.md` | Αυτό το αρχείο |
51
+
52
+ ---
53
+
54
+ **Σημείωση:**
55
+ ✔ Υποστηρίζεται paraphrasing μόνο για ερωτήσεις στα Αγγλικά.
56
+ ✔ Για Ελληνικά paraphrasing δεν υπάρχει κατάλληλο διαθέσιμο μοντέλο αυτή τη στιγμή στο Hugging Face.
57
+