Spaces:

feryms
/

chilicareAI

Running

App Files Files Community

feryms commited on 6 days ago

Commit

1e384db

1 Parent(s): 2498457

update docker

Browse files

Files changed (17) hide show

.gitignore +1 -0
Dockerfile +19 -0
app.py +5 -2
chroma_data/{c3279b3c-8393-4cc2-a5e7-962590e279ef → cdcb1c1c-f374-4f62-9cc7-7e62dcdaccd0}/data_level0.bin +1 -1
chroma_data/{c3279b3c-8393-4cc2-a5e7-962590e279ef → cdcb1c1c-f374-4f62-9cc7-7e62dcdaccd0}/header.bin +0 -0
chroma_data/{c3279b3c-8393-4cc2-a5e7-962590e279ef → cdcb1c1c-f374-4f62-9cc7-7e62dcdaccd0}/length.bin +1 -1
chroma_data/{c3279b3c-8393-4cc2-a5e7-962590e279ef → cdcb1c1c-f374-4f62-9cc7-7e62dcdaccd0}/link_lists.bin +0 -0
chroma_data/chroma.sqlite3 +2 -2
model/best_YOLOv11L.pt → data/cabai.pdf +2 -2
docker-compose.yml +36 -0
frontend/script.js +7 -5
ingest.py +2 -1
requirements.txt +21 -0
src/chains/__pycache__/chain.cpython-312.pyc +0 -0
src/chains/__pycache__/rag.cpython-312.pyc +0 -0
src/chains/chain.py +22 -21
src/chains/rag.py +10 -5

.gitignore ADDED Viewed

	@@ -0,0 +1 @@


1	+ .env

Dockerfile ADDED Viewed

	@@ -0,0 +1,19 @@

+FROM python:3.12-slim
+# Set direktori kerja di dalam container
+WORKDIR /app
+RUN apt-get update && apt-get install -y \
+    build-essential \
+    libglib2.0-0 \
+    libgl1 \
+    libxcb1 \
+    && rm -rf /var/lib/apt/lists/*
+COPY requirements.txt .
+RUN pip install --no-cache-dir -r requirements.txt
+COPY . .
+ENV PYTHONPATH=/app

app.py CHANGED Viewed

@@ -5,8 +5,11 @@ import io
 import base64
 # URL untuk kedua endpoint FastAPI
-API_DETECT_URL = "http://localhost:8000/detect"
-API_ASK_URL = "http://localhost:8000/ask"
 st.set_page_config(page_title="ChiliCare AI", page_icon="🌶️", layout="centered")

 import base64
 # URL untuk kedua endpoint FastAPI
+# API_DETECT_URL = "http://localhost:8000/detect"
+# API_ASK_URL = "http://localhost:8000/ask"
+API_DETECT_URL = "http://backend:8000/detect"
+API_ASK_URL = "http://backend:8000/ask"
 st.set_page_config(page_title="ChiliCare AI", page_icon="🌶️", layout="centered")

chroma_data/{c3279b3c-8393-4cc2-a5e7-962590e279ef → cdcb1c1c-f374-4f62-9cc7-7e62dcdaccd0}/data_level0.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c57e2be68a8bb2dc20a1df18f9858aab631f6fecaff7375e003b362095604a19
 size 423600

 version https://git-lfs.github.com/spec/v1
+oid sha256:41b1d6558680207762d59e507f9dcba0cb9fbbd4c23c79e14025206d3742e17f
 size 423600

chroma_data/{c3279b3c-8393-4cc2-a5e7-962590e279ef → cdcb1c1c-f374-4f62-9cc7-7e62dcdaccd0}/header.bin RENAMED Viewed

File without changes

chroma_data/{c3279b3c-8393-4cc2-a5e7-962590e279ef → cdcb1c1c-f374-4f62-9cc7-7e62dcdaccd0}/length.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f488958c83249ab7c95ce9427b92f8dfa6f7f024140cb7a76d63ab6d57b359a2
 size 400

 version https://git-lfs.github.com/spec/v1
+oid sha256:7a12e561363385e9dfeeab326368731c030ed4b374e7f5897ac819159d2884c5
 size 400

chroma_data/{c3279b3c-8393-4cc2-a5e7-962590e279ef → cdcb1c1c-f374-4f62-9cc7-7e62dcdaccd0}/link_lists.bin RENAMED Viewed

File without changes

chroma_data/chroma.sqlite3 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6f4806fdeb9a3a3ae4b8675347baf0130a40b0067a57e64c9624279fd61f67b2
-size 1056768

 version https://git-lfs.github.com/spec/v1
+oid sha256:4591d17a5270b7679f514c4e344b021379bad5bf7730928870061f60f5f44b33
+size 1761280

model/best_YOLOv11L.pt → data/cabai.pdf RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c2de6aa02599b51eaec5d2171e117e7ddacee608e39415fc68c2c3e5f0281b97
-size 51207065

 version https://git-lfs.github.com/spec/v1
+oid sha256:1fd9d64b7fbf5742019eec709b900fd45bd7642939bbf720a221b0b6c830edcb
+size 1640127

docker-compose.yml ADDED Viewed

	@@ -0,0 +1,36 @@

+services:
+  backend:
+    build: .
+    container_name: chilicare_backend
+    # server FastAPI
+    command: uvicorn backend.api:app --host 0.0.0.0 --port 8000
+    ports:
+      - "8000:8000"
+    volumes:
+      - ./chroma_data:/app/chroma_data
+      - ./model:/app/model
+      - hf_cache:/root/.cache/huggingface
+    env_file:
+      - .env
+  streamlit:
+    build: .
+    container_name: chilicare_streamlit
+    # Streamlit
+    command: streamlit run app.py --server.address 0.0.0.0
+    ports:
+      - "8501:8501"
+    depends_on:
+      - backend
+  frontend_web:
+    image: nginx:alpine
+    container_name: chilicare_frontend
+    # Nginx untuk menjalankan web HTML
+    ports:
+      - "3000:80"
+    volumes:
+      - ./frontend:/usr/share/nginx/html
+volumes:
+  hf_cache:

frontend/script.js CHANGED Viewed

@@ -1,15 +1,17 @@
-const API_DETECT_URL = "http://localhost:8000/detect";
-const API_ASK_URL = "http://localhost:8000/ask";
-// const API_DETECT_URL = "https://r7sc5m17-8000.asse.devtunnels.ms/detect";
-// const API_ASK_URL = "https://r7sc5m17-8000.asse.devtunnels.ms/ask";
 let selectedFile = null;
 function parseMarkdown(text) {
   if (!text) return "";
   let html = text;
   html = html.replace(/(?:^\|.*\|(?:\n|\r|$))+/gm, function(match) {
       let rows = match.trim().split('\n');
       let tableHtml = '<div class="overflow-x-auto my-5 rounded-xl ring-1 ring-slate-200 shadow-sm"><table class="w-full text-sm text-left text-slate-600">';

+// const API_DETECT_URL = "http://localhost:8000/detect";
+// const API_ASK_URL = "http://localhost:8000/ask";
+const API_DETECT_URL = "https://r7sc5m17-8000.asse.devtunnels.ms/detect";
+const API_ASK_URL = "https://r7sc5m17-8000.asse.devtunnels.ms/ask";
+// API_DETECT_URL = "http://backend:8000/detect";
+// API_ASK_URL = "http://backend:8000/ask";
 let selectedFile = null;
 function parseMarkdown(text) {
   if (!text) return "";
   let html = text;
   html = html.replace(/(?:^\|.*\|(?:\n|\r|$))+/gm, function(match) {
       let rows = match.trim().split('\n');
       let tableHtml = '<div class="overflow-x-auto my-5 rounded-xl ring-1 ring-slate-200 shadow-sm"><table class="w-full text-sm text-left text-slate-600">';

ingest.py CHANGED Viewed

@@ -11,7 +11,8 @@ from src.retrieval.vector_store import get_vector_store
 SOURCES = [
     "https://www.dgwfertilizer.co.id/8-hama-dan-penyakit-penting-pada-tanaman-cabai/",
     "https://mitrabertani.com/artikel/detail/Budidaya-Cabai-Sederhana-tapi-Penting-Cara-Tepat-Tanam-Cabai",
-    "https://digitani.ipb.ac.id/bagaimana-langkah-langkah-budidaya-cabai/"
 ]
 def run_ingestion_pipeline():

 SOURCES = [
     "https://www.dgwfertilizer.co.id/8-hama-dan-penyakit-penting-pada-tanaman-cabai/",
     "https://mitrabertani.com/artikel/detail/Budidaya-Cabai-Sederhana-tapi-Penting-Cara-Tepat-Tanam-Cabai",
+    "https://digitani.ipb.ac.id/bagaimana-langkah-langkah-budidaya-cabai/",
+    "data/cabai.pdf"
 ]
 def run_ingestion_pipeline():

requirements.txt ADDED Viewed

	@@ -0,0 +1,21 @@

+--extra-index-url https://download.pytorch.org/whl/cpu
+torch
+torchvision
+fastapi
+uvicorn
+python-multipart
+sentence-transformers
+ultralytics
+pillow
+langchain_classic
+langchain_core
+opencv-python-headless
+langchain
+langchain-core
+langchain-openai
+langchain-chroma
+langchain-huggingface
+chromadb
+pypdf
+streamlit
+python-dotenv

src/chains/__pycache__/chain.cpython-312.pyc CHANGED Viewed

Binary files a/src/chains/__pycache__/chain.cpython-312.pyc and b/src/chains/__pycache__/chain.cpython-312.pyc differ

src/chains/__pycache__/rag.cpython-312.pyc CHANGED Viewed

Binary files a/src/chains/__pycache__/rag.cpython-312.pyc and b/src/chains/__pycache__/rag.cpython-312.pyc differ

src/chains/chain.py CHANGED Viewed

@@ -2,30 +2,22 @@ import sys
 import os
 from dotenv import load_dotenv
-# Menambahkan root directory ke sys.path agar bisa import dari folder src
 root_dir = os.path.abspath(os.path.join(os.path.dirname(__file__), '../../'))
 sys.path.append(root_dir)
 from langchain_core.runnables import RunnablePassthrough
 from langchain_core.output_parsers import StrOutputParser
-from langchain_openai import ChatOpenAI # <- Import ini wajib ada untuk OpenRouter
 from langchain_core.messages import SystemMessage
-from src.ingestion.embedder import get_embedding_model # Menggunakan fungsi get_embedder yang kita bahas sebelumnya
 from src.retrieval.vector_store import get_vector_store
 from src.retrieval.retriever import get_retriever
 from src.chains.prompt import get_rag_prompt
-# Load environment variables (seperti OPENROUTER_API_KEY) dari file .env
 load_dotenv()
 def create_rag_chain():
-    # 1. Setup Komponen Pencarian (Retriever)
-    vs = get_vector_store()
-    retriever = get_retriever(vs) # Fungsi ini dari retriever.py yang sudah di-set k=2
-    # 2. Setup Prompt & LLM
-    prompt = get_rag_prompt()
     llm = ChatOpenAI(
         model="nvidia/nemotron-3-nano-30b-a3b:free",
         temperature=0.2,
@@ -33,28 +25,38 @@ def create_rag_chain():
         openai_api_base="https://openrouter.ai/api/v1",
     )
-    # 3. Fungsi Interceptor untuk Debugging
     def format_docs(docs):
         # ==========================================
-        # INTERCEPTOR: Print metadata ke Terminal VS Code
         # ==========================================
         print("\n" + "▼"*50)
-        print("🔍 [DEBUG] DOKUMEN YANG DITARIK RETRIEVER:")
         for i, doc in enumerate(docs):
-            # Mengambil informasi 'label' (penyakit) dari metadata db_setup.py
             sumber = doc.metadata.get('label', 'Sumber tidak diketahui')
             print(f"  [{i+1}] Topik/Label: {sumber}")
-            # print(f"      Teks: {doc.page_content[:75]}...")
         print("▲"*50 + "\n")
         # ==========================================
-        # Gabungkan teks untuk dikirim ke LLM
         return "\n\n".join(doc.page_content for doc in docs)
-    # 4. Rangkai menjadi Chain (LCEL)
     rag_chain = (
-        # Ubah "question" menjadi "input" agar cocok dengan prompt Anda
         {"context": retriever | format_docs, "input": RunnablePassthrough()}
         | prompt
         | llm
@@ -67,7 +69,6 @@ def create_rag_chain():
 if __name__ == "__main__":
     chain = create_rag_chain()
-    # Menggunakan pertanyaan seputar cabai agar LLM bisa mengambil dari ChromaDB Anda
     pertanyaan = "Bagaimana cara menangani penyakit antraknosa (patek) pada tanaman cabai?"
     print(f"\nUser: {pertanyaan}")
     print("AI sedang berpikir (memproses via OpenRouter)...\n")

 import os
 from dotenv import load_dotenv
 root_dir = os.path.abspath(os.path.join(os.path.dirname(__file__), '../../'))
 sys.path.append(root_dir)
 from langchain_core.runnables import RunnablePassthrough
 from langchain_core.output_parsers import StrOutputParser
+from langchain_openai import ChatOpenAI
 from langchain_core.messages import SystemMessage
+from langchain_classic.retrievers import MultiQueryRetriever
+from src.ingestion.embedder import get_embedding_model
 from src.retrieval.vector_store import get_vector_store
 from src.retrieval.retriever import get_retriever
 from src.chains.prompt import get_rag_prompt
 load_dotenv()
 def create_rag_chain():
     llm = ChatOpenAI(
         model="nvidia/nemotron-3-nano-30b-a3b:free",
         temperature=0.2,
         openai_api_base="https://openrouter.ai/api/v1",
     )
+    vs = get_vector_store()
+    base_retriever = get_retriever(vs, search_type="similarity", k=3) # Mengambil 3 chunks teratas
+    # 3. REFACTOR: Bungkus menjadi Multi-Query Retriever
+    # LLM akan otomatis membuat ~3 variasi pertanyaan alternatif dari pertanyaan user
+    # untuk memastikan dokumen di ChromaDB terambil dengan lebih akurat secara semantik.
+    retriever = MultiQueryRetriever.from_llm(
+        retriever=base_retriever,
+        llm=llm
+    )
+    # 4. Setup Prompt
+    prompt = get_rag_prompt()
+    # 5. Fungsi Interceptor untuk Debugging di Terminal
     def format_docs(docs):
         # ==========================================
+        # INTERCEPTOR: Print metadata ke Terminal
         # ==========================================
         print("\n" + "▼"*50)
+        print("🔍 [DEBUG] DOKUMEN YANG DITARIK MULTI-QUERY RETRIEVER:")
         for i, doc in enumerate(docs):
             sumber = doc.metadata.get('label', 'Sumber tidak diketahui')
             print(f"  [{i+1}] Topik/Label: {sumber}")
         print("▲"*50 + "\n")
         # ==========================================
+        # Gabungkan teks dokumen yang berhasil dikumpulkan dari semua query alternatif
         return "\n\n".join(doc.page_content for doc in docs)
+    # 6. Rangkai menjadi Chain (LCEL)
     rag_chain = (
         {"context": retriever | format_docs, "input": RunnablePassthrough()}
         | prompt
         | llm
 if __name__ == "__main__":
     chain = create_rag_chain()
     pertanyaan = "Bagaimana cara menangani penyakit antraknosa (patek) pada tanaman cabai?"
     print(f"\nUser: {pertanyaan}")
     print("AI sedang berpikir (memproses via OpenRouter)...\n")

src/chains/rag.py CHANGED Viewed

@@ -2,8 +2,6 @@ import os
 from langchain_openai import ChatOpenAI
 from langchain_chroma import Chroma
 from langchain_huggingface import HuggingFaceEmbeddings
-# 1. Import prompt dari file terpisah yang baru dibuat
 from src.chains.prompt import DISEASE_PROMPT_TEMPLATE
 llm = ChatOpenAI(
@@ -27,16 +25,23 @@ chain = DISEASE_PROMPT_TEMPLATE | llm
 def generate_narrative(disease_name):
     print(f"Mencari data untuk label: {disease_name}...")
     results = vectorstore.similarity_search(
-        query="berikan penjelasan lengkap", # dummy query karena kita sudah filter berdasarkan label
-        k=1,
         filter={"label": disease_name}
     )
     if not results:
         return f"Data penyakit '{disease_name}' tidak ditemukan di database."
-    retrieved_context = results[0].page_content
     print("Data ditemukan. Menghasilkan narasi dengan LLM...")

 from langchain_openai import ChatOpenAI
 from langchain_chroma import Chroma
 from langchain_huggingface import HuggingFaceEmbeddings
 from src.chains.prompt import DISEASE_PROMPT_TEMPLATE
 llm = ChatOpenAI(
 def generate_narrative(disease_name):
     print(f"Mencari data untuk label: {disease_name}...")
+    # PERBAIKAN 1: Buat query pencarian yang deskriptif secara semantik
+    # Ini membantu model embedding mencari potongan teks yang paling relevan
+    search_query = f"Penjelasan lengkap mengenai penyebab, ciri-ciri gejala, dan cara mengatasi penyakit {disease_name} pada tanaman cabai."
+    # PERBAIKAN 2: Tingkatkan nilai k untuk mengambil lebih banyak konteks
     results = vectorstore.similarity_search(
+        query=search_query,
+        k=3,  # Mengambil 3 potongan (chunks) teratas
         filter={"label": disease_name}
     )
     if not results:
         return f"Data penyakit '{disease_name}' tidak ditemukan di database."
+    # PERBAIKAN 3: Gabungkan semua teks dari dokumen yang ditemukan
+    # Agar LLM mendapatkan informasi yang utuh, tidak hanya dari 1 chunk saja
+    retrieved_context = "\n\n".join([doc.page_content for doc in results])
     print("Data ditemukan. Menghasilkan narasi dengan LLM...")