Spaces:

lydiasolomon
/

DevAssist

Sleeping

App Files Files Community

alaselababatunde commited on Sep 19

Commit

9c18fc4

1 Parent(s): 9046ade

Updated

Browse files

Files changed (2) hide show

Dockerfile +16 -24
smebuilder_vector.py +20 -23

Dockerfile CHANGED Viewed

@@ -1,46 +1,38 @@
-# --------------------------
-# DevAssist AI Dockerfile
-# --------------------------
 # Use lightweight Python image
 FROM python:3.10-slim
-# Set working directory
-WORKDIR /app
-# Install system dependencies (for some models/libraries)
 RUN apt-get update && apt-get install -y \
     build-essential \
     curl \
     git \
     && rm -rf /var/lib/apt/lists/*
-# --------------------------
-# Hugging Face container-safe cache
-# --------------------------
-RUN mkdir -p /app/huggingface_cache && chmod -R 777 /app/huggingface_cache
-# Set environment variables for Hugging Face, Transformers, and Torch
 ENV HF_HOME=/app/huggingface_cache
 ENV TRANSFORMERS_CACHE=/app/huggingface_cache
 ENV TORCH_HOME=/app/huggingface_cache
-ENV HF_EMBEDDING_MODEL=intfloat/e5-large-v2
-# --------------------------
-# Copy and install Python dependencies
-# --------------------------
 COPY requirements.txt .
 RUN pip install --no-cache-dir -r requirements.txt
-# --------------------------
 # Copy project files
-# --------------------------
-COPY . .
 # Expose FastAPI default port
 EXPOSE 7860
-# --------------------------
-# Run FastAPI with Uvicorn
-# --------------------------
 CMD ["uvicorn", "main:app", "--host", "0.0.0.0", "--port", "7860"]

 # Use lightweight Python image
 FROM python:3.10-slim
+# Install system dependencies
 RUN apt-get update && apt-get install -y \
     build-essential \
     curl \
     git \
     && rm -rf /var/lib/apt/lists/*
+# Set environment variables for HF cache
 ENV HF_HOME=/app/huggingface_cache
 ENV TRANSFORMERS_CACHE=/app/huggingface_cache
 ENV TORCH_HOME=/app/huggingface_cache
+# Create cache and DB folders with proper permissions
+RUN mkdir -p /app/huggingface_cache /app/Dev_Assist_SME_Builder_DB \
+    && useradd -m appuser \
+    && chown -R appuser:appuser /app/huggingface_cache /app/Dev_Assist_SME_Builder_DB
+# Switch to non-root user
+USER appuser
+WORKDIR /app
+# Copy requirements first for caching
 COPY requirements.txt .
+# Install Python dependencies
 RUN pip install --no-cache-dir -r requirements.txt
 # Copy project files
+COPY --chown=appuser:appuser . .
 # Expose FastAPI default port
 EXPOSE 7860
+# Command to run FastAPI with Uvicorn
 CMD ["uvicorn", "main:app", "--host", "0.0.0.0", "--port", "7860"]

smebuilder_vector.py CHANGED Viewed

@@ -1,5 +1,3 @@
-# smebuilder_vector.py
 import os
 import pandas as pd
 from langchain_huggingface import HuggingFaceEmbeddings
@@ -8,15 +6,10 @@ from langchain_core.documents import Document
 # ----------------- CONFIG -----------------
 DATASET_PATH = "sme_builder_dataset.csv"
-DB_LOCATION = "./Dev_Assist_SME_Builder_DB"
 COLLECTION_NAME = "landing_page_generation_examples"
-# Model name from environment, default to e5-large-v2
-EMBEDDING_MODEL = os.getenv("HF_EMBEDDING_MODEL", "intfloat/e5-large-v2")
-# Ensure Hugging Face cache directory exists (env vars handle cache paths)
-HF_CACHE_DIR = os.getenv("HF_HOME", "/app/huggingface_cache")
-os.makedirs(HF_CACHE_DIR, exist_ok=True)
 # ----------------- LOAD DATASET -----------------
 if not os.path.exists(DATASET_PATH):
@@ -25,34 +18,38 @@ if not os.path.exists(DATASET_PATH):
 df = pd.read_csv(DATASET_PATH)
 # ----------------- EMBEDDINGS -----------------
-# Do NOT pass cache_dir; HF reads env vars automatically
-embeddings = HuggingFaceEmbeddings(model_name=EMBEDDING_MODEL)
-# ----------------- VECTOR STORE -----------------
 add_documents = not os.path.exists(DB_LOCATION)
 documents, ids = [], []
 if add_documents:
     for i, row in df.iterrows():
-        # Combine all page content into a single string
-        page_content = " ".join([
-            str(row.get("prompt", "")),
-            str(row.get("html_code", "")),
-            str(row.get("css_code", "")),
-            str(row.get("js_code", "")),
-            str(row.get("sector", ""))
-        ]).strip()
         documents.append(Document(page_content=page_content, id=str(i)))
         ids.append(str(i))
 vector_store = Chroma(
     collection_name=COLLECTION_NAME,
-    persist_directory=DB_LOCATION,
     embedding_function=embeddings,
 )
-# Add documents if DB doesn't exist
 if add_documents and documents:
     vector_store.add_documents(documents=documents, ids=ids)

 import os
 import pandas as pd
 from langchain_huggingface import HuggingFaceEmbeddings
 # ----------------- CONFIG -----------------
 DATASET_PATH = "sme_builder_dataset.csv"
+DB_LOCATION = "/app/Dev_Assist_SME_Builder_DB"       # absolute path inside container
+HF_CACHE = "/app/huggingface_cache"                  # absolute path for HF cache
 COLLECTION_NAME = "landing_page_generation_examples"
+EMBEDDING_MODEL = "intfloat/e5-base-v2"
 # ----------------- LOAD DATASET -----------------
 if not os.path.exists(DATASET_PATH):
 df = pd.read_csv(DATASET_PATH)
 # ----------------- EMBEDDINGS -----------------
+embeddings = HuggingFaceEmbeddings(
+    model_name=EMBEDDING_MODEL,
+    cache_dir=HF_CACHE  # ensures HF uses a container-safe writable folder
+)
+# Check if vector store exists
 add_documents = not os.path.exists(DB_LOCATION)
+# ----------------- CREATE DOCUMENTS -----------------
 documents, ids = [], []
 if add_documents:
     for i, row in df.iterrows():
+        prompt = row.get("prompt", "")
+        html_code = row.get("html_code", "")
+        css_code = row.get("css_code", "")
+        js_code = row.get("js_code", "")
+        sector = row.get("sector", "")
+        page_content = " ".join(
+            [str(prompt), str(html_code), str(css_code), str(js_code), str(sector)]
+        ).strip()
         documents.append(Document(page_content=page_content, id=str(i)))
         ids.append(str(i))
+# ----------------- VECTOR STORE -----------------
 vector_store = Chroma(
     collection_name=COLLECTION_NAME,
+    persist_directory=DB_LOCATION,  # absolute path
     embedding_function=embeddings,
 )
 if add_documents and documents:
     vector_store.add_documents(documents=documents, ids=ids)