Spaces:

lydiasolomon
/

DevAssist

Sleeping

App Files Files Community

alaselababatunde commited on Sep 19, 2025

Commit

5e51aba

1 Parent(s): ee2e099

Updated

Browse files

Files changed (4) hide show

.~lock.SME_Builder_Dataset.csv# +1 -0
main.py +15 -6
sme_builder_dataset.csv +0 -0
smebuilder_vector.py +55 -0

.~lock.SME_Builder_Dataset.csv# ADDED Viewed

	@@ -0,0 +1 @@


1	+ ,alash-studios,alash-studios-HP-EliteBook-840-G3,19.09.2025 18:30,file:///home/alash-studios/.config/libreoffice/4;

main.py CHANGED Viewed

@@ -8,6 +8,7 @@ from langchain.prompts import PromptTemplate
 from langchain_huggingface import HuggingFaceEndpoint
 from langdetect import detect, DetectorFactory
 from huggingface_hub.utils import HfHubHTTPError  # for quota error handling
 # ----------------- CONFIG -----------------
 DetectorFactory.seed = 0
@@ -26,15 +27,14 @@ spitch_client = Spitch()
 # HuggingFace LLM (better tuned for code generation)
 llm = HuggingFaceEndpoint(
-    repo_id="deepseek-ai/deepseek-coder-1.3b-instruct",
     temperature=0.7,
     top_p=0.9,
     do_sample=True,
     repetition_penalty=1.1,
-    max_new_tokens=1024
 )
 # FastAPI app
 app = FastAPI(title="DevAssist AI Backend (FastAPI + LangChain)")
@@ -93,6 +93,7 @@ Guidelines:
 - Return **only valid JSON** with keys: "files" → { "index.html": "...", "styles.css": "...", "script.js": "..." }
 Prompt: {user_prompt}
 Output:
 """
@@ -101,7 +102,7 @@ Output:
 chat_chain = PromptTemplate(input_variables=["question"], template=chat_template) | llm
 stt_chain = PromptTemplate(input_variables=["speech"], template=stt_chat_template) | llm
 autodoc_chain = PromptTemplate(input_variables=["code"], template=autodoc_template) | llm
-sme_chain = PromptTemplate(input_variables=["user_prompt"], template=sme_template) | llm
 # ----------------- REQUEST MODELS -----------------
 class ChatRequest(BaseModel):
@@ -187,7 +188,11 @@ def autodoc(req: AutoDocRequest, authorization: str | None = Header(None)):
 @app.post("/sme/generate")
 async def sme_generate(payload: dict = Body(...)):
     try:
-        response = sme_chain.invoke({"user_prompt": payload.get("user_prompt", "")})
         return {"success": True, "data": response}
     except HfHubHTTPError as e:
         if "exceeded" in str(e).lower() or "quota" in str(e).lower():
@@ -228,7 +233,11 @@ async def sme_speech_generate(file: UploadFile = File(...), lang_hint: str | Non
             translation = transcription
     try:
-        sme_response = sme_chain.invoke({"user_prompt": translation})
         return {
             "success": True,
             "transcription": transcription,

 from langchain_huggingface import HuggingFaceEndpoint
 from langdetect import detect, DetectorFactory
 from huggingface_hub.utils import HfHubHTTPError  # for quota error handling
+from smebuilder_vector import retriever  # <-- your retriever
 # ----------------- CONFIG -----------------
 DetectorFactory.seed = 0
 # HuggingFace LLM (better tuned for code generation)
 llm = HuggingFaceEndpoint(
+    repo_id=HF_MODEL,
     temperature=0.7,
     top_p=0.9,
     do_sample=True,
     repetition_penalty=1.1,
+    max_new_tokens=2048  # bumped tokens
 )
 # FastAPI app
 app = FastAPI(title="DevAssist AI Backend (FastAPI + LangChain)")
 - Return **only valid JSON** with keys: "files" → { "index.html": "...", "styles.css": "...", "script.js": "..." }
 Prompt: {user_prompt}
+Context: {context}
 Output:
 """
 chat_chain = PromptTemplate(input_variables=["question"], template=chat_template) | llm
 stt_chain = PromptTemplate(input_variables=["speech"], template=stt_chat_template) | llm
 autodoc_chain = PromptTemplate(input_variables=["code"], template=autodoc_template) | llm
+sme_chain = PromptTemplate(input_variables=["user_prompt", "context"], template=sme_template) | llm
 # ----------------- REQUEST MODELS -----------------
 class ChatRequest(BaseModel):
 @app.post("/sme/generate")
 async def sme_generate(payload: dict = Body(...)):
     try:
+        user_prompt = payload.get("user_prompt", "")
+        # retrieve context
+        context_docs = retriever.get_relevant_documents(user_prompt)
+        context = "\n".join([doc.page_content for doc in context_docs]) if context_docs else "No extra context"
+        response = sme_chain.invoke({"user_prompt": user_prompt, "context": context})
         return {"success": True, "data": response}
     except HfHubHTTPError as e:
         if "exceeded" in str(e).lower() or "quota" in str(e).lower():
             translation = transcription
     try:
+        # vector retrieval here too
+        context_docs = retriever.get_relevant_documents(translation)
+        context = "\n".join([doc.page_content for doc in context_docs]) if context_docs else "No extra context"
+        sme_response = sme_chain.invoke({"user_prompt": translation, "context": context})
         return {
             "success": True,
             "transcription": transcription,

sme_builder_dataset.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

smebuilder_vector.py ADDED Viewed

	@@ -0,0 +1,55 @@

+# smebuilder_vector.py
+import os
+import pandas as pd
+from langchain_huggingface import HuggingFaceEmbeddings
+from langchain_chroma import Chroma
+from langchain_core.documents import Document
+# ----------------- CONFIG -----------------
+DATASET_PATH = "sme_builder_dataset.csv"
+DB_LOCATION = "./Dev_Assist_SME_Builder_DB"
+COLLECTION_NAME = "landing_page_generation_examples"
+EMBEDDING_MODEL = "sentence-transformers/all-MiniLM-L6-v2"
+# ----------------- LOAD DATASET -----------------
+if not os.path.exists(DATASET_PATH):
+    raise FileNotFoundError(f"Dataset file not found: {DATASET_PATH}")
+df = pd.read_csv(DATASET_PATH)
+# ----------------- EMBEDDINGS -----------------
+embeddings = HuggingFaceEmbeddings(model_name=EMBEDDING_MODEL)
+# Check if vector store exists
+add_documents = not os.path.exists(DB_LOCATION)
+# ----------------- CREATE DOCUMENTS -----------------
+documents, ids = [], []
+if add_documents:
+    for i, row in df.iterrows():
+        prompt = row.get("prompt", "")
+        html_code = row.get("html_code", "")
+        css_code = row.get("css_code", "")
+        js_code = row.get("js_code", "")
+        sector = row.get("sector", "")
+        page_content = " ".join(
+            [str(prompt), str(html_code), str(css_code), str(js_code), str(sector)]
+        ).strip()
+        documents.append(Document(page_content=page_content, id=str(i)))
+        ids.append(str(i))
+# ----------------- VECTOR STORE -----------------
+vector_store = Chroma(
+    collection_name=COLLECTION_NAME,
+    persist_directory=DB_LOCATION,
+    embedding_function=embeddings,
+)
+if add_documents and documents:
+    vector_store.add_documents(documents=documents, ids=ids)
+# ----------------- RETRIEVER -----------------
+retriever = vector_store.as_retriever(search_kwargs={"k": 20})