Delete Muril-Model

Browse files

Files changed (10) hide show

Muril-Model/.gitattributes +0 -36
Muril-Model/.gitignore +0 -45
Muril-Model/Dockerfile +0 -34
Muril-Model/README.md +0 -10
Muril-Model/answer_embeddings.pt +0 -3
Muril-Model/app.py +0 -4
Muril-Model/main.py +0 -107
Muril-Model/muril_multilingual_dataset.csv +0 -3
Muril-Model/precompute_embeddings.py +0 -17
Muril-Model/requirements.txt +0 -12

Muril-Model/.gitattributes DELETED Viewed

@@ -1,36 +0,0 @@
-*.7z filter=lfs diff=lfs merge=lfs -text
-*.arrow filter=lfs diff=lfs merge=lfs -text
-*.bin filter=lfs diff=lfs merge=lfs -text
-*.bz2 filter=lfs diff=lfs merge=lfs -text
-*.ckpt filter=lfs diff=lfs merge=lfs -text
-*.ftz filter=lfs diff=lfs merge=lfs -text
-*.gz filter=lfs diff=lfs merge=lfs -text
-*.h5 filter=lfs diff=lfs merge=lfs -text
-*.joblib filter=lfs diff=lfs merge=lfs -text
-*.lfs.* filter=lfs diff=lfs merge=lfs -text
-*.mlmodel filter=lfs diff=lfs merge=lfs -text
-*.model filter=lfs diff=lfs merge=lfs -text
-*.msgpack filter=lfs diff=lfs merge=lfs -text
-*.npy filter=lfs diff=lfs merge=lfs -text
-*.npz filter=lfs diff=lfs merge=lfs -text
-*.onnx filter=lfs diff=lfs merge=lfs -text
-*.ot filter=lfs diff=lfs merge=lfs -text
-*.parquet filter=lfs diff=lfs merge=lfs -text
-*.pb filter=lfs diff=lfs merge=lfs -text
-*.pickle filter=lfs diff=lfs merge=lfs -text
-*.pkl filter=lfs diff=lfs merge=lfs -text
-*.pt filter=lfs diff=lfs merge=lfs -text
-*.pth filter=lfs diff=lfs merge=lfs -text
-*.rar filter=lfs diff=lfs merge=lfs -text
-*.safetensors filter=lfs diff=lfs merge=lfs -text
-saved_model/**/* filter=lfs diff=lfs merge=lfs -text
-*.tar.* filter=lfs diff=lfs merge=lfs -text
-*.tar filter=lfs diff=lfs merge=lfs -text
-*.tflite filter=lfs diff=lfs merge=lfs -text
-*.tgz filter=lfs diff=lfs merge=lfs -text
-*.wasm filter=lfs diff=lfs merge=lfs -text
-*.xz filter=lfs diff=lfs merge=lfs -text
-*.zip filter=lfs diff=lfs merge=lfs -text
-*.zst filter=lfs diff=lfs merge=lfs -text
-*tfevents* filter=lfs diff=lfs merge=lfs -text
-muril_multilingual_dataset.csv filter=lfs diff=lfs merge=lfs -text

Muril-Model/.gitignore DELETED Viewed

@@ -1,45 +0,0 @@
-# Python
-__pycache__/
-*.py[cod]
-*$py.class
-*.so
-.Python
-build/
-develop-eggs/
-dist/
-downloads/
-eggs/
-.eggs/
-lib/
-lib64/
-parts/
-sdist/
-var/
-wheels/
-*.egg-info/
-.installed.cfg
-*.egg
-# Virtual Environment
-venv/
-env/
-.env/
-.venv/
-# IDEs and Editors
-.idea/
-.vscode/
-*.swp
-*.swo
-*~
-# Jupyter Notebook
-.ipynb_checkpoints
-# Model files and data
-*.h5
-*.pkl
-*.model
-data/
-models/
-logs/

Muril-Model/Dockerfile DELETED Viewed

@@ -1,34 +0,0 @@
-# Use lightweight Python base image
-FROM python:3.10-slim
-# Disable CUDA & set cache locations
-ENV TORCH_DISABLE_CUDA=1
-ENV TRANSFORMERS_CACHE=/app/hf_cache
-ENV HF_HOME=/app/hf_cache
-# Working directory
-WORKDIR /app
-# Copy dependency list
-COPY requirements.txt .
-# Install dependencies efficiently
-RUN apt-get update && apt-get install -y git && \
-    pip install --no-cache-dir -r requirements.txt && \
-    rm -rf /var/lib/apt/lists/*
-# Copy app code
-COPY . .
-# Create cache folder (writable)
-RUN mkdir -p /app/hf_cache && chmod -R 777 /app/hf_cache
-# Expose port for FastAPI
-EXPOSE 8080
-# Health check (optional for Cloud Run / Spaces)
-HEALTHCHECK CMD curl --fail http://localhost:8080/ || exit 1
-# Run the FastAPI app
-# Using "app:app" ensures fast startup since app.py imports main.py lazily.
-CMD ["uvicorn", "app:app", "--host", "0.0.0.0", "--port", "8080"]

Muril-Model/README.md DELETED Viewed

@@ -1,10 +0,0 @@
----
-title: Muril Model
-emoji: 🌖
-colorFrom: gray
-colorTo: red
-sdk: docker
-pinned: false
----
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

Muril-Model/answer_embeddings.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:5fa2e749567247c8a15144c6a0b1d3423ae8a8a0054aee9f3cc2774f8b9cb555
-size 83854959

Muril-Model/app.py DELETED Viewed

@@ -1,4 +0,0 @@
-# app.py
-import importlib
-app = importlib.import_module("main").app

Muril-Model/main.py DELETED Viewed

@@ -1,107 +0,0 @@
-import os
-import torch
-import pandas as pd
-from fastapi import FastAPI
-from pydantic import BaseModel
-from sentence_transformers import SentenceTransformer, util
-from langdetect import detect
-from huggingface_hub import hf_hub_download
-import threading
-import time
-# --- Cache Configuration ---
-os.environ["HF_HOME"] = "/app/hf_cache"
-os.environ["TRANSFORMERS_CACHE"] = "/app/hf_cache"
-os.environ["TORCH_DISABLE_CUDA"] = "1"
-# --- Paths ---
-MODEL_PATH = './muril_combined_multilingual_model'
-CSV_PATH = './muril_multilingual_dataset.csv'
-HF_REPO = "Sp2503/muril-dataset"
-HF_FILE = "answer_embeddings.pt"
-# --- FastAPI Setup ---
-app = FastAPI(title="MuRIL Multilingual QA API")
-# Global variables
-model = None
-df = None
-answer_embeddings = None
-# --- Helper: Load embeddings from Hugging Face ---
-def load_embeddings():
-    print("📥 Downloading embeddings from Hugging Face...")
-    hf_path = hf_hub_download(
-        repo_id=HF_REPO,
-        filename=HF_FILE,
-        repo_type="dataset",
-        cache_dir="/tmp"
-    )
-    print(f"✅ Embeddings available at {hf_path}")
-    return torch.load(hf_path, map_location="cpu")
-# --- Resource Loader ---
-def load_resources():
-    global model, df, answer_embeddings
-    try:
-        print("⚙️ Loading model and dataset...")
-        model = SentenceTransformer(MODEL_PATH)
-        df = pd.read_csv(CSV_PATH).dropna(subset=['question', 'answer'])
-        answer_embeddings = load_embeddings()
-        print("✅ Model and embeddings ready.")
-    except Exception as e:
-        print(f"❌ Error loading resources: {e}")
-# --- Background Loader Thread ---
-@app.on_event("startup")
-def startup_event():
-    print("🚀 Starting background model loader thread...")
-    thread = threading.Thread(target=load_resources)
-    thread.daemon = True
-    thread.start()
-@app.get("/")
-def root():
-    ready = model is not None and df is not None and answer_embeddings is not None
-    return {"status": "✅ Running MuRIL QA API", "model_loaded": ready}
-class QueryRequest(BaseModel):
-    question: str
-    lang: str = None
-class QAResponse(BaseModel):
-    answer: str
-@app.post("/get-answer", response_model=QAResponse)
-def get_answer_endpoint(request: QueryRequest):
-    if model is None or df is None or answer_embeddings is None:
-        return {"answer": "⏳ Model still loading, please try again shortly."}
-    question_text = request.question.strip()
-    lang_filter = request.lang or detect(question_text)
-    filtered_df = df
-    filtered_embeddings = answer_embeddings
-    if 'lang' in df.columns and lang_filter:
-        mask = df['lang'] == lang_filter
-        filtered_df = df[mask].reset_index(drop=True)
-        filtered_embeddings = answer_embeddings[mask.values]
-    if len(filtered_df) == 0:
-        return {"answer": f"⚠️ No data found for language '{lang_filter}'."}
-    question_emb = model.encode(question_text, convert_to_tensor=True)
-    cosine_scores = util.pytorch_cos_sim(question_emb, filtered_embeddings)
-    best_idx = torch.argmax(cosine_scores).item()
-    answer = filtered_df.iloc[best_idx]['answer']
-    return {"answer": answer}
-# --- Keep-alive thread for Spaces ---
-def keep_alive():
-    while True:
-        time.sleep(60)
-if __name__ == "__main__":
-    import uvicorn
-    threading.Thread(target=keep_alive, daemon=True).start()
-    uvicorn.run("main:app", host="0.0.0.0", port=8080)

Muril-Model/muril_multilingual_dataset.csv DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:09cca0ed98f57664e558825059722272d15fe99f5238969e95f523629fb50cec
-size 16996056

Muril-Model/precompute_embeddings.py DELETED Viewed

@@ -1,17 +0,0 @@
-import torch
-import pandas as pd
-from sentence_transformers import SentenceTransformer
-MODEL_PATH = './muril_combined_multilingual_model'
-CSV_PATH = './muril_multilingual_dataset.csv'
-EMB_PATH = './answer_embeddings.pt'
-print("🔄 Precomputing embeddings...")
-model = SentenceTransformer(MODEL_PATH)
-df = pd.read_csv(CSV_PATH).dropna(subset=['question', 'answer'])
-answers = df['answer'].tolist()
-answer_embeddings = model.encode(answers, convert_to_tensor=True)
-torch.save(answer_embeddings, EMB_PATH)
-print(f"✅ Saved {len(answers)} embeddings to {EMB_PATH}")

Muril-Model/requirements.txt DELETED Viewed

@@ -1,12 +0,0 @@
-fastapi==0.118.0
-uvicorn==0.37.0
-torch==2.1.0
-sentence-transformers==5.1.1
-transformers==4.43.3
-numpy<2
-pandas==2.1.1
-langdetect==1.0.9
-requests==2.31.0
-tqdm==4.65.0
-PyMuPDF==1.23.0
-huggingface_hub==0.23.4