Sp2503 commited on Oct 7, 2025

Commit

c4ff027

verified ·

1 Parent(s): 29f9811

Delete Muril-Model/Muril-Model

Browse files

Files changed (18) hide show

Muril-Model/Muril-Model/.gitattributes +0 -36
Muril-Model/Muril-Model/.gitignore +0 -45
Muril-Model/Muril-Model/Dockerfile +0 -28
Muril-Model/Muril-Model/README.md +0 -10
Muril-Model/Muril-Model/answer_embeddings.pt +0 -3
Muril-Model/Muril-Model/main.py +0 -70
Muril-Model/Muril-Model/muril_combined_multilingual_model/1_Pooling/config.json +0 -10
Muril-Model/Muril-Model/muril_combined_multilingual_model/config.json +0 -25
Muril-Model/Muril-Model/muril_combined_multilingual_model/config_sentence_transformers.json +0 -14
Muril-Model/Muril-Model/muril_combined_multilingual_model/modules.json +0 -14
Muril-Model/Muril-Model/muril_combined_multilingual_model/sentence_bert_config.json +0 -4
Muril-Model/Muril-Model/muril_combined_multilingual_model/special_tokens_map.json +0 -7
Muril-Model/Muril-Model/muril_combined_multilingual_model/tokenizer.json +0 -0
Muril-Model/Muril-Model/muril_combined_multilingual_model/tokenizer_config.json +0 -59
Muril-Model/Muril-Model/muril_combined_multilingual_model/vocab.txt +0 -0
Muril-Model/Muril-Model/muril_multilingual_dataset.csv +0 -3
Muril-Model/Muril-Model/precompute_embeddings.py +0 -17
Muril-Model/Muril-Model/requirements.txt +0 -12

Muril-Model/Muril-Model/.gitattributes DELETED Viewed

@@ -1,36 +0,0 @@
-*.7z filter=lfs diff=lfs merge=lfs -text
-*.arrow filter=lfs diff=lfs merge=lfs -text
-*.bin filter=lfs diff=lfs merge=lfs -text
-*.bz2 filter=lfs diff=lfs merge=lfs -text
-*.ckpt filter=lfs diff=lfs merge=lfs -text
-*.ftz filter=lfs diff=lfs merge=lfs -text
-*.gz filter=lfs diff=lfs merge=lfs -text
-*.h5 filter=lfs diff=lfs merge=lfs -text
-*.joblib filter=lfs diff=lfs merge=lfs -text
-*.lfs.* filter=lfs diff=lfs merge=lfs -text
-*.mlmodel filter=lfs diff=lfs merge=lfs -text
-*.model filter=lfs diff=lfs merge=lfs -text
-*.msgpack filter=lfs diff=lfs merge=lfs -text
-*.npy filter=lfs diff=lfs merge=lfs -text
-*.npz filter=lfs diff=lfs merge=lfs -text
-*.onnx filter=lfs diff=lfs merge=lfs -text
-*.ot filter=lfs diff=lfs merge=lfs -text
-*.parquet filter=lfs diff=lfs merge=lfs -text
-*.pb filter=lfs diff=lfs merge=lfs -text
-*.pickle filter=lfs diff=lfs merge=lfs -text
-*.pkl filter=lfs diff=lfs merge=lfs -text
-*.pt filter=lfs diff=lfs merge=lfs -text
-*.pth filter=lfs diff=lfs merge=lfs -text
-*.rar filter=lfs diff=lfs merge=lfs -text
-*.safetensors filter=lfs diff=lfs merge=lfs -text
-saved_model/**/* filter=lfs diff=lfs merge=lfs -text
-*.tar.* filter=lfs diff=lfs merge=lfs -text
-*.tar filter=lfs diff=lfs merge=lfs -text
-*.tflite filter=lfs diff=lfs merge=lfs -text
-*.tgz filter=lfs diff=lfs merge=lfs -text
-*.wasm filter=lfs diff=lfs merge=lfs -text
-*.xz filter=lfs diff=lfs merge=lfs -text
-*.zip filter=lfs diff=lfs merge=lfs -text
-*.zst filter=lfs diff=lfs merge=lfs -text
-*tfevents* filter=lfs diff=lfs merge=lfs -text
-muril_multilingual_dataset.csv filter=lfs diff=lfs merge=lfs -text

Muril-Model/Muril-Model/.gitignore DELETED Viewed

@@ -1,45 +0,0 @@
-# Python
-__pycache__/
-*.py[cod]
-*$py.class
-*.so
-.Python
-build/
-develop-eggs/
-dist/
-downloads/
-eggs/
-.eggs/
-lib/
-lib64/
-parts/
-sdist/
-var/
-wheels/
-*.egg-info/
-.installed.cfg
-*.egg
-# Virtual Environment
-venv/
-env/
-.env/
-.venv/
-# IDEs and Editors
-.idea/
-.vscode/
-*.swp
-*.swo
-*~
-# Jupyter Notebook
-.ipynb_checkpoints
-# Model files and data
-*.h5
-*.pkl
-*.model
-data/
-models/
-logs/

Muril-Model/Muril-Model/Dockerfile DELETED Viewed

@@ -1,28 +0,0 @@
-# Lightweight Python image
-FROM python:3.10-slim
-# Disable CUDA & set cache
-ENV TORCH_DISABLE_CUDA=1
-ENV HF_HOME=/app/hf_cache
-ENV TRANSFORMERS_CACHE=/app/hf_cache
-# Working directory
-WORKDIR /app
-# Install dependencies
-COPY requirements.txt .
-RUN apt-get update && apt-get install -y git && \
-    pip install --no-cache-dir -r requirements.txt && \
-    rm -rf /var/lib/apt/lists/*
-# Copy app code and model/data
-COPY . .
-# Make cache folder writable
-RUN mkdir -p /app/hf_cache && chmod -R 777 /app/hf_cache
-# Expose port
-EXPOSE 8080
-# Run FastAPI via uvicorn
-CMD ["uvicorn", "main:app", "--host", "0.0.0.0", "--port", "8080"]

Muril-Model/Muril-Model/README.md DELETED Viewed

@@ -1,10 +0,0 @@
----
-title: Muril Model
-emoji: 🌖
-colorFrom: gray
-colorTo: red
-sdk: docker
-pinned: false
----
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

Muril-Model/Muril-Model/answer_embeddings.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:5fa2e749567247c8a15144c6a0b1d3423ae8a8a0054aee9f3cc2774f8b9cb555
-size 83854959

Muril-Model/Muril-Model/main.py DELETED Viewed

@@ -1,70 +0,0 @@
-import os
-import torch
-import pandas as pd
-from fastapi import FastAPI
-from pydantic import BaseModel
-from sentence_transformers import SentenceTransformer, util
-from huggingface_hub import snapshot_download
-# --- Cache Configuration ---
-os.environ["HF_HOME"] = "/app/hf_cache"
-os.environ["TRANSFORMERS_CACHE"] = "/app/hf_cache"
-os.environ["TORCH_DISABLE_CUDA"] = "1"
-# --- Hugging Face Repo ---
-HF_REPO = "Sp2503/Muril-Model"
-# --- Download model & embeddings from Hugging Face Hub ---
-print("📦 Downloading model & embeddings from Hugging Face Hub...")
-model_dir = snapshot_download(repo_id=HF_REPO, repo_type="model")
-print(f"✅ Model snapshot available at: {model_dir}")
-MODEL_PATH = model_dir
-CSV_PATH = os.path.join(model_dir, "muril_multilingual_dataset.csv")
-EMBED_PATH = os.path.join(model_dir, "answer_embeddings.pt")
-# --- Load resources ---
-print("⚙️ Loading model and embeddings...")
-model = SentenceTransformer(MODEL_PATH)
-df = pd.read_csv(CSV_PATH).dropna(subset=['question', 'answer'])
-answer_embeddings = torch.load(EMBED_PATH, map_location="cpu")
-print("✅ Model and embeddings loaded successfully.")
-# --- FastAPI Setup ---
-app = FastAPI(title="MuRIL Multilingual QA API")
-class QueryRequest(BaseModel):
-    question: str
-    lang: str = None
-class QAResponse(BaseModel):
-    answer: str
-@app.get("/")
-def root():
-    return {"status": "✅ API ready", "model_loaded": True}
-@app.post("/get-answer", response_model=QAResponse)
-def get_answer_endpoint(request: QueryRequest):
-    question_text = request.question.strip()
-    lang_filter = request.lang
-    filtered_df = df
-    filtered_embeddings = answer_embeddings
-    if 'lang' in df.columns and lang_filter:
-        mask = df['lang'] == lang_filter
-        filtered_df = df[mask].reset_index(drop=True)
-        filtered_embeddings = answer_embeddings[mask.values]
-    if len(filtered_df) == 0:
-        return {"answer": f"No data found for language '{lang_filter}'."}
-    question_emb = model.encode(question_text, convert_to_tensor=True)
-    cosine_scores = util.pytorch_cos_sim(question_emb, filtered_embeddings)
-    best_idx = torch.argmax(cosine_scores).item()
-    answer = filtered_df.iloc[best_idx]['answer']
-    return {"answer": answer}
-if __name__ == "__main__":
-    import uvicorn
-    uvicorn.run("main:app", host="0.0.0.0", port=8080)

Muril-Model/Muril-Model/muril_combined_multilingual_model/1_Pooling/config.json DELETED Viewed

@@ -1,10 +0,0 @@
-{
-    "word_embedding_dimension": 768,
-    "pooling_mode_cls_token": false,
-    "pooling_mode_mean_tokens": true,
-    "pooling_mode_max_tokens": false,
-    "pooling_mode_mean_sqrt_len_tokens": false,
-    "pooling_mode_weightedmean_tokens": false,
-    "pooling_mode_lasttoken": false,
-    "include_prompt": true
-}

Muril-Model/Muril-Model/muril_combined_multilingual_model/config.json DELETED Viewed

@@ -1,25 +0,0 @@
-{
-  "architectures": [
-    "BertModel"
-  ],
-  "attention_probs_dropout_prob": 0.1,
-  "classifier_dropout": null,
-  "dtype": "float32",
-  "embedding_size": 768,
-  "hidden_act": "gelu",
-  "hidden_dropout_prob": 0.1,
-  "hidden_size": 768,
-  "initializer_range": 0.02,
-  "intermediate_size": 3072,
-  "layer_norm_eps": 1e-12,
-  "max_position_embeddings": 512,
-  "model_type": "bert",
-  "num_attention_heads": 12,
-  "num_hidden_layers": 12,
-  "pad_token_id": 0,
-  "position_embedding_type": "absolute",
-  "transformers_version": "4.56.2",
-  "type_vocab_size": 2,
-  "use_cache": true,
-  "vocab_size": 197285
-}

Muril-Model/Muril-Model/muril_combined_multilingual_model/config_sentence_transformers.json DELETED Viewed

@@ -1,14 +0,0 @@
-{
-  "model_type": "SentenceTransformer",
-  "__version__": {
-    "sentence_transformers": "5.1.1",
-    "transformers": "4.56.2",
-    "pytorch": "2.8.0+cu126"
-  },
-  "prompts": {
-    "query": "",
-    "document": ""
-  },
-  "default_prompt_name": null,
-  "similarity_fn_name": "cosine"
-}

Muril-Model/Muril-Model/muril_combined_multilingual_model/modules.json DELETED Viewed

@@ -1,14 +0,0 @@
-[
-  {
-    "idx": 0,
-    "name": "0",
-    "path": "",
-    "type": "sentence_transformers.models.Transformer"
-  },
-  {
-    "idx": 1,
-    "name": "1",
-    "path": "1_Pooling",
-    "type": "sentence_transformers.models.Pooling"
-  }
-]

Muril-Model/Muril-Model/muril_combined_multilingual_model/sentence_bert_config.json DELETED Viewed

@@ -1,4 +0,0 @@
-{
-    "max_seq_length": 512,
-    "do_lower_case": false
-}

Muril-Model/Muril-Model/muril_combined_multilingual_model/special_tokens_map.json DELETED Viewed

@@ -1,7 +0,0 @@
-{
-  "cls_token": "[CLS]",
-  "mask_token": "[MASK]",
-  "pad_token": "[PAD]",
-  "sep_token": "[SEP]",
-  "unk_token": "[UNK]"
-}

Muril-Model/Muril-Model/muril_combined_multilingual_model/tokenizer.json DELETED Viewed

The diff for this file is too large to render. See raw diff

Muril-Model/Muril-Model/muril_combined_multilingual_model/tokenizer_config.json DELETED Viewed

@@ -1,59 +0,0 @@
-{
-  "added_tokens_decoder": {
-    "0": {
-      "content": "[PAD]",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "100": {
-      "content": "[UNK]",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "103": {
-      "content": "[MASK]",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "104": {
-      "content": "[CLS]",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "105": {
-      "content": "[SEP]",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    }
-  },
-  "clean_up_tokenization_spaces": true,
-  "cls_token": "[CLS]",
-  "do_basic_tokenize": true,
-  "do_lower_case": false,
-  "extra_special_tokens": {},
-  "lowercase": false,
-  "mask_token": "[MASK]",
-  "model_max_length": 512,
-  "never_split": null,
-  "pad_token": "[PAD]",
-  "sep_token": "[SEP]",
-  "strip_accents": false,
-  "tokenize_chinese_chars": true,
-  "tokenizer_class": "BertTokenizer",
-  "unk_token": "[UNK]"
-}

Muril-Model/Muril-Model/muril_combined_multilingual_model/vocab.txt DELETED Viewed

The diff for this file is too large to render. See raw diff

Muril-Model/Muril-Model/muril_multilingual_dataset.csv DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:09cca0ed98f57664e558825059722272d15fe99f5238969e95f523629fb50cec
-size 16996056

Muril-Model/Muril-Model/precompute_embeddings.py DELETED Viewed

@@ -1,17 +0,0 @@
-import torch
-import pandas as pd
-from sentence_transformers import SentenceTransformer
-MODEL_PATH = './muril_combined_multilingual_model'
-CSV_PATH = './muril_multilingual_dataset.csv'
-EMB_PATH = './answer_embeddings.pt'
-print("🔄 Precomputing embeddings...")
-model = SentenceTransformer(MODEL_PATH)
-df = pd.read_csv(CSV_PATH).dropna(subset=['question', 'answer'])
-answers = df['answer'].tolist()
-answer_embeddings = model.encode(answers, convert_to_tensor=True)
-torch.save(answer_embeddings, EMB_PATH)
-print(f"✅ Saved {len(answers)} embeddings to {EMB_PATH}")

Muril-Model/Muril-Model/requirements.txt DELETED Viewed

@@ -1,12 +0,0 @@
-fastapi==0.118.0
-uvicorn==0.37.0
-torch==2.1.0
-sentence-transformers==5.1.1
-transformers==4.43.3
-numpy<2
-pandas==2.1.1
-langdetect==1.0.9
-requests==2.31.0
-tqdm==4.65.0
-PyMuPDF==1.23.0
-huggingface_hub==0.23.4