zeltera commited on Dec 16, 2025

Commit

c196db0

verified ·

1 Parent(s): 7ebb112

Upload 28 files

Browse files

Files changed (28) hide show

.gitattributes +36 -35
.gitignore +4 -0
README.md +14 -60
app.py +30 -0
inference/__pycache__/analyze.cpython-312.pyc +0 -0
inference/analyze.py +59 -0
inference/test.py +51 -0
model/README.md +58 -0
model/final/added_tokens.json +24 -0
model/final/chat_template.jinja +54 -0
model/final/config.json +55 -0
model/final/generation_config.json +8 -0
model/final/merges.txt +0 -0
model/final/model.safetensors +3 -0
model/final/special_tokens_map.json +25 -0
model/final/tokenizer.json +3 -0
model/final/tokenizer_config.json +207 -0
model/final/vocab.json +0 -0
rag/__pycache__/search.cpython-312.pyc +0 -0
rag/build_index.py +32 -0
rag/corpus/malware_knowledge.txt +13 -0
rag/ingest.py +14 -0
rag/search.py +20 -0
rag/vectorstore/index.faiss +0 -0
rag/vectorstore/meta.pkl +3 -0
requirements.txt +9 -0
yara/__pycache__/generate.cpython-312.pyc +0 -0
yara/generate.py +19 -0

.gitattributes CHANGED Viewed

@@ -1,35 +1,36 @@
-*.7z filter=lfs diff=lfs merge=lfs -text
-*.arrow filter=lfs diff=lfs merge=lfs -text
-*.bin filter=lfs diff=lfs merge=lfs -text
-*.bz2 filter=lfs diff=lfs merge=lfs -text
-*.ckpt filter=lfs diff=lfs merge=lfs -text
-*.ftz filter=lfs diff=lfs merge=lfs -text
-*.gz filter=lfs diff=lfs merge=lfs -text
-*.h5 filter=lfs diff=lfs merge=lfs -text
-*.joblib filter=lfs diff=lfs merge=lfs -text
-*.lfs.* filter=lfs diff=lfs merge=lfs -text
-*.mlmodel filter=lfs diff=lfs merge=lfs -text
-*.model filter=lfs diff=lfs merge=lfs -text
-*.msgpack filter=lfs diff=lfs merge=lfs -text
-*.npy filter=lfs diff=lfs merge=lfs -text
-*.npz filter=lfs diff=lfs merge=lfs -text
-*.onnx filter=lfs diff=lfs merge=lfs -text
-*.ot filter=lfs diff=lfs merge=lfs -text
-*.parquet filter=lfs diff=lfs merge=lfs -text
-*.pb filter=lfs diff=lfs merge=lfs -text
-*.pickle filter=lfs diff=lfs merge=lfs -text
-*.pkl filter=lfs diff=lfs merge=lfs -text
-*.pt filter=lfs diff=lfs merge=lfs -text
-*.pth filter=lfs diff=lfs merge=lfs -text
-*.rar filter=lfs diff=lfs merge=lfs -text
-*.safetensors filter=lfs diff=lfs merge=lfs -text
-saved_model/**/* filter=lfs diff=lfs merge=lfs -text
-*.tar.* filter=lfs diff=lfs merge=lfs -text
-*.tar filter=lfs diff=lfs merge=lfs -text
-*.tflite filter=lfs diff=lfs merge=lfs -text
-*.tgz filter=lfs diff=lfs merge=lfs -text
-*.wasm filter=lfs diff=lfs merge=lfs -text
-*.xz filter=lfs diff=lfs merge=lfs -text
-*.zip filter=lfs diff=lfs merge=lfs -text
-*.zst filter=lfs diff=lfs merge=lfs -text
-*tfevents* filter=lfs diff=lfs merge=lfs -text

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+model/final/tokenizer.json filter=lfs diff=lfs merge=lfs -text

.gitignore ADDED Viewed

	@@ -0,0 +1,4 @@

+__pycache__/
+*.pyc
+.env
+.cache/

README.md CHANGED Viewed

@@ -1,60 +1,14 @@
----
----
-title: MCMA - Malware Static Analyzer & YARA Generator
-emoji: 🛡️
-colorFrom: blue
-colorTo: red
-sdk: gradio
-sdk_version: 5.0.0
-app_file: app.py
-pinned: false
-license: mit
-tags:
-  - cybersecurity
-  - malware-analysis
-  - yara
-  - rag
-  - llm
-  - automation
----
-# 🛡️ MCMA – Malware Static Analyzer
-**MCMA (Malware Classification & Malware Analysis)** is an AI-powered framework designed to assist security analysts and threat hunters. It performs **static analysis** on suspicious files and automatically generates **YARA rules** for detection.
-Using a combination of Retrieval-Augmented Generation (RAG) and Large Language Models (LLMs), MCMA identifies suspicious patterns without executing the file, making it a safe initial step in the malware analysis pipeline.
-## 🚀 Key Features
-*   **Static Analysis:** Extracts metadata, strings, and headers without running the binary.
-*   **AI-Driven Insights:** Uses an LLM to interpret raw file data and explain *why* a file looks suspicious.
-*   **Auto-YARA Generation:** Automatically writes syntactically correct YARA rules based on the analysis logic.
-*   **RAG Integration:** (Optional/If applicable) Retrieves context from a vector database of known malware families to improve classification accuracy.
-## ⚙️ How It Works
-1.  **Input:** User uploads a suspicious file (PE, ELF, Script, etc.) via the Gradio UI.
-2.  **Preprocessing:** The system extracts static features (hashes, imports, exports, entropy).
-3.  **Inference:**
-    *   The features are formatted into a prompt.
-    *   The LLM analyzes the features against known malware behaviors.
-4.  **Output:**
-    *   A JSON report detailed the findings.
-    *   A generated YARA rule to detect similar samples.
-## 🛠️ Installation & Usage
-You can try the live demo in the [Spaces tab](https://huggingface.co/spaces/YOUR_USERNAME/YOUR_SPACE_NAME).
-### Local Setup
-To run this tool locally, clone the repository and install the dependencies.
-```bash
-git clone https://huggingface.co/spaces/zeltera/mcma
-cd mcma
-pip install -r requirements.txt
-python app.py
-license: mit
----

+---
+title: Mcma Space
+emoji: 🚀
+colorFrom: pink
+colorTo: indigo
+sdk: gradio
+sdk_version: 6.1.0
+app_file: app.py
+pinned: false
+license: apache-2.0
+short_description: AI Malware Analysis
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app.py ADDED Viewed

	@@ -0,0 +1,30 @@

+import gradio as gr
+import tempfile
+from inference.analyze import analyze
+from yara.generate import generate_yara
+def analyze_file(file):
+    if file is None:
+        return None, None
+    path = file.name
+    prompt = f"Suspicious file uploaded: {path}"
+    result = analyze(prompt)
+    yara = generate_yara(result)
+    return result, yara
+with gr.Blocks() as demo:
+    gr.Markdown("# 🛡️ MCMA – Malware Static Analyzer")
+    file = gr.File(label="Drag & drop malware sample (static analysis only)")
+    json_out = gr.JSON(label="Analysis Result")
+    # CHANGED: language="yara" -> language="c"
+    yara_out = gr.Code(label="Generated YARA Rule", language="c")
+    btn = gr.Button("Analyze")
+    btn.click(analyze_file, inputs=file, outputs=[json_out, yara_out])
+demo.launch()

inference/__pycache__/analyze.cpython-312.pyc ADDED Viewed

Binary file (2.07 kB). View file

inference/analyze.py ADDED Viewed

	@@ -0,0 +1,59 @@

+import torch
+from transformers import AutoTokenizer, AutoModelForCausalLM
+from rag.search import search_context
+import os
+BASE_DIR = os.path.dirname(os.path.dirname(__file__))
+MODEL_PATH = os.path.join(BASE_DIR, "model", "final")
+tokenizer = AutoTokenizer.from_pretrained(
+    MODEL_PATH,
+    local_files_only=True,
+    trust_remote_code=True,
+    fix_mistral_regex=True
+)
+model = AutoModelForCausalLM.from_pretrained(
+    MODEL_PATH,
+    local_files_only=True,
+    trust_remote_code=True,
+    device_map="auto",
+    dtype=torch.float16
+)
+def analyze(user_input: str):
+    context = search_context(user_input)
+    prompt = f"""
+You are a cybersecurity malware analysis assistant.
+Respond ONLY in valid JSON.
+Use these fields exactly once:
+- reasoning (array of strings)
+- indicators (array)
+- confidence (float 0-1)
+- recommendation (string)
+- mitre_attack (array)
+Context:
+{context}
+Input:
+{user_input}
+Response:
+"""
+    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
+    with torch.no_grad():
+        output = model.generate(
+            **inputs,
+            max_new_tokens=256,
+            do_sample=True,
+            temperature=0.2,
+            top_p=0.9
+        )
+    return tokenizer.decode(output[0], skip_special_tokens=True)

inference/test.py ADDED Viewed

	@@ -0,0 +1,51 @@

+from transformers import AutoTokenizer, AutoModelForCausalLM
+import torch
+import os
+MODEL_PATH = os.path.abspath(
+    r"C:\Users\USER\OneDrive\Desktop\work\mcma\micro-cyber-llm\model\final"
+)
+tokenizer = AutoTokenizer.from_pretrained(
+    MODEL_PATH,
+    local_files_only=True,
+    fix_mistral_regex=True
+)
+model = AutoModelForCausalLM.from_pretrained(
+    MODEL_PATH,
+    device_map="auto",
+    dtype=torch.float16,
+    local_files_only=True
+)
+prompt = """### Instruction:
+You are a cybersecurity malware analysis assistant.
+Respond ONLY in valid JSON.
+Use these fields exactly once:
+- reasoning (array of strings)
+- indicators (array)
+- confidence (float 0-1)
+- recommendation (string)
+- mitre_attack (array)
+### Input:
+APK requests READ_SMS and communicates with api.telegram.org
+### Response:
+"""
+inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
+with torch.no_grad():
+    output = model.generate(
+    **inputs,
+    max_new_tokens=256,
+    do_sample=True,
+    temperature=0.2,
+    top_p=0.9
+)
+print(tokenizer.decode(output[0], skip_special_tokens=True))

model/README.md ADDED Viewed

	@@ -0,0 +1,58 @@

+---
+base_model: Qwen/Qwen2.5-0.5B
+library_name: transformers
+model_name: model
+tags:
+- generated_from_trainer
+- trl
+- sft
+licence: license
+---
+# Model Card for model
+This model is a fine-tuned version of [Qwen/Qwen2.5-0.5B](https://huggingface.co/Qwen/Qwen2.5-0.5B).
+It has been trained using [TRL](https://github.com/huggingface/trl).
+## Quick start
+```python
+from transformers import pipeline
+question = "If you had a time machine, but could only go to the past or the future once and never return, which would you choose and why?"
+generator = pipeline("text-generation", model="None", device="cuda")
+output = generator([{"role": "user", "content": question}], max_new_tokens=128, return_full_text=False)[0]
+print(output["generated_text"])
+```
+## Training procedure
+This model was trained with SFT.
+### Framework versions
+- TRL: 0.26.1
+- Transformers: 4.57.3
+- Pytorch: 2.7.1+cu118
+- Datasets: 4.4.1
+- Tokenizers: 0.22.1
+## Citations
+Cite TRL as:
+```bibtex
+@misc{vonwerra2022trl,
+	title        = {{TRL: Transformer Reinforcement Learning}},
+	author       = {Leandro von Werra and Younes Belkada and Lewis Tunstall and Edward Beeching and Tristan Thrush and Nathan Lambert and Shengyi Huang and Kashif Rasul and Quentin Gallou{\'e}dec},
+	year         = 2020,
+	journal      = {GitHub repository},
+	publisher    = {GitHub},
+	howpublished = {\url{https://github.com/huggingface/trl}}
+}
+```

model/final/added_tokens.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "</tool_call>": 151658,
+  "<tool_call>": 151657,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

model/final/chat_template.jinja ADDED Viewed

	@@ -0,0 +1,54 @@

+{%- if tools %}
+    {{- '<|im_start|>system\n' }}
+    {%- if messages[0]['role'] == 'system' %}
+        {{- messages[0]['content'] }}
+    {%- else %}
+        {{- 'You are a helpful assistant.' }}
+    {%- endif %}
+    {{- "\n\n# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
+{%- else %}
+    {%- if messages[0]['role'] == 'system' %}
+        {{- '<|im_start|>system\n' + messages[0]['content'] + '<|im_end|>\n' }}
+    {%- else %}
+        {{- '<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n' }}
+    {%- endif %}
+{%- endif %}
+{%- for message in messages %}
+    {%- if (message.role == "user") or (message.role == "system" and not loop.first) or (message.role == "assistant" and not message.tool_calls) %}
+        {{- '<|im_start|>' + message.role + '\n' + message.content + '<|im_end|>' + '\n' }}
+    {%- elif message.role == "assistant" %}
+        {{- '<|im_start|>' + message.role }}
+        {%- if message.content %}
+            {{- '\n' + message.content }}
+        {%- endif %}
+        {%- for tool_call in message.tool_calls %}
+            {%- if tool_call.function is defined %}
+                {%- set tool_call = tool_call.function %}
+            {%- endif %}
+            {{- '\n<tool_call>\n{"name": "' }}
+            {{- tool_call.name }}
+            {{- '", "arguments": ' }}
+            {{- tool_call.arguments | tojson }}
+            {{- '}\n</tool_call>' }}
+        {%- endfor %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "tool" %}
+        {%- if (loop.index0 == 0) or (messages[loop.index0 - 1].role != "tool") %}
+            {{- '<|im_start|>user' }}
+        {%- endif %}
+        {{- '\n<tool_response>\n' }}
+        {{- message.content }}
+        {{- '\n</tool_response>' }}
+        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
+            {{- '<|im_end|>\n' }}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant\n' }}
+{%- endif %}

model/final/config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "architectures": [
+    "Qwen2ForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "dtype": "float16",
+  "eos_token_id": 151643,
+  "hidden_act": "silu",
+  "hidden_size": 896,
+  "initializer_range": 0.02,
+  "intermediate_size": 4864,
+  "layer_types": [
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 32768,
+  "max_window_layers": 24,
+  "model_type": "qwen2",
+  "num_attention_heads": 14,
+  "num_hidden_layers": 24,
+  "num_key_value_heads": 2,
+  "pad_token_id": 151643,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "sliding_window": null,
+  "tie_word_embeddings": true,
+  "transformers_version": "4.57.3",
+  "use_cache": true,
+  "use_mrope": false,
+  "use_sliding_window": false,
+  "vocab_size": 151936
+}

model/final/generation_config.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "eos_token_id": [
+    151643
+  ],
+  "max_new_tokens": 2048,
+  "pad_token_id": 151643,
+  "transformers_version": "4.57.3"
+}

model/final/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model/final/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0af69765ea46511ab63e74660ec5b6532aca5b49f89aee3b9f84edcc178410ef
+size 988097536

model/final/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,25 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<|endoftext|>"
+}

model/final/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9c5ae00e602b8860cbd784ba82a8aa14e8feecec692e7076590d014d7b7fdafa
+size 11421896

model/final/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,207 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|endoftext|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

model/final/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

rag/__pycache__/search.cpython-312.pyc ADDED Viewed

Binary file (1.52 kB). View file

rag/build_index.py ADDED Viewed

	@@ -0,0 +1,32 @@

+import os
+import faiss
+import pickle
+from sentence_transformers import SentenceTransformer
+CORPUS_PATH = "../mcma/micro-cyber-llm/rag/corpus/malware_knowledge.txt"
+OUT_DIR = "../mcma/micro-cyber-llm/rag/vectorstore"
+os.makedirs(OUT_DIR, exist_ok=True)
+print("[*] Loading embedding model...")
+model = SentenceTransformer("all-MiniLM-L6-v2")
+print("[*] Reading corpus...")
+with open(CORPUS_PATH, "r", encoding="utf-8") as f:
+    documents = [line.strip() for line in f if line.strip()]
+print(f"[*] Embedding {len(documents)} documents...")
+embeddings = model.encode(documents, show_progress_bar=True)
+dim = embeddings.shape[1]
+index = faiss.IndexFlatL2(dim)
+index.add(embeddings)
+print("[*] Saving FAISS index...")
+faiss.write_index(index, f"{OUT_DIR}/index.faiss")
+print("[*] Saving metadata...")
+with open(f"{OUT_DIR}/meta.pkl", "wb") as f:
+    pickle.dump(documents, f)
+print("[✓] RAG index built successfully!")

rag/corpus/malware_knowledge.txt ADDED Viewed

	@@ -0,0 +1,13 @@

+Android malware often abuses READ_SMS to intercept OTP messages.
+Communication with api.telegram.org is commonly used for C2 exfiltration.
+Banking trojans target SMS permissions and overlay attacks.
+APK files requesting SMS and internet permissions are high risk.
+Windows malware may use CreateRemoteThread for process injection.
+Suspicious EXE files often drop persistence via registry Run keys.
+C2 traffic over HTTPS to unknown domains is a red flag.
+PowerShell abuse is common in post-exploitation.
+MITRE T1406 refers to SMS Control.
+MITRE T1055 refers to Process Injection.
+MITRE T1059 refers to Command and Scripting Interpreter.

rag/ingest.py ADDED Viewed

	@@ -0,0 +1,14 @@

+from sentence_transformers import SentenceTransformer
+import faiss, os, pickle
+model = SentenceTransformer("all-MiniLM-L6-v2")
+index = faiss.IndexFlatL2(384)
+docs = []
+def ingest(text):
+    emb = model.encode([text])
+    index.add(emb)
+    docs.append(text)
+    faiss.write_index(index, "rag/vectorstore/index.faiss")
+    pickle.dump(docs, open("rag/vectorstore/docs.pkl", "wb"))

rag/search.py ADDED Viewed

	@@ -0,0 +1,20 @@

+import os
+import faiss
+import pickle
+from sentence_transformers import SentenceTransformer
+BASE_DIR = os.path.dirname(os.path.dirname(__file__))
+VECTOR_DIR = os.path.join(BASE_DIR, "rag", "vectorstore")
+index = faiss.read_index(os.path.join(VECTOR_DIR, "index.faiss"))
+with open(os.path.join(VECTOR_DIR, "meta.pkl"), "rb") as f:
+    documents = pickle.load(f)
+model = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")
+def search_context(query, top_k=3):
+    q_emb = model.encode([query])
+    D, I = index.search(q_emb, top_k)
+    return "\n".join([documents[i] for i in I[0]])

rag/vectorstore/index.faiss ADDED Viewed

Binary file (16.9 kB). View file

rag/vectorstore/meta.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:043712a56c3aa8d0e33c60438f2a3d2fed218fe29a3e62b04f10f30ce7bf98ff
+size 673

requirements.txt ADDED Viewed

	@@ -0,0 +1,9 @@

+numpy<2
+torch
+transformers
+accelerate
+huggingface_hub
+faiss-cpu
+sentence-transformers
+gradio
+tqdm

yara/__pycache__/generate.cpython-312.pyc ADDED Viewed

Binary file (726 Bytes). View file

yara/generate.py ADDED Viewed

	@@ -0,0 +1,19 @@

+def generate_yara(result):
+    indicators = result["indicators"]
+    rule = f"""
+rule AutoGenerated_Malware {{
+    meta:
+        author = "MicroCyberLLM"
+        confidence = "{result['confidence']}"
+    strings:
+"""
+    for i, ind in enumerate(indicators):
+        rule += f'        $s{i} = "{ind}"\n'
+    rule += """
+    condition:
+        any of them
+}
+"""
+    return rule