karanxa
/

Dravik

Text Generation

security-testing

adversarial-prompts

llm-red-teaming

Model card Files Files and versions

Dravik / README.md

karanxa's picture

Update README.md

2cb1932 verified 10 months ago

|

history blame contribute delete

1.55 kB

	---
	language:
	- en
	tags:
	- mistral-7b
	- security-testing
	- llm-safety
	- adversarial-prompts
	- llm-red-teaming
	- red-teaming
	pipeline_tag: text-generation
	---

	# Dravik 1.1 - LLM Red Teaming Model

	## Model Description
	Dravik is a specialized fine-tuned version of Mistral-7B designed specifically for generating adversarial / jailbreaking prompts to test LLM safety systems. It helps security researchers systematically evaluate content filtering mechanisms and safety boundaries.


	## Model Details
	- Base Model: Mistral-7B
	- Specialization: Security Research & Analysis
	- Architecture: Original Mistral with LoRA adaptation
	- Fine-tuning Method: QLoRA (4-bit quantization)

	## Hardware Requirements:
	- GPU: 6GB VRAM minimum
	- RAM: 24GB minimum
	- CPU: Multi-core processor

	## Usage
	```python
	from transformers import AutoModelForCausalLM, AutoTokenizer

	model = AutoModelForCausalLM.from_pretrained("karanxa/Dravik")
	tokenizer = AutoTokenizer.from_pretrained("karanxa/Dravik")
	```

	## Intended Use
	This model is strictly for:
	- Security research testing of LLM safety mechanisms
	- Systematic evaluation of content filters
	- Adversarial prompt testing
	- Safety boundary assessment

	## Training Configuration
	```python
	lora_config = {
	"r": 16,
	"lora_alpha": 64,
	"target_modules": [
	"q_proj", "k_proj", "v_proj", "o_proj",
	"gate_proj", "up_proj", "down_proj"
	]
	}
	```
	## License
	Research-only. Requires authorization.

	## Ethical Statement
	Developed for security research to improve LLM safety systems.