Spaces:

sixfingerdev
/

sixfinger-api

Running

App Files Files Community

SixFinger commited on Nov 14, 2025

Commit

0aba0d2

1 Parent(s): 631929d

Initial deploy: Sixfinger-2B backend API

Browse files

Files changed (4) hide show

Dockerfile +33 -0
README.md +48 -6
app.py +355 -0
requirements.txt +7 -0

Dockerfile ADDED Viewed

	@@ -0,0 +1,33 @@

+FROM python:3.10-slim
+# Set working directory
+WORKDIR /app
+# Install system dependencies
+RUN apt-get update && apt-get install -y \
+    git \
+    curl \
+    && rm -rf /var/lib/apt/lists/*
+# Copy requirements
+COPY requirements.txt .
+# Install Python dependencies
+RUN pip install --no-cache-dir -r requirements.txt
+# Copy application
+COPY app.py .
+# Expose port
+EXPOSE 7860
+# Environment variables
+ENV PORT=7860
+ENV PYTHONUNBUFFERED=1
+# Health check
+HEALTHCHECK --interval=30s --timeout=10s --start-period=60s --retries=3 \
+    CMD curl -f http://localhost:7860/health || exit 1
+# Run application
+CMD ["python", "app.py"]

README.md CHANGED Viewed

@@ -1,11 +1,53 @@
 ---
-title: Sixfinger Api
-emoji: 🐠
-colorFrom: red
-colorTo: green
 sdk: docker
 pinned: false
-license: apache-2.0
 ---
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 ---
+title: Sixfinger-2B Backend API
+emoji: 🤖
+colorFrom: blue
+colorTo: purple
 sdk: docker
+sdk_version: "20.10.7"
+app_port: 7860
 pinned: false
 ---
+# 🤖 Sixfinger-2B Backend API
+Türkçe dil modeli (Sixfinger-2B) API servisi.
+## 🚀 Endpoints
+- `POST /api/chat` - Normal chat (JSON response)
+- `POST /api/chat/stream` - Streaming chat (Server-Sent Events)
+- `GET /health` - Health check
+- `GET /api/stats` - API statistics
+## 📖 Usage
+### Normal Chat
+```bash
+curl -X POST https://yourusername-sixfinger-backend.hf.space/api/chat \
+  -H "Content-Type: application/json" \
+  -d '{
+    "prompt": "Merhaba!",
+    "max_tokens": 100
+  }'
+Streaming Chat
+Bash
+curl -X POST https://yourusername-sixfinger-backend.hf.space/api/chat/stream \
+  -H "Content-Type: application/json" \
+  -d '{"prompt": "Python nedir?"}' \
+  --no-buffer
+🔧 Parameters
+prompt (required): User message
+max_tokens (optional): Maximum tokens (default: 300, max: 2000)
+temperature (optional): Creativity (0.1-2.0, default: 0.8)
+top_p (optional): Nucleus sampling (0.1-1.0, default: 0.9)
+repetition_penalty (optional): Repetition penalty (1.0-2.0, default: 1.15)
+📊 Model
+Name: Sixfinger-2B
+Size: 2 Billion parameters
+Language: Turkish (Istanbul slang)
+Quantization: 4-bit (NF4)
+🔗 Links
+Model: https://huggingface.co/yourusername/sixfinger-2b
+Dashboard: https://sfapi.pythonanywhere.com

app.py ADDED Viewed

	@@ -0,0 +1,355 @@

+# app.py - Sixfinger-2B Backend API for Hugging Face Spaces
+import json
+import os
+from datetime import datetime
+from threading import Thread
+from flask import Flask, request, jsonify, Response
+from transformers import AutoTokenizer, AutoModelForCausalLM, TextIteratorStreamer, BitsAndBytesConfig
+import torch
+app = Flask(__name__)
+app.config['JSON_AS_ASCII'] = False
+# ========== CONFIGURATION ==========
+MODEL_NAME = os.getenv("MODEL_NAME", "sixfingerdev/sixfinger-2b")  # ✅ Buraya kendi model URL'ini yaz
+PORT = int(os.getenv("PORT", 7860))
+# ========== MODEL LOADING ==========
+print("=" * 60)
+print("🔄 Loading Sixfinger-2B model...")
+print(f"📦 Model: {MODEL_NAME}")
+print("=" * 60)
+try:
+    # Tokenizer
+    tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, trust_remote_code=True)
+    if tokenizer.pad_token is None:
+        tokenizer.pad_token = tokenizer.eos_token
+    # Device detection
+    device = "cuda" if torch.cuda.is_available() else "cpu"
+    print(f"🖥️  Device: {device}")
+    # Model loading with quantization (if GPU available)
+    if device == "cuda":
+        print("⚡ Loading with 4-bit quantization...")
+        quantization_config = BitsAndBytesConfig(
+            load_in_4bit=True,
+            bnb_4bit_compute_dtype=torch.float16,
+            bnb_4bit_quant_type="nf4",
+            bnb_4bit_use_double_quant=True,
+        )
+        model = AutoModelForCausalLM.from_pretrained(
+            MODEL_NAME,
+            device_map="auto",
+            torch_dtype=torch.float16,
+            quantization_config=quantization_config,
+            low_cpu_mem_usage=True,
+            trust_remote_code=True
+        )
+    else:
+        print("⚠️  No GPU detected, using CPU (slower)...")
+        model = AutoModelForCausalLM.from_pretrained(
+            MODEL_NAME,
+            torch_dtype=torch.float32,
+            low_cpu_mem_usage=True,
+            trust_remote_code=True
+        )
+        model.to(device)
+    print("=" * 60)
+    print("✅ Model loaded successfully!")
+    print(f"📊 Device: {model.device}")
+    print(f"💾 Model size: ~{sum(p.numel() for p in model.parameters()) / 1e9:.2f}B parameters")
+    print("=" * 60)
+except Exception as e:
+    print("=" * 60)
+    print(f"❌ Model loading failed: {e}")
+    print("=" * 60)
+    exit(1)
+# ========== SYSTEM PROMPT ==========
+SYSTEM_PROMPT = """Sen Sixfinger'sın.
+Karakter Özellikleri:
+- İstanbul delikanlısı gibi konuşursun
+- Samimi, esprili ve sokak argosunu kullanırsın
+- Kısa ve net cevaplar verirsin
+- "Kanka", "lan", "abi", "reis", "kral" gibi kelimeler kullanırsın
+- Dozunda küfür edebilirsin ama aşırıya kaçmazsın
+- Türkçe dışına çıkmazsın
+- Karşındakini eziklemezsin ama taşak geçebilirsin
+- Bilgi verirken bile rahat tavırlısın
+Örnek Cevap Tarzı:
+"Kanka bak şimdi işin özeti şu..."
+"Yav abi şimdi bu iş öyle değil..."
+"Lan dur hele, sana bi şey diyim..."
+"""
+# ========== STATISTICS ==========
+stats = {
+    'total_requests': 0,
+    'total_tokens': 0,
+    'start_time': datetime.utcnow()
+}
+# ========== ROUTES ==========
+@app.route('/')
+def index():
+    """API Info & Documentation"""
+    uptime = datetime.utcnow() - stats['start_time']
+    uptime_str = str(uptime).split('.')[0]
+    return jsonify({
+        'name': 'Sixfinger-2B Backend API',
+        'version': '1.0.0',
+        'status': 'online',
+        'model': MODEL_NAME,
+        'device': str(model.device),
+        'uptime': uptime_str,
+        'stats': {
+            'total_requests': stats['total_requests'],
+            'total_tokens': stats['total_tokens']
+        },
+        'endpoints': {
+            'POST /api/chat': 'Normal chat (JSON response)',
+            'POST /api/chat/stream': 'Streaming chat (SSE)',
+            'GET /health': 'Health check',
+            'GET /api/stats': 'Statistics'
+        },
+        'usage': {
+            'example_curl': f'curl -X POST https://yourusername-sixfinger-backend.hf.space/api/chat -H "Content-Type: application/json" -d \'{{"prompt": "Merhaba!"}}\''
+        }
+    })
+@app.route('/api/chat', methods=['POST'])
+def chat():
+    """Normal Chat Endpoint"""
+    try:
+        # Validation
+        data = request.json
+        if not data:
+            return jsonify({'error': 'JSON body required'}), 400
+        prompt = data.get('prompt') or data.get('message')
+        if not prompt:
+            return jsonify({'error': 'prompt or message parameter required'}), 400
+        # Parameters
+        max_tokens = min(data.get('max_tokens', 300), 2000)
+        temperature = min(max(data.get('temperature', 0.8), 0.1), 2.0)
+        top_p = min(max(data.get('top_p', 0.9), 0.1), 1.0)
+        repetition_penalty = min(max(data.get('repetition_penalty', 1.15), 1.0), 2.0)
+        # Prepare messages
+        messages = [
+            {"role": "system", "content": SYSTEM_PROMPT},
+            {"role": "user", "content": prompt}
+        ]
+        # Tokenize
+        tokenized = tokenizer.apply_chat_template(
+            messages,
+            return_tensors="pt",
+            add_generation_prompt=True,
+            return_dict=True
+        ).to(model.device)
+        prompt_tokens = tokenized["input_ids"].shape[1]
+        # Generate
+        with torch.no_grad():
+            output = model.generate(
+                input_ids=tokenized["input_ids"],
+                attention_mask=tokenized["attention_mask"],
+                max_new_tokens=max_tokens,
+                temperature=temperature,
+                top_p=top_p,
+                do_sample=True,
+                repetition_penalty=repetition_penalty,
+                pad_token_id=tokenizer.eos_token_id
+            )
+        # Decode
+        generated_text = tokenizer.decode(
+            output[0][tokenized["input_ids"].shape[1]:],
+            skip_special_tokens=True
+        )
+        completion_tokens = output.shape[1] - prompt_tokens
+        total_tokens = output.shape[1]
+        # Update stats
+        stats['total_requests'] += 1
+        stats['total_tokens'] += total_tokens
+        return jsonify({
+            'response': generated_text.strip(),
+            'model': MODEL_NAME,
+            'usage': {
+                'prompt_tokens': prompt_tokens,
+                'completion_tokens': completion_tokens,
+                'total_tokens': total_tokens
+            },
+            'parameters': {
+                'max_tokens': max_tokens,
+                'temperature': temperature,
+                'top_p': top_p,
+                'repetition_penalty': repetition_penalty
+            }
+        })
+    except Exception as e:
+        import traceback
+        return jsonify({
+            'error': 'Model error',
+            'detail': str(e),
+            'traceback': traceback.format_exc()
+        }), 500
+@app.route('/api/chat/stream', methods=['POST'])
+def chat_stream():
+    """Streaming Chat Endpoint"""
+    try:
+        data = request.json
+        if not data:
+            return jsonify({'error': 'JSON body required'}), 400
+        prompt = data.get('prompt') or data.get('message')
+        if not prompt:
+            return jsonify({'error': 'prompt or message required'}), 400
+        max_tokens = min(data.get('max_tokens', 300), 2000)
+        temperature = min(max(data.get('temperature', 0.8), 0.1), 2.0)
+        top_p = min(max(data.get('top_p', 0.9), 0.1), 1.0)
+        repetition_penalty = min(max(data.get('repetition_penalty', 1.15), 1.0), 2.0)
+        def generate():
+            try:
+                messages = [
+                    {"role": "system", "content": SYSTEM_PROMPT},
+                    {"role": "user", "content": prompt}
+                ]
+                tokenized = tokenizer.apply_chat_template(
+                    messages,
+                    return_tensors="pt",
+                    add_generation_prompt=True,
+                    return_dict=True
+                ).to(model.device)
+                streamer = TextIteratorStreamer(
+                    tokenizer,
+                    skip_prompt=True,
+                    skip_special_tokens=True
+                )
+                gen_kwargs = {
+                    "input_ids": tokenized["input_ids"],
+                    "attention_mask": tokenized["attention_mask"],
+                    "max_new_tokens": max_tokens,
+                    "temperature": temperature,
+                    "top_p": top_p,
+                    "do_sample": True,
+                    "repetition_penalty": repetition_penalty,
+                    "streamer": streamer,
+                    "pad_token_id": tokenizer.eos_token_id
+                }
+                thread = Thread(target=model.generate, kwargs=gen_kwargs)
+                thread.start()
+                for token in streamer:
+                    if token.strip():
+                        yield f"data: {json.dumps({'text': token}, ensure_ascii=False)}\n\n"
+                stats['total_requests'] += 1
+                yield f"data: {json.dumps({'done': True})}\n\n"
+            except Exception as e:
+                yield f"data: {json.dumps({'error': str(e)})}\n\n"
+        return Response(generate(), mimetype='text/event-stream')
+    except Exception as e:
+        return jsonify({'error': 'Request error', 'detail': str(e)}), 400
+@app.route('/health')
+def health():
+    """Health Check"""
+    uptime = datetime.utcnow() - stats['start_time']
+    return jsonify({
+        'status': 'ok',
+        'model': MODEL_NAME,
+        'device': str(model.device),
+        'uptime_seconds': int(uptime.total_seconds()),
+        'total_requests': stats['total_requests'],
+        'total_tokens': stats['total_tokens'],
+        'timestamp': datetime.utcnow().isoformat()
+    })
+@app.route('/api/stats')
+def api_stats():
+    """API Statistics"""
+    uptime = datetime.utcnow() - stats['start_time']
+    return jsonify({
+        'total_requests': stats['total_requests'],
+        'total_tokens': stats['total_tokens'],
+        'uptime_seconds': int(uptime.total_seconds()),
+        'model': MODEL_NAME,
+        'device': str(model.device),
+        'status': 'online',
+        'timestamp': datetime.utcnow().isoformat()
+    })
+# ========== ERROR HANDLERS ==========
+@app.errorhandler(404)
+def not_found(e):
+    return jsonify({'error': 'Endpoint not found', 'path': request.path}), 404
+@app.errorhandler(500)
+def internal_error(e):
+    import traceback
+    return jsonify({
+        'error': 'Internal server error',
+        'detail': str(e),
+        'traceback': traceback.format_exc()
+    }), 500
+@app.errorhandler(405)
+def method_not_allowed(e):
+    return jsonify({
+        'error': 'Method not allowed',
+        'allowed_methods': list(e.valid_methods) if hasattr(e, 'valid_methods') else []
+    }), 405
+# ========== CORS (if needed) ==========
+@app.after_request
+def after_request(response):
+    response.headers.add('Access-Control-Allow-Origin', '*')
+    response.headers.add('Access-Control-Allow-Headers', 'Content-Type')
+    response.headers.add('Access-Control-Allow-Methods', 'GET,POST,OPTIONS')
+    return response
+# ========== MAIN ==========
+if __name__ == '__main__':
+    print("\n" + "=" * 60)
+    print("🚀 Starting Sixfinger-2B Backend API")
+    print("=" * 60)
+    print(f"📡 Port: {PORT}")
+    print(f"📦 Model: {MODEL_NAME}")
+    print(f"🖥️  Device: {model.device}")
+    print("=" * 60)
+    print("✅ Server ready!")
+    print("=" * 60 + "\n")
+    app.run(host='0.0.0.0', port=PORT, debug=False, threaded=True)

requirements.txt ADDED Viewed

	@@ -0,0 +1,7 @@

+flask==3.0.0
+transformers==4.36.0
+torch==2.1.0
+accelerate==0.25.0
+bitsandbytes==0.41.0
+sentencepiece==0.1.99
+protobuf==4.25.0