Spaces:

programci48
/

heytak-ai-api

Sleeping

programci48 commited on Apr 10, 2025

Commit

7c003e4

verified ·

1 Parent(s): 620e2b8

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -3,7 +3,6 @@ import torch
 from fastapi import FastAPI, Request
 from transformers import AutoTokenizer, AutoModelForCausalLM
 from peft import PeftModel
-from huggingface_hub import login
 from typing import Dict, Any
 # Hugging Face token
@@ -11,8 +10,9 @@ HF_TOKEN = os.getenv("HF_TOKEN")
 if not HF_TOKEN:
     raise ValueError("HF_TOKEN environment variable not set!")
-# Login to Hugging Face Hub
-login(token=HF_TOKEN)
 # Model IDs
 BASE_MODEL_ID = "google/gemma-1.1-2b-it"
@@ -21,10 +21,11 @@ LORA_MODEL_ID = "programci48/heytak-lora-v1"
 # Load models with error handling and optimizations
 def load_models() -> Dict[str, Any]:
     try:
-        # Load tokenizer
         tokenizer = AutoTokenizer.from_pretrained(
             BASE_MODEL_ID,
-            token=HF_TOKEN
         )
         # Load base model with memory optimization
@@ -34,7 +35,7 @@ def load_models() -> Dict[str, Any]:
             device_map="auto",
             token=HF_TOKEN,
             low_cpu_mem_usage=True,
-            offload_folder="offload"  # For CPU offloading if needed
         )
         # Load LoRA adapter

 from fastapi import FastAPI, Request
 from transformers import AutoTokenizer, AutoModelForCausalLM
 from peft import PeftModel
 from typing import Dict, Any
 # Hugging Face token
 if not HF_TOKEN:
     raise ValueError("HF_TOKEN environment variable not set!")
+# Cache dizinini ayarla (yazma izni olan bir dizin)
+os.environ["HF_HOME"] = "/tmp/huggingface"
+os.environ["TRANSFORMERS_CACHE"] = "/tmp/huggingface"
 # Model IDs
 BASE_MODEL_ID = "google/gemma-1.1-2b-it"
 # Load models with error handling and optimizations
 def load_models() -> Dict[str, Any]:
     try:
+        # Load tokenizer (login işlemi olmadan doğrudan token kullanarak)
         tokenizer = AutoTokenizer.from_pretrained(
             BASE_MODEL_ID,
+            token=HF_TOKEN,
+            cache_dir="/tmp/huggingface"
         )
         # Load base model with memory optimization
             device_map="auto",
             token=HF_TOKEN,
             low_cpu_mem_usage=True,
+            cache_dir="/tmp/huggingface"
         )
         # Load LoRA adapter