Spaces:

optiviseapp
/

fnmodel

Paused

aeb56 commited on Nov 12, 2025

Commit

ef25cbe

1 Parent(s): 0cefed5

Add flash-attn dependency required by Kimi model

Files changed (2) hide show

app.py CHANGED Viewed

@@ -217,11 +217,11 @@ class ChatBot:
             # Run lm_eval with optimized memory settings
             # Note: We use parallelize=True to distribute across GPUs instead of device_map in model_args
-            # attn_implementation=eager is required because flash attention isn't properly installed
             cmd = [
                 "lm_eval",
                 "--model", "hf",
-                "--model_args", f"pretrained={MODEL_NAME},trust_remote_code=True,dtype=bfloat16,low_cpu_mem_usage=True,parallelize=True,attn_implementation=eager",
                 "--tasks", task_string,
                 "--batch_size", "1",  # Reduced to minimize memory usage
                 "--output_path", output_dir,

             # Run lm_eval with optimized memory settings
             # Note: We use parallelize=True to distribute across GPUs instead of device_map in model_args
+            # We need to install flash-attn for this model to work properly
             cmd = [
                 "lm_eval",
                 "--model", "hf",
+                "--model_args", f"pretrained={MODEL_NAME},trust_remote_code=True,dtype=bfloat16,low_cpu_mem_usage=True,parallelize=True",
                 "--tasks", task_string,
                 "--batch_size", "1",  # Reduced to minimize memory usage
                 "--output_path", output_dir,

requirements.txt CHANGED Viewed

@@ -10,6 +10,9 @@ triton>=3.0.0
 # Flash Linear Attention (required by Kimi model)
 git+https://github.com/sustcsonglin/flash-linear-attention.git@main
 # Evaluation
 lm-eval>=0.4.0

 # Flash Linear Attention (required by Kimi model)
 git+https://github.com/sustcsonglin/flash-linear-attention.git@main
+# Flash Attention (required for attention layers)
+flash-attn>=2.5.0
 # Evaluation
 lm-eval>=0.4.0