FAllan07 commited on
Commit
c42e795
·
verified ·
1 Parent(s): 548ebff

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +9 -11
app.py CHANGED
@@ -1,28 +1,26 @@
1
  import gradio as gr
2
- import torch
3
  from transformers import pipeline
4
 
5
- # On charge le modèle directement dans la mémoire du Space
6
- # Note : Si le nom a une faute (Sovreign), garde-la ici aussi !
7
  model_id = "AllanF-SSU/Qwen2.5-G3V-Sovereign"
8
 
9
  try:
10
- # On crée un pipeline de conversation
11
  pipe = pipeline(
12
  "text-generation",
13
  model=model_id,
14
- torch_dtype=torch.float16,
15
  device_map="auto"
16
  )
17
 
18
  def predict(message, history):
19
- messages = [{"role": "user", "content": message}]
20
- # Génération de la réponse
21
- out = pipe(messages, max_new_tokens=512)[0]
22
- return out['generated_text'][-1]['content']
23
 
24
  gr.ChatInterface(predict).launch()
25
 
26
  except Exception as e:
27
- # Si la machine gratuite n'a pas assez de RAM, on affiche l'erreur précise
28
- gr.Interface(lambda x: f"Erreur de mémoire : {e}", "text", "text").launch()
 
1
  import gradio as gr
2
+ import os
3
  from transformers import pipeline
4
 
5
+ # Récupération du jeton
6
+ token = os.getenv("HF_TOKEN")
7
  model_id = "AllanF-SSU/Qwen2.5-G3V-Sovereign"
8
 
9
  try:
10
+ # On charge le modèle de façon ultra-légère (8-bit ou 4-bit non supporté en gratuit, on reste en float16)
11
  pipe = pipeline(
12
  "text-generation",
13
  model=model_id,
14
+ token=token,
15
  device_map="auto"
16
  )
17
 
18
  def predict(message, history):
19
+ # Formatage minimaliste
20
+ out = pipe(message, max_new_tokens=256)
21
+ return out[0]['generated_text']
 
22
 
23
  gr.ChatInterface(predict).launch()
24
 
25
  except Exception as e:
26
+ gr.Markdown(f"### ⚠️ Statut du Système\nLe modèle est en cours de chargement ou rencontre une limite de ressources.\nDétail : {e}")