Spaces:

salmapm
/

chatllama2.io

Runtime error

chatllama2.io / app.py

Create app.py

4945658 verified over 1 year ago

1.12 kB

	import gradio as gr
	from transformers import AutoModelForCausalLM, AutoTokenizer
	import torch

	# Chargement conditionnel du modèle
	model = None

	def load_model():
	global model
	if model is None:
	model = AutoModelForCausalLM.from_pretrained("salmapm/llama2_salma")
	model.half() # Utilisation de l'inference en mode FP16
	return model

	# Génération de texte
	def generate_text(prompt):
	model = load_model()
	input_ids = tokenizer.encode(prompt, return_tensors="pt")
	output = model.generate(input_ids, max_length=50, num_return_sequences=1, do_sample=True, top_k=50, top_p=0.95, num_beams=5)
	result = tokenizer.decode(output[0], skip_special_tokens=True)
	torch.cuda.empty_cache() # Libération de la mémoire
	return result

	# Création de l'interface Gradio
	tokenizer = AutoTokenizer.from_pretrained("your-hugging-face-model-name")
	demo = gr.Interface(
	fn=generate_text,
	inputs="text",
	outputs="text",
	title="Mon modèle fine-tuné LLAMA2",
	description="Entrez un prompt et le modèle générera du texte."
	)

	if __name__ == "__main__":
	demo.launch()