Spaces:

TeamGenKI
/

LLMServer

Paused

AurelioAguirre commited on Jan 16, 2025

Commit

50e2fd2

1 Parent(s): 14d86a4

Changed Generate stream to async

Files changed (1) hide show

main/api.py CHANGED Viewed

@@ -2,7 +2,8 @@ import os
 from pathlib import Path
 from threading import Thread
 import torch
-from typing import Optional, Iterator, List
 from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer, BitsAndBytesConfig
 from .utils.logging import setup_logger
@@ -248,12 +249,12 @@ class LLMApi:
             self.logger.error(f"Error generating response: {str(e)}")
             raise
-    def generate_stream(
             self,
             prompt: str,
             system_message: Optional[str] = None,
             max_new_tokens: Optional[int] = None
-    ) -> Iterator[str]:
         """
         Generate a streaming response for the given prompt.
         """
@@ -287,10 +288,12 @@ class LLMApi:
             thread = Thread(target=self.generation_model.generate, kwargs=generation_kwargs)
             thread.start()
-            # Yield the generated text in chunks
             for new_text in streamer:
                 self.logger.debug(f"Generated chunk: {new_text[:50]}...")
                 yield new_text
         except Exception as e:
             self.logger.error(f"Error in streaming generation: {str(e)}")

 from pathlib import Path
 from threading import Thread
 import torch
+from typing import Optional, List, AsyncIterator
+import asyncio
 from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer, BitsAndBytesConfig
 from .utils.logging import setup_logger
             self.logger.error(f"Error generating response: {str(e)}")
             raise
+    async def generate_stream(
             self,
             prompt: str,
             system_message: Optional[str] = None,
             max_new_tokens: Optional[int] = None
+    ) -> AsyncIterator[str]:
         """
         Generate a streaming response for the given prompt.
         """
             thread = Thread(target=self.generation_model.generate, kwargs=generation_kwargs)
             thread.start()
+            # Use async generator to yield chunks
             for new_text in streamer:
                 self.logger.debug(f"Generated chunk: {new_text[:50]}...")
                 yield new_text
+                # Add a small delay to allow other tasks to run
+                await asyncio.sleep(0)
         except Exception as e:
             self.logger.error(f"Error in streaming generation: {str(e)}")