Add --live flag and /live command for streaming mode

Browse files

Files changed (1) hide show

chat_minicpmo.py +15 -2

chat_minicpmo.py CHANGED Viewed

@@ -380,7 +380,7 @@ def run_interactive(model, processor, args):
     current_file = args.file
     current_audio = args.audio
     print("MiniCPM-o 4.5 MLX Chat")
-    print("Commands:  /image <path>  |  /audio <path>  |  /clear  |  /quit")
     if current_file:
         print(f"Loaded image: {current_file}")
     if current_audio:
@@ -414,6 +414,11 @@ def run_interactive(model, processor, args):
             current_file = None
             print(f"Audio loaded: {current_audio}\n")
             continue
         print()
@@ -449,6 +454,8 @@ def main():
   python chat_minicpmo.py photo.jpg -p "What's in this image?"
   python chat_minicpmo.py --audio speech.wav -p "Transcribe this."
   python chat_minicpmo.py --audio speech.wav                    # interactive with audio
   python chat_minicpmo.py                                       # interactive mode
 """,
     )
@@ -463,13 +470,19 @@ def main():
     parser.add_argument("--max-tokens", type=int, default=512, help="Max tokens")
     parser.add_argument("--temp", type=float, default=0.0, help="Temperature")
     parser.add_argument("--max-slices", type=int, default=9, help="Max image slices")
     args = parser.parse_args()
     print("Loading model...", flush=True)
     model, processor = load(args.model, trust_remote_code=True)
     print("Model ready.\n")
-    if args.prompt:
         run_once(model, processor, args)
     else:
         run_interactive(model, processor, args)

     current_file = args.file
     current_audio = args.audio
     print("MiniCPM-o 4.5 MLX Chat")
+    print("Commands:  /image <path>  |  /audio <path>  |  /live  |  /clear  |  /quit")
     if current_file:
         print(f"Loaded image: {current_file}")
     if current_audio:
             current_file = None
             print(f"Audio loaded: {current_audio}\n")
             continue
+        if prompt.lower() == "/live":
+            from streaming import run_live_mode
+            run_live_mode(model, processor, args)
+            print()
+            continue
         print()
   python chat_minicpmo.py photo.jpg -p "What's in this image?"
   python chat_minicpmo.py --audio speech.wav -p "Transcribe this."
   python chat_minicpmo.py --audio speech.wav                    # interactive with audio
+  python chat_minicpmo.py --live                                # full duplex streaming
+  python chat_minicpmo.py --live --capture-region 0,0,1920,1080
   python chat_minicpmo.py                                       # interactive mode
 """,
     )
     parser.add_argument("--max-tokens", type=int, default=512, help="Max tokens")
     parser.add_argument("--temp", type=float, default=0.0, help="Temperature")
     parser.add_argument("--max-slices", type=int, default=9, help="Max image slices")
+    parser.add_argument("--live", action="store_true", help="Full duplex streaming mode")
+    parser.add_argument("--capture-region", default=None, help="Screen region x,y,w,h (default: primary monitor)")
+    parser.add_argument("--audio-device", default="BlackHole", help="Audio input device (default: BlackHole)")
     args = parser.parse_args()
     print("Loading model...", flush=True)
     model, processor = load(args.model, trust_remote_code=True)
     print("Model ready.\n")
+    if args.live:
+        from streaming import run_live_mode
+        run_live_mode(model, processor, args)
+    elif args.prompt:
         run_once(model, processor, args)
     else:
         run_interactive(model, processor, args)