ui-agent / README.md
wxlsty323's picture
Upload folder using huggingface_hub
3508f42 verified

A newer version of the Gradio SDK is available: 6.9.0

Upgrade
metadata
title: ui-agent
app_file: main.py
sdk: gradio
sdk_version: 4.19.2

Mac Vision Control Agent

基于本地视觉大模型的 MacOS 自动化控制代理,支持自然语言控制和界面操作。

功能特性

  • 基于 LLaVA 的本地视觉理解
  • 实时屏幕截图和界面分析
  • 自然语言指令解析
  • 自动化鼠标键盘控制
  • 界面元素精确定位
  • 支持常见 Mac 应用操作

系统要求

  • MacBook Pro with Apple Silicon (M 系列芯片)
  • MacOS Sonoma 或更高版本
  • Python 3.9+
  • 48GB+ RAM

安装步骤

  1. 安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh
  1. 下载 LLaVA 模型
ollama pull llava
  1. 安装 Python 依赖
pip install -r requirements.txt
  1. 运行应用
python main.py

使用方法

  1. 启动应用后,会打开 Gradio Web 界面
  2. 在输入框中输入自然语言指令,如"打开 Safari 浏览器并导航到 Google"
  3. 系统会自动分析当前屏幕,识别相关界面元素并执行操作

注意事项

  • 首次运行时需要授予屏幕录制和辅助功能权限
  • 建议在稳定的系统环境下运行
  • 确保足够的系统内存用于模型运行