| title: ui-agent | |
| app_file: main.py | |
| sdk: gradio | |
| sdk_version: 4.19.2 | |
| # Mac Vision Control Agent | |
| 基于本地视觉大模型的 MacOS 自动化控制代理,支持自然语言控制和界面操作。 | |
| ## 功能特性 | |
| - 基于 LLaVA 的本地视觉理解 | |
| - 实时屏幕截图和界面分析 | |
| - 自然语言指令解析 | |
| - 自动化鼠标键盘控制 | |
| - 界面元素精确定位 | |
| - 支持常见 Mac 应用操作 | |
| ## 系统要求 | |
| - MacBook Pro with Apple Silicon (M 系列芯片) | |
| - MacOS Sonoma 或更高版本 | |
| - Python 3.9+ | |
| - 48GB+ RAM | |
| ## 安装步骤 | |
| 1. 安装 Ollama | |
| ```bash | |
| curl -fsSL https://ollama.com/install.sh | sh | |
| ``` | |
| 2. 下载 LLaVA 模型 | |
| ```bash | |
| ollama pull llava | |
| ``` | |
| 3. 安装 Python 依赖 | |
| ```bash | |
| pip install -r requirements.txt | |
| ``` | |
| 4. 运行应用 | |
| ```bash | |
| python main.py | |
| ``` | |
| ## 使用方法 | |
| 1. 启动应用后,会打开 Gradio Web 界面 | |
| 2. 在输入框中输入自然语言指令,如"打开 Safari 浏览器并导航到 Google" | |
| 3. 系统会自动分析当前屏幕,识别相关界面元素并执行操作 | |
| ## 注意事项 | |
| - 首次运行时需要授予屏幕录制和辅助功能权限 | |
| - 建议在稳定的系统环境下运行 | |
| - 确保足够的系统内存用于模型运行 |