Spaces:

wxlsty323
/

ui-agent

Runtime error

ui-agent / README.md

Upload folder using huggingface_hub

3508f42 verified 9 months ago

1.21 kB

	---
	title: ui-agent
	app_file: main.py
	sdk: gradio
	sdk_version: 4.19.2
	---
	# Mac Vision Control Agent

	基于本地视觉大模型的 MacOS 自动化控制代理，支持自然语言控制和界面操作。

	## 功能特性

	- 基于 LLaVA 的本地视觉理解
	- 实时屏幕截图和界面分析
	- 自然语言指令解析
	- 自动化鼠标键盘控制
	- 界面元素精确定位
	- 支持常见 Mac 应用操作

	## 系统要求

	- MacBook Pro with Apple Silicon (M 系列芯片)
	- MacOS Sonoma 或更高版本
	- Python 3.9+
	- 48GB+ RAM

	## 安装步骤

	1. 安装 Ollama
	```bash
	curl -fsSL https://ollama.com/install.sh \| sh
	```

	2. 下载 LLaVA 模型
	```bash
	ollama pull llava
	```

	3. 安装 Python 依赖
	```bash
	pip install -r requirements.txt
	```

	4. 运行应用
	```bash
	python main.py
	```

	## 使用方法

	1. 启动应用后，会打开 Gradio Web 界面
	2. 在输入框中输入自然语言指令，如"打开 Safari 浏览器并导航到 Google"
	3. 系统会自动分析当前屏幕，识别相关界面元素并执行操作

	## 注意事项

	- 首次运行时需要授予屏幕录制和辅助功能权限
	- 建议在稳定的系统环境下运行
	- 确保足够的系统内存用于模型运行