Spaces:

smartTranscend
/

1201_2

Paused

App Files Files Community

1201_2 / README.md

smartTranscend

Upload 3 files

f31e9a8 verified 4 months ago

preview code

raw

history blame contribute delete

2.39 kB

	---
	title: Llama NBCD Training Platform
	emoji: 🦙
	colorFrom: blue
	colorTo: purple
	sdk: gradio
	sdk_version: 4.44.0
	app_file: app.py
	pinned: false
	license: mit
	---

	# 🦙 Llama NBCD Fine-tuning Platform

	互動式 Llama 模型微調和預測平台，使用 LoRA 進行參數高效微調。

	## 🌟 功能特色

	- 🎯 LoRA 微調: 使用參數高效的 LoRA 方法進行微調
	- 📊 Baseline 比較: 自動比較未微調 vs 微調模型的效果
	- 🎨 指標選擇: 可選擇最佳化指標（F1、Accuracy、Precision、Recall）
	- 🔮 即時預測: 訓練後可直接預測新樣本
	- 💾 模型管理: 自動儲存和管理多個訓練模型
	- 🧹 記憶體管理: 自動清理 GPU 記憶體，避免 OOM

	## 📋 使用方式

	### 1. 模型訓練

	1. 上傳資料: CSV 檔案需包含 `Text` 和 `nbcd` 欄位
	2. 設定參數:
	- 選擇 Llama 模型（預設: meta-llama/Llama-3.2-1B）
	- 設定資料平衡參數
	- 調整訓練參數和 LoRA 參數
	3. 開始訓練: 點擊「開始訓練」按鈕
	4. 查看結果: 比較未微調和微調模型的表現

	### 2. 模型預測

	1. 選擇模型: 從下拉選單選擇已訓練的模型
	2. 輸入文本: 輸入要預測的文本
	3. 查看結果: 同時顯示未微調和微調模型的預測結果

	## 🔐 重要設定

	### Hugging Face Token

	如果要使用 Llama 模型，需要：

	1. 在 [Hugging Face Settings](https://huggingface.co/settings/tokens) 創建 Token
	2. 在 Space 的 Settings → Repository secrets 中加入：
	- Name: `HF_TOKEN`
	- Value: 你的 token

	## ⚙️ 預設參數

	- 訓練輪數: 3
	- 批次大小: 4
	- 學習率: 1e-4
	- LoRA rank: 8
	- LoRA alpha: 16
	- 目標樣本數: 700 筆/類別
	- 類別權重: 啟用

	## 📊 資料格式

	CSV 檔案需包含以下欄位：

	```csv
	Text,nbcd
	"Patient data text here...",0
	"Another patient data...",1
	```

	- `Text`: 文本資料
	- `Label`: 標籤 (0 或 1)

	## 💡 建議

	- GPU 訓練: 強烈建議使用 GPU，CPU 訓練會非常慢
	- 資料量: 建議每個類別至少 500 筆資料
	- 類別不平衡: 使用類別權重和資料平衡功能

	## ⚠️ 注意事項

	- 訓練時間依資料量和硬體而定（通常 10-30 分鐘）
	- 需要 Hugging Face Token 才能下載 Llama 模型
	- 預測結果僅供參考

	## 📝 License

	MIT License