Spaces:
Paused
Paused
A newer version of the Gradio SDK is available:
6.9.0
metadata
title: Llama NBCD Training Platform
emoji: 🦙
colorFrom: blue
colorTo: purple
sdk: gradio
sdk_version: 4.44.0
app_file: app.py
pinned: false
license: mit
🦙 Llama NBCD Fine-tuning Platform
互動式 Llama 模型微調和預測平台,使用 LoRA 進行參數高效微調。
🌟 功能特色
- 🎯 LoRA 微調: 使用參數高效的 LoRA 方法進行微調
- 📊 Baseline 比較: 自動比較未微調 vs 微調模型的效果
- 🎨 指標選擇: 可選擇最佳化指標(F1、Accuracy、Precision、Recall)
- 🔮 即時預測: 訓練後可直接預測新樣本
- 💾 模型管理: 自動儲存和管理多個訓練模型
- 🧹 記憶體管理: 自動清理 GPU 記憶體,避免 OOM
📋 使用方式
1. 模型訓練
- 上傳資料: CSV 檔案需包含
Text和nbcd欄位 - 設定參數:
- 選擇 Llama 模型(預設: meta-llama/Llama-3.2-1B)
- 設定資料平衡參數
- 調整訓練參數和 LoRA 參數
- 開始訓練: 點擊「開始訓練」按鈕
- 查看結果: 比較未微調和微調模型的表現
2. 模型預測
- 選擇模型: 從下拉選單選擇已訓練的模型
- 輸入文本: 輸入要預測的文本
- 查看結果: 同時顯示未微調和微調模型的預測結果
🔐 重要設定
Hugging Face Token
如果要使用 Llama 模型,需要:
- 在 Hugging Face Settings 創建 Token
- 在 Space 的 Settings → Repository secrets 中加入:
- Name:
HF_TOKEN - Value: 你的 token
- Name:
⚙️ 預設參數
- 訓練輪數: 3
- 批次大小: 4
- 學習率: 1e-4
- LoRA rank: 8
- LoRA alpha: 16
- 目標樣本數: 700 筆/類別
- 類別權重: 啟用
📊 資料格式
CSV 檔案需包含以下欄位:
Text,nbcd
"Patient data text here...",0
"Another patient data...",1
Text: 文本資料Label: 標籤 (0 或 1)
💡 建議
- GPU 訓練: 強烈建議使用 GPU,CPU 訓練會非常慢
- 資料量: 建議每個類別至少 500 筆資料
- 類別不平衡: 使用類別權重和資料平衡功能
⚠️ 注意事項
- 訓練時間依資料量和硬體而定(通常 10-30 分鐘)
- 需要 Hugging Face Token 才能下載 Llama 模型
- 預測結果僅供參考
📝 License
MIT License