Spaces:

ZombitX64
/

AutoGDataset

Paused

File size: 4,823 Bytes

d5eb962
1da8c51
b2e76c0
 
 
 
 
 
 
 
9778bec
 
 
 
 
 
 
 
 
 
 
 
 
b2e76c0
1da8c51
 
 
d5eb962
 
 
 
7908154
d5eb962
 
1da8c51
230725f
1da8c51
230725f
1da8c51
230725f
1da8c51
 
 
 
230725f
1da8c51
230725f
1da8c51
 
 
 
230725f
1da8c51
 
 
 
230725f
1da8c51

---
title: AutoGDataset Thai
emoji: 📚
colorFrom: blue
colorTo: green
sdk: gradio
sdk_version: 5.44.1
app_file: app.py
pinned: false
hf_oauth: true
---

# AutoGDataset Thai 🇹🇭

เครื่องมือสร้างชุดข้อมูล (Dataset) ภาษาไทยจากไฟล์ PDF โดยใช้ LangChain กับ Hugging Face Inference APIset Thai
emoji: 📚
colorFrom: blue
colorTo: green
sdk: gradio
sdk_version: 5.44.1
app_file: app.py
pinned: false
hf_oauth: true
---AutoGDataset Thai
emoji: �🇭
colorFrom: blue
colorTo: green
sdk: gradio
sdk_version: 5.44.1
app_file: app.py
pinned: false
hf_oauth: true
---

# AutoGDataset Thai 🇹🇭

เครื่องมือสร้างชุดข้อมูล (Dataset) ภาษาไทยจากไฟล์ PDF โดยใช้ LangChain กับ Hugging Face Inference API

## คุณสมบัติเด่น ✨

- **รองรับงานหลากหลาย**: QA, RLHF, DPO, Constitutional AI, Chain of Thought, Dialogue และอื่นๆ
- **เน้นภาษาไทย**: รองรับโมเดลภาษาไทยและ prompt ที่เหมาะสมกับบริบททางวัฒนธรรม
- **โมเดลที่รองรับ**: OpenThaiGPT, Typhoon, WangchanBERTa และ multilingual models
- **ปรับแต่งได้**: สามารถกำหนด prompt และพารามิเตอร์ต่างๆ ได้

## โมเดลที่แนะนำ 🤖

### โมเดลภาษาไทย
- `openthaigpt/openthaigpt-1.0.0-alpha-7b-chat`
- `scb10x/llama-3-typhoon-v1.5-8b-instruct`
- `airesearch/wangchanberta-base-att-spm-uncased`

### โมเดล Multilingual
- `google/mt5-large`
- `microsoft/mdeberta-v3-base`
- `facebook/xglm-7.5B`

## การใช้งาน 🚀

### รันในเครื่อง
```bash
pip install -r requirements.txt
python app.py
```

### บน Hugging Face Spaces
1. เพิ่ม secret `HF_TOKEN` หากจำเป็น
2. อัปโหลดไฟล์ PDF
3. เลือกประเภทงานและโมเดล
4. คลิกสร้างชุดข้อมูล

## ประเภทงานที่รองรับ 📋

### งานพื้นฐาน
- **QA**: คำถาม-คำตอบ `{question: str, answer: str}`
- **Summarization**: การสรุป `{summary: str}`
- **Keywords**: คำสำคัญ `{keyword: str}`
- **NER**: การจดจำเอนทิตี `{text: str, label: str, start: int, end: int}`
- **Classification**: การจำแนกประเภท `{labels: [str], rationale: str}`
- **MCQ**: คำถามแบบเลือกตอบ `{question: str, options: [str], answer_index: int}`
- **True/False**: จริง/เท็จ `{statement: str, answer: bool, explanation: str}`
- **Translation**: การแปล `{source: str, target: str}`

### งานขั้นสูงสำหรับ AI Training
- **RLHF**: `{prompt: str, responses: [str], scores: [float], preferred_response: str}`
- **DPO**: `{prompt: str, chosen: str, rejected: str, reason: str}`
- **Instruction_Following**: `{instruction: str, input: str, output: str, difficulty: str}`
- **Constitutional_AI**: `{problematic_prompt: str, constitutional_response: str, principle: str}`
- **Chain_of_Thought**: `{problem: str, thinking_steps: [str], final_answer: str}`
- **Dialogue**: `{dialogue: [{role: str, content: str}], context: str}`
- **Thai_Culture**: `{question_th: str, answer_th: str, cultural_context: str}`

## หมายเหตุสำคัญ 📝

- ใช้ HF Inference API ผ่าน LangChain ไม่ต้องติดตั้ง `transformers` ในเครื่อง
- ไฟล์ผลลัพธ์จะถูกบันทึกใน `outputs/` ทั้งแบบ JSON และ JSONL
- ต้องเข้าสู่ระบบ Hugging Face สำหรับ Spaces (ตั้งค่า `REQUIRE_LOGIN=0` เพื่อปิดการใช้งาน)
- รองรับการปรับแต่ง prompt สำหรับผลลัพธ์ที่ดีขึ้น

## การติดตั้ง Dependencies 📦

```bash
pip install gradio pypdf huggingface_hub langchain langchain-community pythainlp transformers torch
```

สำหรับการประมวลผลภาษาไทยที่ดีขึ้น แนะนำให้ติดตั้ง:
- `pythainlp`: สำหรับการประมวลผลภาษาไทย
- `thai-word-segmentation`: สำหรับการตัดคำภาษาไทย