Spaces:
Sleeping
Sleeping
A newer version of the Gradio SDK is available: 6.14.0
์๊ฒฉ ์ธ๋ฑ์ฑ ๊ฐ์ด๋
๋ก์ปฌ ๋งฅ๋ถ์ PDF ํ์ผ์ ํด๋ผ์ฐ๋์์ ์ธ๋ฑ์ฑํ๋ ๋ฐฉ๋ฒ
์ต์ 1: Google Drive ์ฌ์ฉ (์ถ์ฒ)
1๏ธโฃ PDF๋ฅผ Google Drive์ ์ ๋ก๋
# ๋ก์ปฌ ๋งฅ๋ถ์์
# Google Drive ์ฑ์ผ๋ก ํด๋ ๋๋๊ทธ ์ค ๋๋กญ
2๏ธโฃ ๊ณต์ ๋งํฌ ์์ฑ
- Google Drive์์ ํด๋ ์ฐํด๋ฆญ
- "๊ณต์ " โ "๋งํฌ ๊ฐ์ ธ์ค๊ธฐ"
- "์ก์ธ์ค ๊ถํ ์๋ ๋ชจ๋ ์ฌ์ฉ์" ์ ํ
- ๋งํฌ ๋ณต์ฌ
3๏ธโฃ ํด๋ผ์ฐ๋์์ ๋ค์ด๋ก๋ & ์ธ๋ฑ์ฑ
# scripts/download_and_index.py
import gdown
import os
# Google Drive ํด๋ ID (๋งํฌ์์ ์ถ์ถ)
FOLDER_ID = "YOUR_FOLDER_ID_HERE"
# ๋ค์ด๋ก๋
print("PDF ๋ค์ด๋ก๋ ์ค...")
gdown.download_folder(id=FOLDER_ID, output="data/pdfs", quiet=False)
# ์ธ๋ฑ์ฑ
print("์ธ๋ฑ์ฑ ์์...")
os.system("python scripts/index_pdfs.py")
# GitHub ์
๋ก๋
os.system("git add data/chroma_db/")
os.system('git commit -m "Add vector database"')
os.system("git push")
์คํ:
pip install gdown
python scripts/download_and_index.py
์ต์ 2: Dropbox ์ฌ์ฉ
1๏ธโฃ Dropbox์ ์ ๋ก๋
๋ก์ปฌ ๋งฅ๋ถ โ Dropbox ํด๋
2๏ธโฃ ๊ณต์ ๋งํฌ ์์ฑ
ํ์ผ/ํด๋ โ ๊ณต์ โ ๋งํฌ ๋ณต์ฌ
3๏ธโฃ ๋ค์ด๋ก๋ & ์ธ๋ฑ์ฑ
# Dropbox ๋งํฌ์์ dl=0์ dl=1๋ก ๋ณ๊ฒฝ
wget "https://www.dropbox.com/...?dl=1" -O pdfs.zip
# ์์ถ ํด์
unzip pdfs.zip -d data/pdfs/
# ์ธ๋ฑ์ฑ
python scripts/index_pdfs.py
# ์
๋ก๋
./upload_to_github.sh
์ต์ 3: AWS S3 ์ฌ์ฉ
1๏ธโฃ S3 ๋ฒํท์ ์ ๋ก๋
# ๋ก์ปฌ ๋งฅ๋ถ์์
aws s3 sync /path/to/pdfs s3://your-bucket/pdfs/
2๏ธโฃ ํด๋ผ์ฐ๋์์ ๋ค์ด๋ก๋
# GitHub Codespaces ๋๋ EC2์์
aws s3 sync s3://your-bucket/pdfs/ data/pdfs/
# ์ธ๋ฑ์ฑ
python scripts/index_pdfs.py
์ต์ 4: ๋ก์ปฌ์์ ์คํ ํ ๋ฒกํฐ DB๋ง ์ ๋ก๋ (๊ฐ์ฅ ๊ฐ๋จ)
1๏ธโฃ ๋ก์ปฌ ๋งฅ๋ถ์์ ๋ชจ๋ ์์ ์ํ
# ์ ์ฒด ๊ณผ์ ์ ๋ก์ปฌ์์
./setup.sh
./run_indexing.sh # 30-60๋ถ
2๏ธโฃ ๋ฒกํฐ DB๋ง GitHub์ ์ ๋ก๋
# ์ธ๋ฑ์ฑ ์๋ฃ ํ
./upload_to_github.sh
์ด ๋ฐฉ๋ฒ์ด ๊ฐ์ฅ ๊ฐ๋จํ๊ณ ์์ ํฉ๋๋ค!
๋น์ฉ ๋ฐ ์๊ฐ ๋น๊ต
| ๋ฐฉ๋ฒ | ์ ๋ก๋ ์๊ฐ | ๋ค์ด๋ก๋ ์๊ฐ | ์ธ๋ฑ์ฑ ์๊ฐ | ์ด ์๊ฐ | ๋น์ฉ |
|---|---|---|---|---|---|
| ๋ก์ปฌ ์คํ โญ | - | - | 30-60๋ถ | 30-60๋ถ | ๋ฌด๋ฃ |
| Google Drive | 10-30๋ถ | 10-30๋ถ | 30-60๋ถ | 50-120๋ถ | ๋ฌด๋ฃ |
| Dropbox | 10-30๋ถ | 10-30๋ถ | 30-60๋ถ | 50-120๋ถ | ๋ฌด๋ฃ |
| AWS S3 | 10-30๋ถ | 5-10๋ถ | 30-60๋ถ | 45-100๋ถ | ~$1-2 |
์ถ์ฒ ๋ฐฉ๋ฒ
๐ ์ต์ : ๋ก์ปฌ์์ ์คํ
# ๊ฐ์ฅ ๋น ๋ฅด๊ณ ๊ฐ๋จ
./setup.sh
./run_indexing.sh
./upload_to_github.sh
๐ฅ ์ฐจ์ : Google Drive
PDF๋ฅผ ์ ๋ก๋๋ง ํ๋ฉด ๋๋จธ์ง๋ ์๋ํ ๊ฐ๋ฅ
๋ฌธ์ ํด๊ฒฐ
Q: ์ธํฐ๋ท์ด ๋๋ ค์ ์ ๋ก๋๊ฐ ์ค๋ ๊ฑธ๋ ค์
A: ๋ก์ปฌ์์ ์ธ๋ฑ์ฑ ํ ๋ฒกํฐ DB๋ง ์ ๋ก๋ (500MB-2GB)
Q: ํด๋ผ์ฐ๋ ๋น์ฉ์ด ๊ฑฑ์ ๋ผ์
A: ๋ก์ปฌ ์คํ์ด ๋ฌด๋ฃ์ ๋๋ค
Q: ์๋ํํ๊ณ ์ถ์ด์
A: GitHub Actions๋ก ์๋ํ ๊ฐ๋ฅ (๋ณ๋ ๊ฐ์ด๋)
๊ฒฐ๋ก : ๋๋ถ๋ถ์ ๊ฒฝ์ฐ ๋ก์ปฌ์์ ์คํํ๋ ๊ฒ์ด ๊ฐ์ฅ ์ข์ต๋๋ค!