Spaces:
Build error
Build error
cli버전
Browse files- Dockerfile +4 -17
- backend/app/__init__.py +1 -0
- backend/app/proxy_manager.py +31 -54
- backend/app/youtube_parser.py +2 -10
- backend/requirements.txt +10 -12
- install_ollama.sh +29 -0
Dockerfile
CHANGED
|
@@ -41,22 +41,9 @@ COPY backend/ ./backend/
|
|
| 41 |
ENV TRANSFORMERS_CACHE="/tmp/hf_cache"
|
| 42 |
ENV HF_HOME="/tmp/hf_cache"
|
| 43 |
|
| 44 |
-
|
| 45 |
-
|
| 46 |
-
|
| 47 |
-
# RUN sh -c "ollama serve & \
|
| 48 |
-
# ATTEMPTS=0; \
|
| 49 |
-
# while ! curl -s http://localhost:11434 > /dev/null && ATTEMPTS < 30; do \
|
| 50 |
-
# ATTEMPTS=$((ATTEMPTS+1)); \
|
| 51 |
-
# echo 'Waiting for Ollama server to start... (Attempt '$ATTEMPTS'/30)'; \
|
| 52 |
-
# sleep 2; \
|
| 53 |
-
# done; \
|
| 54 |
-
# if [ $ATTEMPTS -eq 30 ]; then \
|
| 55 |
-
# echo 'Ollama server did not start in time. Exiting.'; \
|
| 56 |
-
# exit 1; \
|
| 57 |
-
# fi; \
|
| 58 |
-
# echo 'Ollama server started. Pulling model...'; \
|
| 59 |
-
# ollama pull hf.co/DevQuasar/naver-hyperclovax.HyperCLOVAX-SEED-Text-Instruct-0.5B-GGUF:F16"
|
| 60 |
|
| 61 |
# 프론트엔드 빌드 결과물을 백엔드 앱이 접근할 수 있는 경로로 복사합니다.
|
| 62 |
# /app/static 폴더를 만들고 그 안에 Vue.js 빌드 결과물을 넣습니다.
|
|
@@ -72,4 +59,4 @@ EXPOSE 7860
|
|
| 72 |
# 백엔드 main.py의 `OLLAMA_API_BASE_URL` 환경 변수가 `http://127.0.0.1:11434`로 설정되어 있는지 확인하세요.
|
| 73 |
# (Hugging Face Spaces에서 Ollama SDK를 사용하면 보통 이 주소로 접근 가능합니다.)
|
| 74 |
# 수정: ${PORT:-7860} 대신 7860을 직접 사용하거나, sh -c로 쉘이 환경 변수를 해석하도록 합니다.
|
| 75 |
-
CMD ["sh", "-c", "uvicorn main:app --host 0.0.0.0 --port ${PORT:-7860} --app-dir backend/app"]
|
|
|
|
| 41 |
ENV TRANSFORMERS_CACHE="/tmp/hf_cache"
|
| 42 |
ENV HF_HOME="/tmp/hf_cache"
|
| 43 |
|
| 44 |
+
COPY install_ollama.sh /usr/local/bin/
|
| 45 |
+
RUN chmod +x /usr/local/bin/install_ollama.sh
|
| 46 |
+
RUN install_ollama.sh
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 47 |
|
| 48 |
# 프론트엔드 빌드 결과물을 백엔드 앱이 접근할 수 있는 경로로 복사합니다.
|
| 49 |
# /app/static 폴더를 만들고 그 안에 Vue.js 빌드 결과물을 넣습니다.
|
|
|
|
| 59 |
# 백엔드 main.py의 `OLLAMA_API_BASE_URL` 환경 변수가 `http://127.0.0.1:11434`로 설정되어 있는지 확인하세요.
|
| 60 |
# (Hugging Face Spaces에서 Ollama SDK를 사용하면 보통 이 주소로 접근 가능합니다.)
|
| 61 |
# 수정: ${PORT:-7860} 대신 7860을 직접 사용하거나, sh -c로 쉘이 환경 변수를 해석하도록 합니다.
|
| 62 |
+
CMD ["sh", "-c", "ollama serve & uvicorn main:app --host 0.0.0.0 --port ${PORT:-7860} --app-dir backend/app"]
|
backend/app/__init__.py
CHANGED
|
@@ -0,0 +1 @@
|
|
|
|
|
|
|
| 1 |
+
__version__ = "0.1.0"
|
backend/app/proxy_manager.py
CHANGED
|
@@ -1,54 +1,31 @@
|
|
| 1 |
-
|
| 2 |
-
|
| 3 |
-
|
| 4 |
-
|
| 5 |
-
|
| 6 |
-
|
| 7 |
-
|
| 8 |
-
|
| 9 |
-
|
| 10 |
-
|
| 11 |
-
|
| 12 |
-
|
| 13 |
-
|
| 14 |
-
|
| 15 |
-
|
| 16 |
-
|
| 17 |
-
|
| 18 |
-
#
|
| 19 |
-
#
|
| 20 |
-
|
| 21 |
-
|
| 22 |
-
""
|
| 23 |
-
|
| 24 |
-
|
| 25 |
-
|
| 26 |
-
|
| 27 |
-
|
| 28 |
-
|
| 29 |
-
|
| 30 |
-
|
| 31 |
-
|
| 32 |
-
return SCRAPINGBEE_PROXY_ADDRESS
|
| 33 |
-
# ----------------------------------------------------
|
| 34 |
-
|
| 35 |
-
# ----------------------------------------------------
|
| 36 |
-
# FreeProxy 사용 예시 (폴백 또는 다른 선택지)
|
| 37 |
-
# 위에서 ScrapingBee 프록시를 찾지 못했거나 사용하지 않으려는 경우
|
| 38 |
-
# 주석을 해제하고 FreeProxy를 사용하도록 설정할 수 있습니다.
|
| 39 |
-
# try:
|
| 40 |
-
# logger.info("FreeProxy를 사용하여 무료 프록시 가져오기 시도...")
|
| 41 |
-
# # Hugging Face Spaces 허용 포트 (80, 443, 8080)만 필터링
|
| 42 |
-
# proxy_address = FreeProxy(timeout=1, port=[80, 443, 8080], https=True, rand=True).get()
|
| 43 |
-
# if proxy_address:
|
| 44 |
-
# logger.info(f"FreeProxy 사용: {proxy_address}")
|
| 45 |
-
# return proxy_address
|
| 46 |
-
# else:
|
| 47 |
-
# logger.warning("사용 가능한 FreeProxy를 찾을 수 없습니다.")
|
| 48 |
-
# except Exception as e:
|
| 49 |
-
# logger.warning(f"FreeProxy 가져오기 실패: {e}")
|
| 50 |
-
# ----------------------------------------------------
|
| 51 |
-
|
| 52 |
-
# 어떤 프록시도 설정되지 않았거나 가져오지 못한 경우
|
| 53 |
-
logger.warning("어떤 유효한 프록시도 구성되거나 가져올 수 없습니다. 프록시 없이 진행합니다.")
|
| 54 |
-
return None
|
|
|
|
| 1 |
+
import random
|
| 2 |
+
import asyncio
|
| 3 |
+
|
| 4 |
+
class ProxyManager:
|
| 5 |
+
def __init__(self, proxies):
|
| 6 |
+
if not proxies:
|
| 7 |
+
raise ValueError("Proxy list cannot be empty")
|
| 8 |
+
self.proxies = proxies
|
| 9 |
+
|
| 10 |
+
async def get_proxy_url(self):
|
| 11 |
+
"""
|
| 12 |
+
Get a random proxy URL from the list.
|
| 13 |
+
"""
|
| 14 |
+
if not self.proxies:
|
| 15 |
+
return None
|
| 16 |
+
return random.choice(self.proxies)
|
| 17 |
+
|
| 18 |
+
# Example proxy list (replace with your actual proxies)
|
| 19 |
+
# It's recommended to use environment variables to store proxies
|
| 20 |
+
# For example: proxies = os.getenv("HTTP_PROXIES", "").split(",")
|
| 21 |
+
proxies = [
|
| 22 |
+
"http://user:pass@host1:port",
|
| 23 |
+
"http://user:pass@host2:port",
|
| 24 |
+
"http://user:pass@host3:port",
|
| 25 |
+
]
|
| 26 |
+
|
| 27 |
+
proxy_manager = ProxyManager(proxies)
|
| 28 |
+
|
| 29 |
+
# For backward compatibility, if needed
|
| 30 |
+
async def get_proxy_url():
|
| 31 |
+
return await proxy_manager.get_proxy_url()
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
backend/app/youtube_parser.py
CHANGED
|
@@ -10,7 +10,7 @@ from urllib.parse import urlparse, parse_qs
|
|
| 10 |
|
| 11 |
from loguru import logger
|
| 12 |
from yt_dlp import YoutubeDL
|
| 13 |
-
from proxy_manager import
|
| 14 |
from dotenv import load_dotenv
|
| 15 |
|
| 16 |
# 환경 변수 로드 (코드의 가장 위에 위치)
|
|
@@ -71,8 +71,6 @@ async def get_transcript_with_timestamps(video_id: str) -> list[dict] | None:
|
|
| 71 |
logger.info(f"비디오 ID '{video_id}'에 대한 자막 가져오기 시도.")
|
| 72 |
|
| 73 |
processed_chunks = []
|
| 74 |
-
proxy_address = await get_proxy_url()
|
| 75 |
-
|
| 76 |
# yt-dlp 옵션 설정
|
| 77 |
ydl_opts = {
|
| 78 |
'writesubtitles': True, # 사용자가 업로드한 수동 자막 파일 쓰기 활성화
|
|
@@ -85,14 +83,8 @@ async def get_transcript_with_timestamps(video_id: str) -> list[dict] | None:
|
|
| 85 |
'extractor_args': { # 특정 extractor (예: 유튜브)에 대한 추가 인자
|
| 86 |
'youtube': {'skip': ['dash']} # dash manifest 관련 오류 회피 시도 (유튜브 관련)
|
| 87 |
}
|
| 88 |
-
# 프록시가 필요한 경우, 'proxy': 'http://your.proxy.com:port' 형태로 여기에 추가됩니다.
|
| 89 |
}
|
| 90 |
-
|
| 91 |
-
if proxy_address:
|
| 92 |
-
ydl_opts['proxy'] = proxy_address
|
| 93 |
-
logger.info(f"yt-dlp에 프록시 적용: {proxy_address}")
|
| 94 |
-
else:
|
| 95 |
-
logger.info("yt-dlp에 프록시가 적용되지 않았습니다.")
|
| 96 |
|
| 97 |
temp_dir = "./temp_captions"
|
| 98 |
os.makedirs(temp_dir, exist_ok=True)
|
|
|
|
| 10 |
|
| 11 |
from loguru import logger
|
| 12 |
from yt_dlp import YoutubeDL
|
| 13 |
+
from proxy_manager import proxy_manager
|
| 14 |
from dotenv import load_dotenv
|
| 15 |
|
| 16 |
# 환경 변수 로드 (코드의 가장 위에 위치)
|
|
|
|
| 71 |
logger.info(f"비디오 ID '{video_id}'에 대한 자막 가져오기 시도.")
|
| 72 |
|
| 73 |
processed_chunks = []
|
|
|
|
|
|
|
| 74 |
# yt-dlp 옵션 설정
|
| 75 |
ydl_opts = {
|
| 76 |
'writesubtitles': True, # 사용자가 업로드한 수동 자막 파일 쓰기 활성화
|
|
|
|
| 83 |
'extractor_args': { # 특정 extractor (예: 유튜브)에 대한 추가 인자
|
| 84 |
'youtube': {'skip': ['dash']} # dash manifest 관련 오류 회피 시도 (유튜브 관련)
|
| 85 |
}
|
|
|
|
| 86 |
}
|
| 87 |
+
logger.info("yt-dlp에 프록시가 적용되지 않았습니다.")
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 88 |
|
| 89 |
temp_dir = "./temp_captions"
|
| 90 |
os.makedirs(temp_dir, exist_ok=True)
|
backend/requirements.txt
CHANGED
|
@@ -1,12 +1,10 @@
|
|
| 1 |
-
|
| 2 |
-
|
| 3 |
-
|
| 4 |
-
|
| 5 |
-
|
| 6 |
-
|
| 7 |
-
|
| 8 |
-
|
| 9 |
-
|
| 10 |
-
|
| 11 |
-
torch==2.6.0
|
| 12 |
-
httpx
|
|
|
|
| 1 |
+
youtube-transcript-api
|
| 2 |
+
requests
|
| 3 |
+
fastapi
|
| 4 |
+
uvicorn
|
| 5 |
+
httpx
|
| 6 |
+
loguru
|
| 7 |
+
yt-dlp
|
| 8 |
+
python-dotenv
|
| 9 |
+
sentence-transformers
|
| 10 |
+
faiss-cpu
|
|
|
|
|
|
install_ollama.sh
ADDED
|
@@ -0,0 +1,29 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
#!/bin/bash
|
| 2 |
+
|
| 3 |
+
set -e
|
| 4 |
+
|
| 5 |
+
# Install Ollama
|
| 6 |
+
curl -fsSL https://ollama.com/install.sh | sh
|
| 7 |
+
|
| 8 |
+
# Start Ollama server in the background
|
| 9 |
+
ollama serve &
|
| 10 |
+
|
| 11 |
+
# Wait for Ollama server to start
|
| 12 |
+
ATTEMPTS=0
|
| 13 |
+
while ! curl -s http://localhost:11434 > /dev/null && [ $ATTEMPTS -lt 30 ]; do
|
| 14 |
+
ATTEMPTS=$((ATTEMPTS+1))
|
| 15 |
+
echo "Waiting for Ollama server to start... (Attempt $ATTEMPTS/30)"
|
| 16 |
+
sleep 2
|
| 17 |
+
done
|
| 18 |
+
|
| 19 |
+
if [ $ATTEMPTS -eq 30 ]; then
|
| 20 |
+
echo "Ollama server did not start in time. Exiting."
|
| 21 |
+
exit 1
|
| 22 |
+
fi
|
| 23 |
+
|
| 24 |
+
echo "Ollama server started. Pulling model..."
|
| 25 |
+
|
| 26 |
+
# Pull the model
|
| 27 |
+
ollama pull hf.co/DevQuasar/naver-hyperclovax.HyperCLOVAX-SEED-Text-Instruct-0.5B-GGUF:F16
|
| 28 |
+
|
| 29 |
+
echo "Model pull complete."
|