Spaces:

HAENGEE
/

RAG_HF

Running

App Files Files Community

tjrlgns09 commited on Mar 9

Commit

d2100e7

1 Parent(s): a52c5c7

.

Browse files

Files changed (11) hide show

SQL_Example.txt +65 -0
app.py +9 -0
core/cronjob.py +196 -0
core/database.py +34 -0
core/dependencies.py +39 -0
core/models.py +15 -0
requirements.txt +9 -1
router/image_embedding_router.py +35 -0
test_gemini.py +43 -0
test_image_embedding.py +34 -0
test_rss.py +11 -0

SQL_Example.txt CHANGED Viewed

	@@ -20,4 +20,69 @@ CREATE INDEX idx_content_embedding ON t_test_textembedding USING hnsw (content_e
20
21	--------------------------------
22
































































23

 --------------------------------
+-- 1. pgvector 확장이 없다면 먼저 생성해야 합니다.
+CREATE EXTENSION IF NOT EXISTS vector;
+-- 2. 테이블 생성
+CREATE TABLE t_test_imgembedding (
+    id BIGSERIAL PRIMARY KEY,                          -- PK (자동 증가)
+    title VARCHAR ,
+    url VARCHAR ,
+    mimetype VARCHAR ,
+    img_embedding VECTOR(1280),                     -- 내용 임베딩 (768차원)
+    created_at TIMESTAMPTZ DEFAULT CURRENT_TIMESTAMP   -- 생성일
+);
+-- 3. (선택) 벡터 검색 성능을 높이기 위한 인덱스 생성 (HNSW 알고리즘, 코사인 유사도 기준)
+CREATE INDEX idx_test_imgembedding ON t_test_imgembedding USING hnsw (img_embedding vector_cosine_ops);
+----------------------------------
+// title_embedding_arr, content_embedding_arr는
+// ONNX 모델에서 추출한 768개의 숫자가 담긴 배열(Array)입니다.
+let insertData = await db.query(
+  `
+  INSERT INTO t_test_textembedding (title, title_embedding, content, content_embedding)
+  VALUES ($1, $2, $3, $4)
+  RETURNING id, title, created_at;
+  `,
+  [
+    title,
+    JSON.stringify(title_embedding_arr), // DB 드라이버 호환성을 위해 문자열 포맷 '[...]' 으로 변환
+    content,
+    JSON.stringify(content_embedding_arr)
+  ]
+);
+console.log('생성된 데이터:', insertData.rows[0]);
+-----------------------------------------
+// query_embedding_arr는 사용자의 검색어를 ONNX 모델에 돌려 나온 임베딩 배열입니다.
+let searchResult = await db.query(
+  `
+  SELECT
+    id,
+    title,
+    content,
+    -- 코사인 거리는 0에 가까울수록 유사하므로, 직관적인 '유사도 점수'를 위해 1에서 뺍니다.
+    1 - (content_embedding <=> $1) AS similarity_score
+  FROM t_test_textembedding
+  -- 유사도 임계값 설정 (예: 정확도 점수가 0.5 이상인 것만)
+  WHERE 1 - (content_embedding <=> $1) > 0.5
+  ORDER BY content_embedding <=> $1 ASC
+  LIMIT 5;
+  `,
+  [JSON.stringify(query_embedding_arr)]
+);
+console.log('유사한 데이터 목록:', searchResult.rows);

app.py CHANGED Viewed

@@ -5,6 +5,8 @@ from contextlib import asynccontextmanager
 from router import llamindex_router
 from router import embedding_router
 @asynccontextmanager
 async def lifespan_manager(app: FastAPI):
@@ -12,9 +14,15 @@ async def lifespan_manager(app: FastAPI):
     서버 시작 시 모델을 로드하고 종료 시 정리합니다.
     """
     # 서버가 요청 처리를 시작하도록 제어권을 넘겨줍니다.
     yield
 # FastAPI 애플리케이션 초기화
 app = FastAPI(
     title="RAG+LLM",
@@ -33,6 +41,7 @@ app.add_middleware(
 app.include_router(llamindex_router.router, prefix="/llama_index")
 app.include_router(embedding_router.router, prefix="/embedding")
 # 헬스 체크용 기본 엔드포인트
 @app.get("/", summary="API 헬스 체크")

 from router import llamindex_router
 from router import embedding_router
+from router import image_embedding_router
+from core.cronjob import news_scheduler
 @asynccontextmanager
 async def lifespan_manager(app: FastAPI):
     서버 시작 시 모델을 로드하고 종료 시 정리합니다.
     """
+    # 스케줄러 시작
+    #news_scheduler.start()
     # 서버가 요청 처리를 시작하도록 제어권을 넘겨줍니다.
     yield
+    # 스케줄러 종료
+    #news_scheduler.shutdown()
 # FastAPI 애플리케이션 초기화
 app = FastAPI(
     title="RAG+LLM",
 app.include_router(llamindex_router.router, prefix="/llama_index")
 app.include_router(embedding_router.router, prefix="/embedding")
+app.include_router(image_embedding_router.router, prefix="/image_embedding")
 # 헬스 체크용 기본 엔드포인트
 @app.get("/", summary="API 헬스 체크")

core/cronjob.py ADDED Viewed

	@@ -0,0 +1,196 @@

+from apscheduler.schedulers.asyncio import AsyncIOScheduler
+from apscheduler.triggers.cron import CronTrigger
+from datetime import datetime
+import urllib.parse
+import feedparser
+import asyncio
+import pytz
+from time import mktime
+# 추가된 임포트 (DB 및 모델, 임베딩)
+from core.database import SessionLocal
+from core.models import NewsEmbedding
+from core.dependencies import get_embedding_model
+import os
+import requests
+from newspaper import Article
+from langchain_google_genai import ChatGoogleGenerativeAI
+from langchain_core.messages import HumanMessage
+from apscheduler.triggers.interval import IntervalTrigger
+# Initialize Gemini
+llm = ChatGoogleGenerativeAI(
+    model="gemini-2.5-flash-lite",
+    temperature=0.1,
+    google_api_key=os.getenv("GOOGLE_API_KEY")
+)
+# (is_real_gold_news 함수는 기존과 동일하게 유지)
+def is_real_gold_news(title):
+    title_lower = title.lower()
+    black_list = ["금요일", "보조금", "장학금", "지원금", "벌금", "출금", "입금", "금지", "송금", "대출금", "모금", "기금", "과징금", "golden retriever", "golden state", "golden globe", "golden rule", "marigold"]
+    white_list = ["온스", "골드바", "시세", "순금", "거래소", "달러", "투자", "금값", "한국금거래소", "krx", "금펀드", "ounce", "bullion", "price", "market", "fed", "inflation", "xau", "spot", "invest"]
+    if any(bad_word in title_lower for bad_word in black_list): return False
+    if any(good_word in title_lower for good_word in white_list): return True
+    return False
+# 2. RSS 피드를 가져와서 DB에 저장하는 함수로 업그레이드
+def fetch_filter_and_save_news(keyword, hl, gl, ceid, db_session, max_news=3):
+    url_keyword = urllib.parse.quote(keyword)
+    rss_url = f"https://news.google.com/rss/search?q={url_keyword}&hl={hl}&gl={gl}&ceid={ceid}"
+    feed = feedparser.parse(rss_url)
+    valid_news = []
+    # dependencies.py에 있는 임베딩 모델 인스턴스 가져오기
+    embedder = get_embedding_model()
+    for entry in feed.entries:
+        if len(valid_news) >= max_news:
+            break
+        if is_real_gold_news(entry.title):
+            # 💡 [핵심] 중복 검사: DB에 똑같은 제목의 기사가 이미 있는지 확인
+            exists = db_session.query(NewsEmbedding).filter(NewsEmbedding.title == entry.title).first()
+            if exists:
+                continue  # 이미 DB에 있으면 스킵하고 다음 기사로 넘어감
+            # 💡 [핵심] 발행일 추출: 피드에서 제공하는 시간(published_parsed)을 Datetime으로 변환
+            if hasattr(entry, 'published_parsed') and entry.published_parsed:
+                pub_date = datetime.fromtimestamp(mktime(entry.published_parsed), pytz.UTC)
+            else:
+                pub_date = datetime.now(pytz.UTC)
+            # Gemini를 통한 진짜 금 뉴스 확인 및 요약
+            try:
+               # 💡 [개선] 더 강력한 브라우저 위장 헤더
+                headers = {
+                    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36',
+                    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8',
+                    'Accept-Language': 'ko-KR,ko;q=0.9,en-US;q=0.8,en;q=0.7',
+                    'Cache-Control': 'no-cache',
+                    'Pragma': 'no-cache',
+                }
+                # 1. 먼저 리다이렉트된 최종 URL을 따냅니다.
+                response = requests.get(entry.link, timeout=15, headers=headers, allow_redirects=True)
+                real_url = response.url
+                # 2. newspaper3k 설정 적용
+                from newspaper import Config
+                config = Config()
+                config.browser_user_agent = headers['User-Agent']
+                config.request_timeout = 15
+                article = Article(real_url, config=config)
+                article.download()
+                article.parse()
+                article_text = article.text.strip()
+                # 💡 [검증] 본문이 없거나 "Google News" 껍데기만 긁힌 경우 체크
+                if len(article_text) < 100 or "Google News" in article_text[:100]:
+                    # 만약 newspaper가 실패하면 BeautifulSoup으로 재시도 (최후의 수단)
+                    soup = BeautifulSoup(response.text, 'html.parser')
+                    # 뉴스 사이트들이 보통 쓰는 본문 태그들 위주로 텍스트 추출
+                    article_text = ' '.join([p.text for p in soup.find_all('p') if len(p.text) > 20])
+                if len(article_text) < 100:
+                    print(f"⚠️ 본문 추출 실패 (내용 부족): {entry.title}")
+                    continue
+                # 디버깅 출력
+                print(f"\n[기사 제목]: {entry.title}")
+                print(f"[실제 주소]: {real_url}")
+                print(f"[본문 미리보기]:\n{article_text[:300]}...\n")
+                print("-" * 50)
+                # 테스트 완료 전까지는 API 호출 방지를 위해 유지
+                continue
+                prompt = f"""
+다음은 뉴스 기사 원문입니다:
+{article_text[:3000]}
+이 뉴스가 금(Gold, 귀금속/투자자산/금값)과 관련된 실제 뉴스인지 판별하고,
+맞다면 기사의 핵심 내용을 1~2줄로 요약해주세요.
+만약 금과 전혀 관련이 없는 뉴스라면 (예: 금요일, 벌금, 장학금, 출금, 송금, 보조금, 단순히 '금'이 포함된 단어만 있는 기사 등)
+'NOT_GOLD_NEWS' 라고만 정확히 답변하세요.
+요약 결과:
+"""
+                response = llm.invoke([HumanMessage(content=prompt)])
+                summary = response.content.strip()
+                if summary == "NOT_GOLD_NEWS":
+                    print(f"❌ [Gemini 필터링] 가짜 금 뉴스 스킵: {entry.title}")
+                    continue
+                content_text = summary
+                print(f"✅ [Gemini 요약 성공] 요약문: {content_text}")
+            except Exception as e:
+                print(f"⚠️ 기사 본문 추출 또는 요약 실패 ({entry.title}): {e}")
+                # 실패했을 땐 무시하고 다음 기사로 넘어갑니다
+                continue
+            # 💡 임베딩 생성 (List[float] 형태로 반환됨)
+            # content 컬럼에 넣을 데이터 구성 (뉴스 요약)
+            title_emb = embedder.embed_query(entry.title)
+            content_emb = embedder.embed_query(content_text)
+            # DB 모델 객체 생성 및 세션에 추가
+            new_article = NewsEmbedding(
+                title=entry.title,
+                title_embedding=title_emb,
+                content=content_text,
+                content_embedding=content_emb,
+                created_at=pub_date
+            )
+            db_session.add(new_article)
+            valid_news.append((entry.title, entry.link))
+            print(f"✅ DB 추가 예약: {entry.title}")
+    # 변경사항을 DB에 최종 반영 (Commit)
+    if valid_news:
+        db_session.commit()
+    return valid_news
+# 3. 메인 검색 함수 (DB 세션 관리 추가)
+async def search_gold_news():
+    print(f"\n=== 🌟 [{datetime.now().strftime('%Y-%m-%d %H:%M:%S')}] 자동 검색 및 DB 저장 시작 ===")
+    # DB 세션 열기
+    db = SessionLocal()
+    try:
+        print("\n[국내 뉴스 검색 중...]")
+        kr_news = fetch_filter_and_save_news("금", "ko", "KR", "KR:ko", db, max_news=3)
+        if not kr_news:
+            print("새로운 국내 뉴스가 없거나 모두 이미 저장된 기사야.")
+        print("\n[해외 뉴스 검색 중...]")
+        en_news = fetch_filter_and_save_news("gold", "en", "US", "US:en", db, max_news=3)
+        if not en_news:
+            print("새로운 해외 뉴스가 없거나 모두 이미 저장된 기사야.")
+    except Exception as e:
+        print(f"❌ DB 저장 중 에러 발생: {e}")
+        db.rollback()
+    finally:
+        # 작업이 끝나면 무조건 DB 세션 닫기
+        db.close()
+    print("==========================================\n")
+# 스케줄러 설정 (기존과 동일)
+def create_scheduler():
+    scheduler = AsyncIOScheduler(timezone="Asia/Seoul")
+    #scheduler.add_job(search_gold_news, CronTrigger(hour=18, minute=0))
+    scheduler.add_job(search_gold_news, IntervalTrigger(seconds=60))
+    return scheduler
+news_scheduler = create_scheduler()

core/database.py ADDED Viewed

	@@ -0,0 +1,34 @@

+from sqlalchemy import create_engine
+from sqlalchemy.orm import sessionmaker, declarative_base
+import os
+from dotenv import load_dotenv
+# .env 파일 로드 (있을 경우)
+load_dotenv()
+# 데이터베이스 연결 URL
+# 보안을 위해 실제 환경에서는 .env 파일이나 환경 변수에 DATABASE_URL을 저장하는 것이 좋습니다.
+# 여기서는 하드코딩된 값을 기본값으로 사용합니다.
+SQLALCHEMY_DATABASE_URL = os.getenv("DATABASE_URL")
+# SQLAlchemy 엔진 생성
+# Neon DB와 같은 클라우드 DB는 연결이 끊길 수 있으므로 pool_pre_ping=True 옵션을 추가하여
+# 연결을 확인한 후 사용하는 것이 좋습니다.
+engine = create_engine(
+    SQLALCHEMY_DATABASE_URL,
+    pool_pre_ping=True
+)
+# 세션 팩토리 생성
+SessionLocal = sessionmaker(autocommit=False, autoflush=False, bind=engine)
+# Base 클래스 생성
+Base = declarative_base()
+# DB 세션 의존성 주입을 위한 함수 (FastAPI 라우터에서 사용)
+def get_db():
+    db = SessionLocal()
+    try:
+        yield db
+    finally:
+        db.close()

core/dependencies.py CHANGED Viewed

@@ -70,8 +70,38 @@ class OnnxGemmaWrapper(Embeddings):
     def embed_query(self, text: str) -> List[float]:
         return self.encode_query(text).tolist()
 # 전역 싱글톤 인스턴스 저장소
 _embedding_model = None
 def get_embedding_model() -> OnnxGemmaWrapper:
     """
@@ -84,3 +114,12 @@ def get_embedding_model() -> OnnxGemmaWrapper:
             token=hf_token
         )
     return _embedding_model

     def embed_query(self, text: str) -> List[float]:
         return self.encode_query(text).tolist()
+import torch
+import torchvision.transforms as transforms
+from torchvision.models import efficientnet_v2_s, EfficientNet_V2_S_Weights
+from PIL import Image
+# ... (existing OnnxGemmaWrapper and get_embedding_model)
+class EfficientNetV2Embedding:
+    def __init__(self):
+        print("Loading EfficientNetV2-S model...")
+        self.weights = EfficientNet_V2_S_Weights.DEFAULT
+        self.model = efficientnet_v2_s(weights=self.weights)
+        self.model.eval()
+        # Remove the classification head to get embeddings
+        self.model.classifier = torch.nn.Identity()
+        self.preprocess = self.weights.transforms()
+        print("EfficientNetV2-S model loaded successfully.")
+    def embed_image(self, image: Image.Image) -> List[float]:
+        # Preprocess image
+        img_tensor = self.preprocess(image).unsqueeze(0)
+        with torch.no_grad():
+            embedding = self.model(img_tensor)
+        return embedding.squeeze(0).tolist()
 # 전역 싱글톤 인스턴스 저장소
 _embedding_model = None
+_image_embedding_model = None
 def get_embedding_model() -> OnnxGemmaWrapper:
     """
             token=hf_token
         )
     return _embedding_model
+def get_image_embedding_model() -> EfficientNetV2Embedding:
+    """
+    EfficientNetV2-S 모델을 최초 1회 로드하여 싱글톤으로 재사용합니다.
+    """
+    global _image_embedding_model
+    if _image_embedding_model is None:
+        _image_embedding_model = EfficientNetV2Embedding()
+    return _image_embedding_model

core/models.py ADDED Viewed

	@@ -0,0 +1,15 @@

+from sqlalchemy import Column, BigInteger, String, Text, DateTime
+from pgvector.sqlalchemy import Vector
+from core.database import Base
+class NewsEmbedding(Base):
+    # 보여준 이미지의 테이블 이름과 스키마를 그대로 반영했어
+    __tablename__ = "t_test_textembedding"
+    id = Column(BigInteger, primary_key=True, autoincrement=True)
+    title = Column(String(500), nullable=False)
+    # Gemma 임베딩 모델의 기본 출력 차원인 768로 설정
+    title_embedding = Column(Vector(768))
+    content = Column(Text, nullable=False)
+    content_embedding = Column(Vector(768))
+    created_at = Column(DateTime(timezone=True))

requirements.txt CHANGED Viewed

@@ -20,4 +20,12 @@ langchain-community
 langchain-huggingface
 langchain-google-genai
-onnxruntime

 langchain-huggingface
 langchain-google-genai
+onnxruntime
+apscheduler
+feedparser
+sqlalchemy
+psycopg2-binary
+pgvector
+pytz
+newspaper3k
+lxml_html_clean

router/image_embedding_router.py ADDED Viewed

	@@ -0,0 +1,35 @@

+from fastapi import APIRouter, HTTPException, UploadFile, File
+from pydantic import BaseModel
+from typing import List, Optional, Any
+from io import BytesIO
+from PIL import Image
+# 코어 모듈에서 모델 가져오기 (싱글톤 보장)
+from core.dependencies import get_image_embedding_model
+router = APIRouter(tags=["Image Embedding"])
+# 라우터 진입점에서 모델을 확보
+image_embedding_model = get_image_embedding_model()
+class ImageEmbeddingResponse(BaseModel):
+    success: bool
+    data: Optional[Any] = None
+    msg: Optional[str] = None
+@router.post("/image_to_embedding", response_model=ImageEmbeddingResponse)
+async def image_to_embedding(file: UploadFile = File(...)):
+    """
+    이미지 파일을 업로드받아 EfficientNetV2-S 모델로 임베딩한 결과를 반환합니다.
+    """
+    try:
+        # 이미지 파일 읽기
+        contents = await file.read()
+        image = Image.open(BytesIO(contents)).convert("RGB")
+        # 이미지를 임베딩 변환. 1280 차원
+        emb_vector = image_embedding_model.embed_image(image)
+        return {"success": True, "data": {"embedding": emb_vector}, "msg": ""}
+    except Exception as e:
+        return {"success": False, "data": None, "msg": str(e)}

test_gemini.py ADDED Viewed

	@@ -0,0 +1,43 @@

+import feedparser
+import requests
+from bs4 import BeautifulSoup
+import os
+from langchain_google_genai import ChatGoogleGenerativeAI
+from langchain_core.messages import HumanMessage
+def test():
+    rss_url = "https://news.google.com/rss/search?q=%EA%B8%88&hl=ko&gl=KR&ceid=KR:ko"
+    feed = feedparser.parse(rss_url)
+    if not feed.entries:
+        return
+    entry = feed.entries[0]
+    print("Link:", entry.link)
+    try:
+        # fetch
+        r = requests.get(entry.link, timeout=10, headers={'User-Agent': 'Mozilla/5.0'})
+        soup = BeautifulSoup(r.text, 'html.parser')
+        text = soup.get_text(separator=' ', strip=True)
+        print("Text preview:", text[:200])
+        # Test Gemini
+        llm = ChatGoogleGenerativeAI(model="gemini-2.5-flash", temperature=0.1)
+        prompt = f"""
+다음은 뉴스 기사 원문입니다:
+{text[:3000]}
+이 뉴스가 금(Gold, 귀금속/투자자산)과 관련된 실제 뉴스인지 판별하고,
+맞다면 기사의 핵심 내용을 1~2줄로 요약해주세요.
+만약 금과 전혀 관련이 없는 뉴스라면 (예: 금요일, 송금, 시세 없는 일반 기사 등)
+'NOT_GOLD_NEWS' 라고만 정확히 답변하세요.
+요약 결과:
+"""
+        response = llm.invoke([HumanMessage(content=prompt)])
+        print("\nGemini Response:", response.content)
+    except Exception as e:
+        print("Error:", e)
+if __name__ == "__main__":
+    test()

test_image_embedding.py ADDED Viewed

	@@ -0,0 +1,34 @@

+import requests
+import os
+def test_image_embedding():
+    url = "http://localhost:8000/image_embedding/image_to_embedding"
+    image_path = r"C:\Users\itg\.gemini\antigravity\brain\a2d1bd2b-b329-461a-ab89-c0d64934f5fb\test_image_for_embedding_1772686600102.png"
+    if not os.path.exists(image_path):
+        print(f"Error: {image_path} not found.")
+        return
+    with open(image_path, "rb") as f:
+        files = {"file": (image_path, f, "image/png")}
+        try:
+            response = requests.post(url, files=files)
+            if response.status_code == 200:
+                result = response.json()
+                if result["success"]:
+                    embedding = result["data"]["embedding"]
+                    print(f"Successfully retrieved embedding. Dimension: {len(embedding)}")
+                    # EfficientNetV2-S embedding dimension should be 1280
+                    if len(embedding) == 1280:
+                        print("Verification PASSED: Embedding dimension is 1280.")
+                    else:
+                        print(f"Verification FAILED: Expected dimension 1280, got {len(embedding)}.")
+                else:
+                    print(f"API Error: {result['msg']}")
+            else:
+                print(f"HTTP Error: {response.status_code}")
+        except Exception as e:
+            print(f"Request failed: {e}")
+if __name__ == "__main__":
+    test_image_embedding()

test_rss.py ADDED Viewed

	@@ -0,0 +1,11 @@

+import feedparser
+rss_url = "https://news.google.com/rss/search?q=%EB%A7%88%EC%9D%B4%ED%81%AC%EB%A1%9C%EC%86%8C%ED%94%84%ED%8A%B8&hl=ko&gl=KR&ceid=KR:ko"
+feed = feedparser.parse(rss_url)
+if feed.entries:
+    entry = feed.entries[0]
+    print(entry.keys())
+    print("Title:", entry.title)
+    print("Link:", entry.link)
+    print("Description:", entry.description)