Spaces:

UNEEDCOMMS
/

ChatInsight

Paused

App Files Files Community

Jake-seong commited on May 20, 2025

Commit

1b45ccb

verified ·

1 Parent(s): b80fc9a

로그 제거

Browse files

Files changed (1) hide show

app.py +2 -38

app.py CHANGED Viewed

@@ -12,14 +12,13 @@ DEFAULT_FULL_WEIGHT = 0.2
 DEFAULT_TOPIC_WEIGHT = 0.5
 DEFAULT_CUSTOMER_WEIGHT = 0.2
 DEFAULT_AGENT_WEIGHT = 0.1
-DEFAULT_SIMILARITY_THRESHOLD = 0
 # OpenAI 클라이언트 초기화
 client = OpenAI()
 # DB 연결 설정
 def get_db_conn():
-    """PostgreSQL 데이터베이스에 연결합니다."""
     return psycopg2.connect(
         host=os.environ["VECTOR_HOST"],
         port=5432,
@@ -30,7 +29,7 @@ def get_db_conn():
 def get_embedding(text: str) -> List[float]:
     """
-    텍스트를 OpenAI의 text-embedding-3-small 모델을 사용하여 임베딩 벡터로 변환합니다.
     Java의 float[](float32)와 호환되도록 명시적으로 float32로 변환합니다.
     Args:
@@ -54,7 +53,6 @@ def get_embedding(text: str) -> List[float]:
 def format_vector_for_pg(vector: List[float]) -> str:
     """
     임베딩 벡터를 PostgreSQL 포맷으로 변환합니다.
-    Java의 formatVectorForPg() 메소드와 동일한 기능입니다.
     입력된 벡터가 float32 타입인지 확인합니다.
     """
     # 벡터가 float32 타입인지 확인하고, 아니면 변환
@@ -63,8 +61,6 @@ def format_vector_for_pg(vector: List[float]) -> str:
         vector = np.array(vector, dtype=np.float32)
     elif vector.dtype != np.float32:
         vector = vector.astype(np.float32)
-    # 자바 구현과 동일하게 StringBuilder 방식으로 구현
     vector_str = ','.join([f"{x}" for x in vector])
     return f"[{vector_str}]"
@@ -97,8 +93,6 @@ def search_similar_chat(query: str, max_results: int = 100) -> List[Dict]:
     agent_w = DEFAULT_AGENT_WEIGHT
     threshold = DEFAULT_SIMILARITY_THRESHOLD
-    print(f"다중 임베딩 검색 시작: 쿼리='{query}', 가중치=(full={full_w}, topic={topic_w}, customer={customer_w}, agent={agent_w}), 최대 결과={limit}")
     try:
         # 쿼리 임베딩 생성
         query_embedding = get_embedding(query)
@@ -138,14 +132,9 @@ def search_similar_chat(query: str, max_results: int = 100) -> List[Dict]:
         """ % (query_vector, full_w, query_vector, topic_w, query_vector, customer_w, query_vector, agent_w, limit)
         with conn.cursor() as cur:
-            print(f"쿼리 실행: 자바 구현과 동일하게 수정")
             cur.execute(sql)
             rows = cur.fetchall()
-            print(f"검색 결과: 총 {len(rows)}개 데이터 조회됨")
-            if len(rows) > 0:
-                print(f"첫 번째 결과 ID: {rows[0][0]}, 유사도: {float(rows[0][3])}")
             results = []
             for row in rows:
                 id_val = row[0]
@@ -175,19 +164,11 @@ def search_similar_chat(query: str, max_results: int = 100) -> List[Dict]:
                     results.append(result)
                 except Exception as e:
                     print(f"메타데이터 파싱 오류: {e}")
-                    print(f"문제가 발생한 메타데이터: {metadata_json[:200]}...")
                     continue
             # 임계값 필터링
             filtered_results = [r for r in results if r["similarityScore"] >= threshold]
-            if len(filtered_results) > 0:
-                print(f"임계값({threshold}) 이상 결과: {len(filtered_results)}개 / 전체 {len(results)}개")
-                print(f"가장 높은 유사도 점수: {filtered_results[0]['similarityScore']}")
-                print(f"상위 결과 챗ID: {filtered_results[0].get('chatId')}, 주제: {filtered_results[0].get('topic', '')[:50]}...")
-            else:
-                print(f"임계값({threshold}) 이상의 결과가 없습니다")
             return filtered_results
     except Exception as e:
@@ -225,11 +206,7 @@ def search_similar_chat_by_date(
     agent_w = DEFAULT_AGENT_WEIGHT
     threshold = DEFAULT_SIMILARITY_THRESHOLD
-    print(f"다중 임베딩 날짜 검색 시작: 쿼리='{query}', 시작일={start_date}, 종료일={end_date}, 최대 결과={limit}")
     try:
-        # 날짜 필터 생성
         # 쿼리 임베딩 생성
         query_embedding = get_embedding(query)
@@ -282,15 +259,10 @@ def search_similar_chat_by_date(
         """
         with conn.cursor() as cur:
-            print(f"날짜 검색 쿼리 실행: 시작일={start_date}, 종료일={end_date}")
             # 여기서는 limit를 파라미터로 전달
             cur.execute(sql, (limit,))
             rows = cur.fetchall()
-            print(f"날짜 필터링 검색 결과: 총 {len(rows)}개 데이터 조회됨")
-            if len(rows) > 0:
-                print(f"첫 번째 결과 ID: {rows[0][0]}, 유사도: {float(rows[0][3])}")
             results = []
             for row in rows:
                 id_val = row[0]
@@ -320,19 +292,11 @@ def search_similar_chat_by_date(
                     results.append(result)
                 except Exception as e:
                     print(f"메타데이터 파싱 오류: {e}")
-                    print(f"문제가 발생한 메타데이터: {metadata_json[:200]}...")
                     continue
         # 임계값 필터링 (자바 코드와 동일하게 구현)
         filtered_results = [r for r in results if r["similarityScore"] >= threshold]
-        if len(filtered_results) > 0:
-            print(f"날짜 검색 - 임계값({threshold}) 이상 결과: {len(filtered_results)}개 / 전체 {len(results)}개")
-            print(f"날짜 검색 - 가장 높은 유사도 점수: {filtered_results[0]['similarityScore']}")
-            print(f"날짜 검색 - 상위 결과 챗ID: {filtered_results[0].get('chatId')}, 시작시간: {filtered_results[0].get('startTime')}")
-        else:
-            print(f"날짜 검색 - 임계값({threshold}) 이상의 결과가 없습니다")
         return filtered_results
     except Exception as e:

 DEFAULT_TOPIC_WEIGHT = 0.5
 DEFAULT_CUSTOMER_WEIGHT = 0.2
 DEFAULT_AGENT_WEIGHT = 0.1
+DEFAULT_SIMILARITY_THRESHOLD = 0.5
 # OpenAI 클라이언트 초기화
 client = OpenAI()
 # DB 연결 설정
 def get_db_conn():
     return psycopg2.connect(
         host=os.environ["VECTOR_HOST"],
         port=5432,
 def get_embedding(text: str) -> List[float]:
     """
+    텍스트를 OpenAI의 text-embedding-ada-002 모델을 사용하여 임베딩 벡터로 변환합니다.
     Java의 float[](float32)와 호환되도록 명시적으로 float32로 변환합니다.
     Args:
 def format_vector_for_pg(vector: List[float]) -> str:
     """
     임베딩 벡터를 PostgreSQL 포맷으로 변환합니다.
     입력된 벡터가 float32 타입인지 확인합니다.
     """
     # 벡터가 float32 타입인지 확인하고, 아니면 변환
         vector = np.array(vector, dtype=np.float32)
     elif vector.dtype != np.float32:
         vector = vector.astype(np.float32)
     vector_str = ','.join([f"{x}" for x in vector])
     return f"[{vector_str}]"
     agent_w = DEFAULT_AGENT_WEIGHT
     threshold = DEFAULT_SIMILARITY_THRESHOLD
     try:
         # 쿼리 임베딩 생성
         query_embedding = get_embedding(query)
         """ % (query_vector, full_w, query_vector, topic_w, query_vector, customer_w, query_vector, agent_w, limit)
         with conn.cursor() as cur:
             cur.execute(sql)
             rows = cur.fetchall()
             results = []
             for row in rows:
                 id_val = row[0]
                     results.append(result)
                 except Exception as e:
                     print(f"메타데이터 파싱 오류: {e}")
                     continue
             # 임계값 필터링
             filtered_results = [r for r in results if r["similarityScore"] >= threshold]
             return filtered_results
     except Exception as e:
     agent_w = DEFAULT_AGENT_WEIGHT
     threshold = DEFAULT_SIMILARITY_THRESHOLD
     try:
         # 쿼리 임베딩 생성
         query_embedding = get_embedding(query)
         """
         with conn.cursor() as cur:
             # 여기서는 limit를 파라미터로 전달
             cur.execute(sql, (limit,))
             rows = cur.fetchall()
             results = []
             for row in rows:
                 id_val = row[0]
                     results.append(result)
                 except Exception as e:
                     print(f"메타데이터 파싱 오류: {e}")
                     continue
         # 임계값 필터링 (자바 코드와 동일하게 구현)
         filtered_results = [r for r in results if r["similarityScore"] >= threshold]
         return filtered_results
     except Exception as e: