Spaces:

820nam
/

Test

Sleeping

App Files Files Community

820nam commited on Nov 29, 2024

Commit

04a8794

verified ·

1 Parent(s): 1a9adeb

Update app.py

Browse files

Files changed (1) hide show

app.py +34 -53

app.py CHANGED Viewed

@@ -1,40 +1,18 @@
 import streamlit as st
 import requests
-import matplotlib.pyplot as plt
-import seaborn as sns
-from transformers import pipeline
 import openai
 import os
 from sklearn.feature_extraction.text import TfidfVectorizer
 from sklearn.linear_model import LogisticRegression
-from sklearn.model_selection import train_test_split
 from sklearn.metrics import accuracy_score
 import joblib
-# Streamlit 페이지 설정을 가장 먼저 호출
-st.set_page_config(page_title="정치적 관점 분석", page_icon="📰", layout="wide")
-# OpenAI API 키 설정 (환경변수에서 가져오는 방법)
 openai.api_key = os.getenv("OPENAI_API_KEY")
-# 한글 폰트 설정 (Streamlit에서 적용하기 위해 CSS 추가)
-st.markdown(
-    """
-    <style>
-    body {
-        font-family: 'Nanum Gothic', sans-serif;
-    }
-    </style>
-    """,
-    unsafe_allow_html=True
-)
-# matplotlib 한글 폰트 설정
-import matplotlib
-matplotlib.rcParams['font.family'] = 'NanumGothic'  # 한글 폰트를 설정합니다.
-matplotlib.rcParams['axes.unicode_minus'] = False  # 마이너스 기호 깨짐 방지
-# 네이버 뉴스 API를 통해 실제 뉴스 기사 가져오기
 def fetch_naver_news(query, display=5):
     client_id = "I_8koTJh3R5l4wLurQbG"  # 네이버 개발자 센터에서 발급받은 Client ID
     client_secret = "W5oWYlAgur"  # 네이버 개발자 센터에서 발급받은 Client Secret
@@ -54,15 +32,14 @@ def fetch_naver_news(query, display=5):
     response = requests.get(url, headers=headers, params=params)
     if response.status_code == 200:
         news_data = response.json()
-        return news_data['items']  # 뉴스 기사 리스트 반환
     else:
         st.error("뉴스 데이터를 불러오는 데 실패했습니다.")
         return []
-# 머신러닝 모델 로드 및 학습
 def train_ml_model():
-    # 여기서는 샘플 데이터를 사용하여 학습
-    # 실제 데이터를 이용한 학습 과정이 필요합니다.
     data = [
         ("진보적인 정부 정책을 강화해야 한다", "LEFT"),
         ("보수적인 경제 정책이 필요하다", "RIGHT"),
@@ -79,26 +56,34 @@ def train_ml_model():
     X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
     # 로지스틱 회귀 모델 학습
-    model = LogisticRegression()
-    model.fit(X_train, y_train)
     # 모델 성능 평가
-    y_pred = model.predict(X_test)
     accuracy = accuracy_score(y_test, y_pred)
     st.write(f"모델 정확도: {accuracy:.2f}")
     # 모델 저장
-    joblib.dump(model, 'political_bias_model.pkl')
     joblib.dump(vectorizer, 'tfidf_vectorizer.pkl')
-    return model, vectorizer
 # 로드된 머신러닝 모델로 성향 분석
 def analyze_article_sentiment_ml(text, model, vectorizer):
     X = vectorizer.transform([text])
     prediction = model.predict(X)[0]
-    # 성향에 따른 레이블 반환
     if prediction == "LEFT":
         return "진보"
     elif prediction == "RIGHT":
@@ -109,41 +94,37 @@ def analyze_article_sentiment_ml(text, model, vectorizer):
 # GPT-4를 이용해 반대 관점 기사 생성
 def generate_article_gpt4(prompt):
     try:
-        # GPT-4 모델을 이용해 반대 관점 기사를 생성
         response = openai.ChatCompletion.create(
-            model="gpt-4",  # GPT-4 모델을 사용
             messages=[
                 {"role": "system", "content": "You are a helpful assistant that generates articles."},
-                {"role": "user", "content": prompt}  # 사용자가 제공한 프롬프트
             ],
-            max_tokens=1024,  # 글자 수 제한 해제 (최대 1024 토큰)
-            temperature=0.7  # 창의성 정도
         )
-        return response['choices'][0]['message']['content']  # GPT의 응답 텍스트 반환
     except Exception as e:
         return f"Error generating text: {e}"
 # 정치적 관점 비교 및 반대 관점 생성
 def analyze_news_political_viewpoint(query, model, vectorizer):
-    # 뉴스 데이터 가져오기
     news_items = fetch_naver_news(query)
     if not news_items:
         return [], {}
     results = []
-    sentiment_counts = {"진보": 0, "보수": 0, "중립": 0}  # 매핑된 라벨에 맞게 초기화
     for item in news_items:
         title = item["title"]
         description = item["description"]
-        link = item["link"]  # 뉴스 링크 가져오기
         combined_text = f"{title}. {description}"
-        # 머신러닝 모델을 이용한 성향 분석
         sentiment = analyze_article_sentiment_ml(combined_text, model, vectorizer)
-        sentiment_counts[sentiment] += 1  # 매핑된 키로 카운트 증가
-        # 반대 관점 기사 생성
         opposite_perspective = "보수적" if sentiment == "진보" else "진보적"
         prompt = f"{combined_text}를 기반으로 {opposite_perspective} 관점의 기사를 작성해주세요."
         opposite_article = generate_article_gpt4(prompt)
@@ -153,18 +134,20 @@ def analyze_news_political_viewpoint(query, model, vectorizer):
             "원본 기사": description,
             "성향": sentiment,
             "대조 관점 기사": opposite_article,
-            "뉴스 링크": link  # 링크 추가
         })
     return results, sentiment_counts
-# 성향 분포 시각화 (막대 그래프)
 def visualize_sentiment_distribution(sentiment_counts):
     fig, ax = plt.subplots(figsize=(8, 5))
     labels = list(sentiment_counts.keys())
     sizes = list(sentiment_counts.values())
-    # 색상 설정 (부드러운 팔레트)
     color_palette = sns.color_palette("pastel")[0:len(sizes)]
     ax.bar(labels, sizes, color=color_palette)
@@ -195,7 +178,6 @@ if st.button("🔍 분석 시작"):
         if analysis_results:
             st.success("뉴스 분석이 완료되었습니다.")
-            # 뉴스 기사 목록 표시
             for result in analysis_results:
                 st.subheader(result["제목"])
                 st.write(f"성향: {result['성향']}")
@@ -204,7 +186,6 @@ if st.button("🔍 분석 시작"):
                 st.write(f"대조 관점 기사: {result['대조 관점 기사']}")
                 st.markdown("---")
-            # 성향 분포 시각화
             visualize_sentiment_distribution(sentiment_counts)
         else:
             st.warning("검색된 뉴스가 없습니다.")

 import streamlit as st
 import requests
 import openai
 import os
 from sklearn.feature_extraction.text import TfidfVectorizer
 from sklearn.linear_model import LogisticRegression
+from sklearn.model_selection import train_test_split, cross_val_score
 from sklearn.metrics import accuracy_score
 import joblib
+from sklearn.model_selection import GridSearchCV
+# OpenAI API 키 설정
 openai.api_key = os.getenv("OPENAI_API_KEY")
+# 네이버 뉴스 API를 통해 뉴스 기사 가져오기
 def fetch_naver_news(query, display=5):
     client_id = "I_8koTJh3R5l4wLurQbG"  # 네이버 개발자 센터에서 발급받은 Client ID
     client_secret = "W5oWYlAgur"  # 네이버 개발자 센터에서 발급받은 Client Secret
     response = requests.get(url, headers=headers, params=params)
     if response.status_code == 200:
         news_data = response.json()
+        return news_data['items']
     else:
         st.error("뉴스 데이터를 불러오는 데 실패했습니다.")
         return []
+# 머신러닝 모델 학습 및 개선
 def train_ml_model():
+    # 예시 데이터
     data = [
         ("진보적인 정부 정책을 강화해야 한다", "LEFT"),
         ("보수적인 경제 정책이 필요하다", "RIGHT"),
     X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
     # 로지스틱 회귀 모델 학습
+    model = LogisticRegression(max_iter=1000, solver='liblinear')  # 더 많은 반복 횟수와 'liblinear' solver 사용
+    # 하이퍼파라미터 튜닝 (정규화 강도 C)
+    param_grid = {'C': [0.1, 1, 10, 100]}
+    grid_search = GridSearchCV(model, param_grid, cv=5)
+    grid_search.fit(X_train, y_train)
+    best_model = grid_search.best_estimator_
+    # 교차 검증을 통한 평가
+    cv_scores = cross_val_score(best_model, X, y, cv=5)
+    st.write(f"교차 검증 평균 정확도: {cv_scores.mean():.2f}")
     # 모델 성능 평가
+    y_pred = best_model.predict(X_test)
     accuracy = accuracy_score(y_test, y_pred)
     st.write(f"모델 정확도: {accuracy:.2f}")
     # 모델 저장
+    joblib.dump(best_model, 'political_bias_model.pkl')
     joblib.dump(vectorizer, 'tfidf_vectorizer.pkl')
+    return best_model, vectorizer
 # 로드된 머신러닝 모델로 성향 분석
 def analyze_article_sentiment_ml(text, model, vectorizer):
     X = vectorizer.transform([text])
     prediction = model.predict(X)[0]
     if prediction == "LEFT":
         return "진보"
     elif prediction == "RIGHT":
 # GPT-4를 이용해 반대 관점 기사 생성
 def generate_article_gpt4(prompt):
     try:
         response = openai.ChatCompletion.create(
+            model="gpt-4",
             messages=[
                 {"role": "system", "content": "You are a helpful assistant that generates articles."},
+                {"role": "user", "content": prompt}
             ],
+            max_tokens=1024,
+            temperature=0.7
         )
+        return response['choices'][0]['message']['content']
     except Exception as e:
         return f"Error generating text: {e}"
 # 정치적 관점 비교 및 반대 관점 생성
 def analyze_news_political_viewpoint(query, model, vectorizer):
     news_items = fetch_naver_news(query)
     if not news_items:
         return [], {}
     results = []
+    sentiment_counts = {"진보": 0, "보수": 0, "중립": 0}
     for item in news_items:
         title = item["title"]
         description = item["description"]
+        link = item["link"]
         combined_text = f"{title}. {description}"
         sentiment = analyze_article_sentiment_ml(combined_text, model, vectorizer)
+        sentiment_counts[sentiment] += 1
         opposite_perspective = "보수적" if sentiment == "진보" else "진보적"
         prompt = f"{combined_text}를 기반으로 {opposite_perspective} 관점의 기사를 작성해주세요."
         opposite_article = generate_article_gpt4(prompt)
             "원본 기사": description,
             "성향": sentiment,
             "대조 관점 기사": opposite_article,
+            "뉴스 링크": link
         })
     return results, sentiment_counts
+# 성향 분포 시각화
 def visualize_sentiment_distribution(sentiment_counts):
+    import matplotlib.pyplot as plt
+    import seaborn as sns
     fig, ax = plt.subplots(figsize=(8, 5))
     labels = list(sentiment_counts.keys())
     sizes = list(sentiment_counts.values())
     color_palette = sns.color_palette("pastel")[0:len(sizes)]
     ax.bar(labels, sizes, color=color_palette)
         if analysis_results:
             st.success("뉴스 분석이 완료되었습니다.")
             for result in analysis_results:
                 st.subheader(result["제목"])
                 st.write(f"성향: {result['성향']}")
                 st.write(f"대조 관점 기사: {result['대조 관점 기사']}")
                 st.markdown("---")
             visualize_sentiment_distribution(sentiment_counts)
         else:
             st.warning("검색된 뉴스가 없습니다.")