Spaces:

820nam
/

Test

Sleeping

App Files Files Community

820nam commited on Nov 29, 2024

Commit

2c8cb06

verified ·

1 Parent(s): 04a8794

Update app.py

Browse files

Files changed (1) hide show

app.py +82 -144

app.py CHANGED Viewed

@@ -2,17 +2,28 @@ import streamlit as st
 import requests
 import openai
 import os
 from sklearn.feature_extraction.text import TfidfVectorizer
 from sklearn.linear_model import LogisticRegression
 from sklearn.model_selection import train_test_split, cross_val_score
-from sklearn.metrics import accuracy_score
 import joblib
-from sklearn.model_selection import GridSearchCV
 # OpenAI API 키 설정
 openai.api_key = os.getenv("OPENAI_API_KEY")
-# 네이버 뉴스 API를 통해 뉴스 기사 가져오기
 def fetch_naver_news(query, display=5):
     client_id = "I_8koTJh3R5l4wLurQbG"  # 네이버 개발자 센터에서 발급받은 Client ID
     client_secret = "W5oWYlAgur"  # 네이버 개발자 센터에서 발급받은 Client Secret
@@ -26,166 +37,93 @@ def fetch_naver_news(query, display=5):
         "query": query,
         "display": display,
         "start": 1,
-        "sort": "date",  # 최신순으로 정렬
     }
     response = requests.get(url, headers=headers, params=params)
     if response.status_code == 200:
-        news_data = response.json()
-        return news_data['items']
     else:
         st.error("뉴스 데이터를 불러오는 데 실패했습니다.")
         return []
-# 머신러닝 모델 학습 및 개선
-def train_ml_model():
-    # 예시 데이터
-    data = [
-        ("진보적인 정부 정책을 강화해야 한다", "LEFT"),
-        ("보수적인 경제 정책이 필요하다", "RIGHT"),
-        ("중립적인 입장에서 상황을 평가한다", "NEUTRAL")
-    ]
-    texts, labels = zip(*data)
-    # TF-IDF 벡터화
-    vectorizer = TfidfVectorizer(max_features=1000)
-    X = vectorizer.fit_transform(texts)
-    y = labels
-    # 훈련 및 테스트 데이터 나누기
-    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
-    # 로지스틱 회귀 모델 학습
-    model = LogisticRegression(max_iter=1000, solver='liblinear')  # 더 많은 반복 횟수와 'liblinear' solver 사용
-    # 하이퍼파라미터 튜닝 (정규화 강도 C)
-    param_grid = {'C': [0.1, 1, 10, 100]}
-    grid_search = GridSearchCV(model, param_grid, cv=5)
-    grid_search.fit(X_train, y_train)
-    best_model = grid_search.best_estimator_
-    # 교차 검증을 통한 평가
-    cv_scores = cross_val_score(best_model, X, y, cv=5)
-    st.write(f"교차 검증 평균 정확도: {cv_scores.mean():.2f}")
-    # 모델 성능 평가
-    y_pred = best_model.predict(X_test)
-    accuracy = accuracy_score(y_test, y_pred)
-    st.write(f"모델 정확도: {accuracy:.2f}")
     # 모델 저장
-    joblib.dump(best_model, 'political_bias_model.pkl')
-    joblib.dump(vectorizer, 'tfidf_vectorizer.pkl')
-    return best_model, vectorizer
-# 로드된 머신러닝 모델로 성향 분석
-def analyze_article_sentiment_ml(text, model, vectorizer):
-    X = vectorizer.transform([text])
-    prediction = model.predict(X)[0]
-    if prediction == "LEFT":
-        return "진보"
-    elif prediction == "RIGHT":
-        return "보수"
-    else:
-        return "중립"
 # GPT-4를 이용해 반대 관점 기사 생성
 def generate_article_gpt4(prompt):
     try:
         response = openai.ChatCompletion.create(
-            model="gpt-4",
-            messages=[
                 {"role": "system", "content": "You are a helpful assistant that generates articles."},
-                {"role": "user", "content": prompt}
             ],
-            max_tokens=1024,
-            temperature=0.7
         )
         return response['choices'][0]['message']['content']
     except Exception as e:
         return f"Error generating text: {e}"
-# 정치적 관점 비교 및 반대 관점 생성
-def analyze_news_political_viewpoint(query, model, vectorizer):
-    news_items = fetch_naver_news(query)
-    if not news_items:
-        return [], {}
-    results = []
-    sentiment_counts = {"진보": 0, "보수": 0, "중립": 0}
-    for item in news_items:
-        title = item["title"]
-        description = item["description"]
-        link = item["link"]
-        combined_text = f"{title}. {description}"
-        sentiment = analyze_article_sentiment_ml(combined_text, model, vectorizer)
-        sentiment_counts[sentiment] += 1
-        opposite_perspective = "보수적" if sentiment == "진보" else "진보적"
-        prompt = f"{combined_text}를 기반으로 {opposite_perspective} 관점의 기사를 작성해주세요."
-        opposite_article = generate_article_gpt4(prompt)
-        results.append({
-            "제목": title,
-            "원본 기사": description,
-            "성향": sentiment,
-            "대조 관점 기사": opposite_article,
-            "뉴스 링크": link
-        })
-    return results, sentiment_counts
-# 성향 분포 시각화
-def visualize_sentiment_distribution(sentiment_counts):
-    import matplotlib.pyplot as plt
-    import seaborn as sns
-    fig, ax = plt.subplots(figsize=(8, 5))
-    labels = list(sentiment_counts.keys())
-    sizes = list(sentiment_counts.values())
-    color_palette = sns.color_palette("pastel")[0:len(sizes)]
-    ax.bar(labels, sizes, color=color_palette)
-    ax.set_xlabel('성향', fontsize=14)
-    ax.set_ylabel('건수', fontsize=14)
-    ax.set_title('뉴스 성향 분포', fontsize=16)
-    st.pyplot(fig)
-# Streamlit 애플리케이션
-st.title("📰 정치적 관점 비교 분석 도구")
-st.markdown("뉴스 기사의 정치 성향 분석과 반대 관점 기사를 생성하여 비교합니다.")
-# 머신러닝 모델 로드
-if not os.path.exists('political_bias_model.pkl'):
-    model, vectorizer = train_ml_model()
-else:
-    model = joblib.load('political_bias_model.pkl')
-    vectorizer = joblib.load('tfidf_vectorizer.pkl')
-# 사용자로부터 검색어 입력 받기
-query = st.text_input("검색 키워드를 입력하세요", value="정치")
-# 분석 시작 버튼
-if st.button("🔍 분석 시작"):
-    with st.spinner("분석 중..."):
-        analysis_results, sentiment_counts = analyze_news_political_viewpoint(query, model, vectorizer)
-        if analysis_results:
-            st.success("뉴스 분석이 완료되었습니다.")
-            for result in analysis_results:
-                st.subheader(result["제목"])
-                st.write(f"성향: {result['성향']}")
-                st.write(f"기사: {result['원본 기사']}")
-                st.write(f"[원본 기사 보기]({result['뉴스 링크']})")
-                st.write(f"대조 관점 기사: {result['대조 관점 기사']}")
-                st.markdown("---")
-            visualize_sentiment_distribution(sentiment_counts)
-        else:
-            st.warning("검색된 뉴스가 없습니다.")

 import requests
 import openai
 import os
+from datasets import load_dataset
 from sklearn.feature_extraction.text import TfidfVectorizer
 from sklearn.linear_model import LogisticRegression
 from sklearn.model_selection import train_test_split, cross_val_score
+from sklearn.metrics import classification_report, accuracy_score
 import joblib
+import matplotlib.pyplot as plt
+import seaborn as sns
+# Streamlit 페이지 설정
+st.set_page_config(page_title="정치적 성향 분석", page_icon="📰", layout="wide")
 # OpenAI API 키 설정
 openai.api_key = os.getenv("OPENAI_API_KEY")
+# 허깅페이스 데이터셋 로드
+@st.cache_data
+def load_huggingface_data():
+    dataset = load_dataset("jacobvs/PoliticalTweets")
+    return dataset
+# 네이버 뉴스 API를 통해 뉴스 데이터 가져오기
 def fetch_naver_news(query, display=5):
     client_id = "I_8koTJh3R5l4wLurQbG"  # 네이버 개발자 센터에서 발급받은 Client ID
     client_secret = "W5oWYlAgur"  # 네이버 개발자 센터에서 발급받은 Client Secret
         "query": query,
         "display": display,
         "start": 1,
+        "sort": "date",
     }
     response = requests.get(url, headers=headers, params=params)
     if response.status_code == 200:
+        return response.json()['items']
     else:
         st.error("뉴스 데이터를 불러오는 데 실패했습니다.")
         return []
+# 허깅페이스 데이터와 네이버 뉴스 데이터를 결합
+def combine_datasets(huggingface_data, naver_data):
+    additional_texts = [item['title'] + ". " + item['description'] for item in naver_data]
+    additional_labels = ["NEUTRAL"] * len(additional_texts)  # 기본적으로 중립으로 라벨링
+    hf_texts = huggingface_data['train']['text']
+    hf_labels = huggingface_data['train']['party']
+    return hf_texts + additional_texts, hf_labels + additional_labels
+# 머신러닝 모델 학습
+@st.cache_data
+def train_model(X, y):
+    vectorizer = TfidfVectorizer(max_features=1000, stop_words="english")
+    X_tfidf = vectorizer.fit_transform(X)
+    X_train, X_test, y_train, y_test = train_test_split(X_tfidf, y, test_size=0.2, random_state=42)
+    model = LogisticRegression(max_iter=1000)
+    model.fit(X_train, y_train)
     # 모델 저장
+    joblib.dump(model, "political_tweets_model.pkl")
+    joblib.dump(vectorizer, "tfidf_vectorizer.pkl")
+    return model, vectorizer, X_test, y_test
 # GPT-4를 이용해 반대 관점 기사 생성
 def generate_article_gpt4(prompt):
     try:
         response = openai.ChatCompletion.create(
+            model="gpt-4",
+            messages=[
                 {"role": "system", "content": "You are a helpful assistant that generates articles."},
+                {"role": "user", "content": prompt}
             ],
+            max_tokens=1024,
+            temperature=0.7
         )
         return response['choices'][0]['message']['content']
     except Exception as e:
         return f"Error generating text: {e}"
+# Streamlit 애플리케이션 시작
+st.title("📰 정치적 성향 분석 및 뉴스 비교 도구")
+st.markdown("허깅페이스의 `PoliticalTweets` 데이터셋과 네이버 뉴스 API를 활용하여 텍스트 성향을 분석합니다.")
+# 데이터 로드
+huggingface_data = load_huggingface_data()
+query = st.text_input("네이버 뉴스에서 검색할 키워드를 입력하세요", value="정치")
+naver_data = fetch_naver_news(query)
+if st.button("데이터 결합 및 학습"):
+    texts, labels = combine_datasets(huggingface_data, naver_data)
+    label_mapping = {"Democrat": 0, "Republican": 1, "NEUTRAL": 2}
+    y = [label_mapping[label] for label in labels]
+    model, vectorizer, X_test, y_test = train_model(texts, y)
+    # 성능 평가
+    y_pred = model.predict(X_test)
+    accuracy = accuracy_score(y_test, y_pred)
+    st.write(f"모델 정확도: {accuracy:.2f}")
+    st.text("분류 리포트:")
+    st.text(classification_report(y_test, y_pred, target_names=list(label_mapping.keys())))
+# 사용자 입력 및 예측
+st.subheader("트윗 또는 뉴스 성향 예측")
+user_input = st.text_area("분석할 텍스트를 입력하세요", placeholder="예: The government should invest more in public health.")
+if st.button("성향 분석"):
+    vectorizer = joblib.load("tfidf_vectorizer.pkl")
+    model = joblib.load("political_tweets_model.pkl")
+    user_tfidf = vectorizer.transform([user_input])
+    prediction = model.predict(user_tfidf)[0]
+    prediction_label = list(label_mapping.keys())[prediction]
+    st.write(f"예측된 성향: {prediction_label}")
+# 뉴스 데이터 시각화
+if naver_data:
+    st.subheader("네이버 뉴스 데이터")
+    for item in naver_data:
+        st.write(f"제목: {item['title']}")
+        st.write(f"내용: {item['description']}")
+        st.write(f"[기사 링크]({item['link']})")
+        st.markdown("---")