Spaces:

mutoy
/

Broadcast_paper

Sleeping

Broadcast_paper / analysis4.py

Choi jun hyeok

update prompt

be91dcc 2 months ago

11 kB

	# -- coding: utf-8 --
	"""
	신문과방송 독자 데이터 심층 EDA (조회수 중심 성공 공식 도출 - v2)

	- 오류 수정: tick_params ha 관련 오류 해결
	- 분석 심화: TOP 20 기사 리스트에서 발견된 질적 인사이트(말머리, 트렌드 키워드)를
	정량적으로 검증하는 분석 로직 추가
	"""

	# 1. 라이브러리 임포트
	import pandas as pd
	import numpy as np
	import matplotlib.pyplot as plt
	import seaborn as sns
	from datetime import datetime
	import warnings
	import os
	import re

	warnings.filterwarnings('ignore')

	# 2. 기본 설정 및 전역 변수
	def setup_environment():
	DATA_DIR = r'Broadcast_paper\data_csv'
	OUTPUT_DIR = r'./output_analysis_v6' # 결과 저장 폴더 변경
	if not os.path.exists(OUTPUT_DIR):
	os.makedirs(OUTPUT_DIR)
	print(f"'{OUTPUT_DIR}' 폴더를 생성했습니다.")
	plt.rc('font', family='Malgun Gothic')
	plt.rcParams['axes.unicode_minus'] = False
	sns.set(font='Malgun Gothic', rc={'axes.unicode_minus': False}, style='whitegrid')
	print("분석 환경 설정 완료!")
	return DATA_DIR, OUTPUT_DIR

	# 3. 데이터 로드 및 전처리
	def load_and_preprocess_data(data_dir):
	print("\n[단계 1] 데이터 로드 및 전처리 시작...")
	df_metrics = pd.read_csv(f'{data_dir}/article_metrics_monthly.csv')
	df_contents = pd.read_csv(f'{data_dir}/contents.csv')

	df_metrics['comments'].fillna(0, inplace=True)
	df_contents.dropna(subset=['category', 'content', 'date'], inplace=True)
	df_contents['date'] = pd.to_datetime(df_contents['date'])
	df_contents['publish_dayofweek'] = df_contents['date'].dt.day_name()
	df_contents['content_length'] = df_contents['content'].str.len()
	df_contents['title_length'] = df_contents['title'].str.len()

	article_total_metrics = df_metrics.groupby('article_id').agg({
	'views_total': 'sum', 'likes': 'sum', 'comments': 'sum'
	}).reset_index()

	df_merged = pd.merge(df_contents, article_total_metrics, on='article_id', how='left')
	df_merged.fillna({'views_total': 0, 'likes': 0, 'comments': 0}, inplace=True)

	print("데이터 로드 및 전처리 완료!")
	return df_merged

	# ==============================================================================
	# ★★★★★ 조회수 TOP 10% 히트 기사 심층 분석 함수 (오류 수정 및 기능 강화) ★★★★★
	# ==============================================================================
	def analyze_high_view_articles_v2(df_merged, output_dir):
	"""
	조회수 상위 10% 기사를 분석하여 성공 요인을 도출합니다. (v2: 질적 분석 추가)
	"""
	print("\n[핵심 분석] 조회수 TOP 10% 히트 기사 심층 분석 (v2)...")

	# --- 1. '히트 기사' 정의 및 데이터 분리 ---
	view_threshold = df_merged['views_total'].quantile(0.9)
	print(f" - 조회수 상위 10% 기준: {view_threshold:,.0f} 회 이상")

	df_merged['group'] = np.where(df_merged['views_total'] >= view_threshold, 'TOP 10%', '나머지 90%')

	# --- 2. 어떤 기사가 높은 조회수를 받았는가? (TOP 20 리스트) ---
	top_20_list = df_merged.sort_values('views_total', ascending=False).head(20)
	top_20_table = top_20_list[['title', 'category', 'views_total', 'likes', 'comments']].reset_index(drop=True)
	print("\n--- 조회수 TOP 20 기사 리스트 ---")
	print(top_20_table)

	# --- 3. ★ 질적 특성 정량화 (새로운 피처 생성) ★ ---
	df_merged['has_bracket_prefix'] = df_merged['title'].apply(lambda x: bool(re.match(r'^\[.+\]', x)))
	trend_keywords = ['숏폼', 'MZ', '알고리즘', '챗GPT', 'AI', '인공지능']
	df_merged['has_trend_keyword'] = df_merged['title'].apply(
	lambda x: any(keyword in x for keyword in trend_keywords)
	)

	# --- 4. 히트 기사의 특징 분석 및 시각화 ---
	fig, axes = plt.subplots(3, 2, figsize=(20, 24))
	fig.suptitle(f"조회수 TOP 10% 기사 vs 나머지 기사 비교 분석 (기준: {view_threshold:,.0f}회)", fontsize=22, y=1.01)

	# (1) 카테고리 분포
	cat_comp_df = df_merged.groupby('group')['category'].value_counts(normalize=True).mul(100).unstack().T
	cat_comp_df = cat_comp_df.sort_values('TOP 10%', ascending=False).head(10)
	cat_comp_df.plot(kind='bar', ax=axes[0, 0], rot=45)
	axes[0, 0].set_title('히트 기사의 카테고리 분포', fontsize=16)
	axes[0, 0].set_ylabel('비중 (%)')
	# ★★★ 오류 수정 ★★★
	plt.setp(axes[0, 0].get_xticklabels(), rotation=45, ha='right')

	# (2) 본문 길이
	sns.boxplot(data=df_merged, x='group', y='content_length', ax=axes[0, 1], order=['TOP 10%', '나머지 90%'])
	axes[0, 1].set_title('본문 길이 비교', fontsize=16); axes[0, 1].set_ylabel('글자 수')
	axes[0, 1].set_ylim(0, df_merged['content_length'].quantile(0.95))

	# (3) 제목 길이
	sns.boxplot(data=df_merged, x='group', y='title_length', ax=axes[1, 0], order=['TOP 10%', '나머지 90%'])
	axes[1, 0].set_title('제목 길이 비교', fontsize=16); axes[1, 0].set_ylabel('글자 수')

	# (4) 발행 요일
	day_comp_df = df_merged.groupby('group')['publish_dayofweek'].value_counts(normalize=True).mul(100).unstack().T
	day_order = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
	day_comp_df.reindex(day_order).plot(kind='bar', ax=axes[1, 1], rot=0)
	axes[1, 1].set_title('발행 요일별 분포', fontsize=16); axes[1, 1].set_ylabel('비중 (%)')

	# ★★★ (5) 말머리([OO]) 사용 여부 (신규 분석) ★★★
	sns.barplot(data=df_merged, x='has_bracket_prefix', y='views_total', ax=axes[2, 0], ci=None)
	axes[2, 0].set_title('제목 말머리([OO]) 사용 여부별 평균 조회수', fontsize=16)
	axes[2, 0].set_xlabel('말머리 사용 여부'); axes[2, 0].set_ylabel('평균 조회수')

	# ★★★ (6) 트렌드 키워드 포함 여부 (신규 분석) ★★★
	sns.barplot(data=df_merged, x='has_trend_keyword', y='views_total', ax=axes[2, 1], ci=None)
	axes[2, 1].set_title('제목 내 트렌드 키워드 포함 여부별 평균 조회수', fontsize=16)
	axes[2, 1].set_xlabel('트렌드 키워드 포함 여부'); axes[2, 1].set_ylabel('평균 조회수')

	plt.tight_layout()
	plt.savefig(f'{output_dir}/high_view_article_characteristics_v2.png')
	plt.close()

	print("\n - 히트 기사 특징 비교 분석(v2) 완료. (high_view_article_characteristics_v2.png 저장)")

	return top_20_table, cat_comp_df

	# 4. 종합 인사이트 생성 (보고서 내용 강화)
	def generate_insights_report_v2(top_20_table, cat_comp_df, output_dir):
	print("\n[단계 6] 종합 인사이트 보고서 생성 (성공 공식 강화)...")

	top_20_str = top_20_table.to_string()
	cat_comp_str = cat_comp_df.head(5).round(1).to_string()

	report = f"""
	# 신문과방송 독자 데이터 심층 분석 보고서 (조회수 중심 성공 공식 v2)
	생성일: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}

	## 1. 분석 목표
	- '히트 기사'의 공통점을 정량적, 정성적으로 분석하여 따라 할 수 있는(Actionable) 성공 공식을 도출합니다.

	## 2. 조회수 TOP 20 '히트 기사' 리스트
	{top_20_str}

	## 3. ★ 조회수 '대박' 기사의 강화된 성공 공식 ★

	(high_view_article_characteristics_v2.png 참고)

	### 공식 1: '히트 팩토리' 카테고리에 집중하라.
	- 데이터 증거: '커버스토리', '미디어현장', '취재기·제작기' 3개 카테고리에서 히트 기사의 60% 이상이 배출되었습니다. 이 카테고리들은 검증된 성공 영역입니다.

	### 공식 2: 제목으로 모든 것을 말하라.
	- (신규 발견) 말머리 효과: 제목에 '[중국]', '[알고리즘]'과 같이 주제를 요약하는 말머리를 사용한 기사의 평균 조회수는 그렇지 않은 기사보다 현저히 높았습니다. 이는 독자들이 제목만 보고도 기사의 핵심 내용을 빠르게 파악할 수 있을 때 클릭할 확률이 높다는 것을 의미합니다.
	- (신규 발견) 트렌드 키워드 선점: '숏폼', 'MZ', 'AI' 등 시의성 있는 트렌드 키워드를 제목에 포함한 기사들이 압도적으로 높은 평균 조회수를 기록했습니다. 독자들은 최신 이슈에 민감하게 반응합니다.

	### 공식 3: 길고 깊이 있는 콘텐츠가 이긴다.
	- 데이터 증거: 히트 기사들은 일반 기사들보다 본문 길이가 훨씬 긴 경향을 보였습니다. 독자들은 깊이 있는 롱폼 콘텐츠에 더 높은 가치를 부여합니다.

	### 공식 4: 주초(월/화)에 승부수를 띄워라.
	- 데이터 증거: 히트 기사의 상당수가 월요일과 화요일에 발행되었습니다. 주초에 독자들의 콘텐츠 소비 욕구가 가장 높습니다.

	## 4. 실행을 위한 '성공 공식' 체크리스트
	- 신규 기사 기획 및 발행 시, 아래 체크리스트를 활용하여 성공 확률을 극대화해야 합니다.

	\| 체크 항목 \| 전략 \|
	\| ---------------------------------------------- \| ------------------------------------------------------------------ \|
	\| 1. 카테고리 선정 \| '커버스토리', '미디어현장' 등 검증된 카테고리인가? \|
	\| 2. 제목 - 말머리 활용 \| 독자의 눈길을 끄는 명확한 [말머리]를 사용했는가? \|
	\| 3. 제목 - 키워드 포함 \| 지금 가장 뜨거운 '트렌드 키워드'를 제목에 포함했는가? \|
	\| 4. 콘텐츠 깊이 \| 독자가 시간을 투자할 만한 깊이와 전문성을 갖춘 롱폼 콘텐츠인가? \|
	\| 5. 발행 시점 \| 가장 중요한 기사를 '프라임 타임'인 월요일 오전에 발행하는가? \|
	"""
	report_path = f'{output_dir}/high_view_focused_analysis_report_v2.txt'
	with open(report_path, 'w', encoding='utf-8') as f:
	f.write(report)
	print(f"\n - 종합 인사이트 보고서(v2) 생성 완료. ({report_path} 저장)")

	# 5. 메인 실행 함수
	def main():
	print("===== 신문과방송 독자 데이터 심층 분석 (조회수 중심 성공 공식 v2) =====")

	data_dir, output_dir = setup_environment()
	df_merged = load_and_preprocess_data(data_dir)

	top_20, cat_comp = analyze_high_view_articles_v2(df_merged, output_dir)

	generate_insights_report_v2(top_20, cat_comp, output_dir)

	print("\n===== 모든 분석이 성공적으로 완료되었습니다. =====")
	print(f"결과물은 '{output_dir}' 폴더에서 확인하실 수 있습니다.")

	if __name__ == '__main__':
	main()