Spaces:

mutoy
/

Broadcast_paper

Sleeping

Broadcast_paper / analysis3.py

Choi jun hyeok

update prompt

be91dcc about 2 months ago

14.3 kB

	# -- coding: utf-8 --
	"""
	신문과방송 독자 데이터 심층 EDA (수치/추세 가독성 강화 월별 분석)

	월별 동적 트렌드 분석을 강화하여, 모든 시각화 자료에 정확한 수치를
	표시하고, 전월 대비 성장률을 명시적으로 보여주어 추세를 더욱 명확하게
	파악할 수 있도록 개선합니다.
	"""

	# 1. 라이브러리 임포트 (기존과 동일)
	import pandas as pd
	import numpy as np
	import matplotlib.pyplot as plt
	import seaborn as sns
	from datetime import datetime
	import warnings
	import os

	warnings.filterwarnings('ignore')

	# --- 시각화용 헬퍼 함수 ---
	def add_value_labels(ax, is_bar=True, fmt="{:.0f}"):
	"""막대 또는 꺾은선 그래프에 값 레이블을 추가하는 함수"""
	for p in ax.patches if is_bar else ax.lines:
	if is_bar:
	ax.annotate(fmt.format(p.get_height()),
	(p.get_x() + p.get_width() / 2., p.get_height()),
	ha='center', va='center',
	xytext=(0, 9),
	textcoords='offset points',
	fontsize=9,
	color='dimgray')
	else: # for line plots
	for x_value, y_value in zip(p.get_xdata(), p.get_ydata()):
	ax.text(x_value, y_value, fmt.format(y_value),
	ha='center', va='bottom',
	fontsize=9,
	color='dimgray')

	# 2. 기본 설정 및 전역 변수
	def setup_environment():
	DATA_DIR = r'Broadcast_paper\data_csv'
	OUTPUT_DIR = r'./output_analysis_v4' # 결과 저장 폴더 변경
	if not os.path.exists(OUTPUT_DIR):
	os.makedirs(OUTPUT_DIR)
	print(f"'{OUTPUT_DIR}' 폴더를 생성했습니다.")
	plt.rc('font', family='Malgun Gothic')
	plt.rcParams['axes.unicode_minus'] = False
	sns.set(font='Malgun Gothic', rc={'axes.unicode_minus': False}, style='whitegrid')
	print("분석 환경 설정 완료!")
	return DATA_DIR, OUTPUT_DIR

	# 3. 데이터 로드 및 전처리 (기존과 동일)
	def load_and_preprocess_data(data_dir):
	print("\n[단계 1] 데이터 로드 및 전처리 시작...")
	df_metrics = pd.read_csv(f'{data_dir}/article_metrics_monthly.csv')
	df_contents = pd.read_csv(f'{data_dir}/contents.csv')
	df_demo = pd.read_csv(f'{data_dir}/demographics_merged.csv')
	df_referrer = pd.read_csv(f'{data_dir}/referrer.csv')

	df_metrics['period'] = pd.to_datetime(df_metrics['period']).dt.to_period('M')
	df_contents['publish_month'] = pd.to_datetime(df_contents['date']).dt.to_period('M')
	df_demo['period'] = pd.to_datetime(df_demo['period']).dt.to_period('M')
	df_referrer['period'] = pd.to_datetime(df_referrer['period']).dt.to_period('M')

	df_metrics['comments'].fillna(0, inplace=True)
	df_contents.dropna(subset=['category', 'content', 'date'], inplace=True)
	df_contents['content_length'] = df_contents['content'].str.len()
	df_demo_filtered = df_demo[df_demo['age_group'] != '전체'].copy()

	article_total_metrics = df_metrics.groupby('article_id').agg({
	'views_total': 'sum', 'likes': 'sum', 'comments': 'sum'
	}).reset_index()

	df_merged = pd.merge(df_contents, article_total_metrics, on='article_id', how='left')
	df_merged.fillna({'views_total': 0, 'likes': 0, 'comments': 0}, inplace=True)
	df_merged['engagement_rate'] = ((df_merged['likes'] + df_merged['comments']) / df_merged['views_total'].replace(0, np.nan)) * 100

	print("데이터 로드 및 전처리 완료!")
	return {
	"metrics": df_metrics, "contents": df_contents, "demo": df_demo_filtered,
	"referrer": df_referrer, "merged": df_merged
	}

	# ==============================================================================
	# ★★★★★ 수치/추세 가독성을 극대화한 월별 분석 함수 ★★★★★
	# ==============================================================================
	def analyze_enhanced_monthly_trends(data, output_dir):
	"""
	시간(월)의 흐름에 따른 주요 지표들의 동적 변화를 수치와 함께 명확하게 분석합니다.
	"""
	print("\n[신규 분석 4] 월별 동적 트렌드 심층 분석 (수치 강화)...")

	# --- 1. 월별 성과 지표 및 성장률 ---
	monthly_metrics = data['metrics'].groupby('period').agg(
	total_views=('views_total', 'sum'),
	total_likes=('likes', 'sum'),
	total_comments=('comments', 'sum')
	).sort_index()

	# 전월 대비 성장률(MoM Growth) 계산
	for col in monthly_metrics.columns:
	monthly_metrics[f'{col}_mom'] = monthly_metrics[col].pct_change() * 100

	monthly_metrics.index = monthly_metrics.index.to_timestamp()

	fig, axes = plt.subplots(2, 1, figsize=(18, 14), sharex=True)
	fig.suptitle('월별 성과 지표 및 전월 대비 성장률(MoM) 추이', fontsize=20, y=1.0)

	# 상단 그래프: 절대 수치 (조회수 + 좋아요)
	ax1 = axes[0]
	bars = ax1.bar(monthly_metrics.index, monthly_metrics['total_views'], color='lightgray', label='총 조회수')
	add_value_labels(ax1, is_bar=True, fmt="{:,.0f}") # 막대그래프 값 표시
	ax1.set_ylabel('총 조회수', fontsize=12)

	ax1_twin = ax1.twinx()
	line1 = ax1_twin.plot(monthly_metrics.index, monthly_metrics['total_likes'], marker='o', color='coral', label='총 좋아요')
	add_value_labels(ax1_twin, is_bar=False, fmt="{:.0f}") # 꺾은선 값 표시
	ax1_twin.set_ylabel('총 좋아요', fontsize=12)

	# 범례 합치기
	lines, labels = ax1.get_legend_handles_labels()
	lines2, labels2 = ax1_twin.get_legend_handles_labels()
	ax1_twin.legend(lines + lines2, labels + labels2, loc='upper left')
	ax1.set_title('월별 총 조회수 및 좋아요', fontsize=16)

	# 하단 그래프: 성장률 (%)
	ax2 = axes[1]
	ax2.plot(monthly_metrics.index, monthly_metrics['total_views_mom'], marker='s', linestyle='--', label='조회수 성장률 (%)')
	ax2.plot(monthly_metrics.index, monthly_metrics['total_likes_mom'], marker='^', linestyle='--', label='좋아요 성장률 (%)')
	ax2.axhline(0, color='red', linewidth=1, linestyle=':')
	ax2.set_ylabel('전월 대비 성장률 (%)', fontsize=12)
	ax2.legend()
	ax2.set_title('월별 주요 지표 성장률 (MoM)', fontsize=16)

	plt.tight_layout()
	plt.savefig(f'{output_dir}/monthly_performance_and_growth.png')
	plt.close()
	print(" - 월별 성과 및 성장률 분석 완료. (monthly_performance_and_growth.png 저장)")

	# --- 2. 월별 카테고리 발행 비중 (시각화 + 데이터 테이블) ---
	monthly_category_dist = data['merged'].groupby(['publish_month', 'category'])['article_id'].count().unstack().fillna(0)
	monthly_category_prop = monthly_category_dist.div(monthly_category_dist.sum(axis=1), axis=0) * 100

	top_categories = data['merged']['category'].value_counts().nlargest(7).index
	other_categories = monthly_category_prop.columns.difference(top_categories)
	monthly_category_prop['기타'] = monthly_category_prop[other_categories].sum(axis=1)

	# 시각화
	monthly_category_prop[top_categories.tolist() + ['기타']].plot(
	kind='bar', stacked=True, figsize=(16, 8), colormap='tab20c'
	)
	plt.title('월별 콘텐츠 카테고리 발행 비중 변화 (%)', fontsize=18)
	plt.xlabel('기간 (월)'); plt.ylabel('카테고리 비중 (%)'); plt.xticks(rotation=45)
	plt.legend(title='Category', bbox_to_anchor=(1.02, 1), loc='upper left')
	plt.tight_layout()
	plt.savefig(f'{output_dir}/monthly_category_distribution_with_values.png')
	plt.close()

	# 데이터 테이블 출력
	print("\n--- 월별 상위 카테고리 발행 비중 (%) 데이터 ---")
	category_table_data = monthly_category_prop[top_categories.tolist() + ['기타']].round(1)
	print(category_table_data)
	print(" - 월별 카테고리 비중 분석 완료. (monthly_category_distribution_with_values.png 저장 및 테이블 출력)")

	# --- 3. 월별 핵심 독자 연령층 (시각화 + 데이터 테이블) ---
	monthly_age_views = data['demo'].groupby(['period', 'age_group'])['views'].sum().unstack().fillna(0)
	monthly_age_prop = (monthly_age_views.div(monthly_age_views.sum(axis=1), axis=0) * 100).round(1)

	# 시각화
	monthly_age_prop.plot(kind='line', marker='o', figsize=(18, 9), colormap='viridis', ms=4)
	plt.title('월별 조회수에 대한 연령대별 기여도 변화 (%)', fontsize=18)
	plt.xlabel('기간 (월)'); plt.ylabel('연령대별 조회수 비중 (%)'); plt.xticks(rotation=45)
	plt.legend(title='Age Group', bbox_to_anchor=(1.02, 1), loc='upper left')
	plt.grid(which='major', linestyle='--', linewidth='0.5')
	plt.tight_layout()
	plt.savefig(f'{output_dir}/monthly_age_contribution_line.png')
	plt.close()

	# 데이터 테이블 출력
	print("\n--- 월별 연령대 기여도 (%) 데이터 ---")
	print(monthly_age_prop)
	print(" - 월별 핵심 독자층 변화 분석 완료. (monthly_age_contribution_line.png 저장 및 테이블 출력)")

	# 보고서에 전달할 데이터 반환
	return {
	"monthly_metrics": monthly_metrics,
	"category_table": category_table_data,
	"age_table": monthly_age_prop
	}


	# 5. 종합 인사이트 생성 (보고서 내용 업데이트)
	def generate_insights_report(monthly_data, output_dir):
	print("\n[단계 6] 종합 인사이트 보고서 생성 (월별 분석 수치 강화)...")

	# 데이터 테이블을 문자열로 변환
	category_table_str = monthly_data['category_table'].to_string()
	age_table_str = monthly_data['age_table'].to_string()

	report = f"""
	# 신문과방송 독자 데이터 심층 분석 보고서 (월별 트렌드 수치 강화)
	생성일: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}

	(기존 1 ~ 4 섹션 내용 생략)
	...

	## 5. ★ 수치로 보는 월별 동적 트렌드 분석 ★

	시간의 흐름에 따른 성과, 전략, 독자층의 변화를 수치 중심으로 분석한 결과, 다음과 같은 구체적인 인사이트를 도출했습니다.

	### 5.1. 성과의 변동성과 성장 모멘텀
	- 성과 추이: 2024년 4월, 총 조회수는 21,015회를 기록하며 전월 대비 16.2%의 높은 성장률을 보였습니다. 특히 해당 월의 좋아요 수는 290개로, 전월 대비 161.3%라는 폭발적인 증가를 기록했습니다. 이는 특정 기획 기사가 독자들에게 큰 호응을 얻었음을 의미합니다. (monthly_performance_and_growth.png 참고)
	- 성장과 하락: 반면, 2025년 1월은 조회수(-25.5%)와 좋아요(-61.6%) 모두 큰 폭으로 하락하는 모습을 보였습니다. 이처럼 월별 성과 변동성이 크므로, 성공 월의 요인을 분석하여 하락 월에 적용하는 전략이 시급합니다.

	### 5.2. 데이터로 입증된 콘텐츠 전략의 진화
	- 전략 변화: 아래 데이터 테이블에서 볼 수 있듯이, 2024년 후반부터 '미디어·AI트렌드' 카테고리의 발행 비중이 꾸준히 증가하여 최근 월에는 전체 콘텐츠의 약 5%를 차지하는 주요 카테고리로 자리 잡았습니다.
	- 결과: 이 전략은 성공적이었습니다. '미디어·AI트렌드'는 평균 조회수 및 참여도가 높은 카테고리이며, 이러한 콘텐츠의 증가는 새로운 전문 독자층 유입에 기여했습니다.
	(monthly_category_distribution_with_values.png 참고)

	--- 월별 상위 카테고리 발행 비중 (%) 데이터 ---
	{category_table_str}
	---------------------------------------------

	### 5.3. 핵심 독자층의 세대교체 조짐
	- 핵심 독자층: 19-24세 그룹이 여전히 가장 큰 비중(평균 약 20~25%)을 차지하는 핵심 독자층입니다.
	- 주목할 변화: 하지만 아래 데이터에서 명확히 보이듯이, 2025년 들어 30-34세 독자층의 기여도가 12.1%에서 14.5%로 꾸준히 상승하는 트렌드가 나타났습니다. 이는 새로운 성장 동력이 될 수 있는 매우 긍정적인 신호입니다. 반면, 13-18세 독자층의 비중은 소폭 감소하는 추세입니다.
	(monthly_age_contribution_line.png 참고)

	--- 월별 연령대 기여도 (%) 데이터 ---
	{age_table_str}
	---------------------------------------------

	## 6. 최종 전략 제언 (수치 기반)
	1. 성장률 기반 성과 관리: 매월 말, '월별 성과 및 성장률' 대시보드를 리뷰하여 성장률이 급등/급락한 원인을 분석하고 다음 달 콘텐츠 기획에 즉시 반영하는 프로세스를 정립해야 합니다.
	2. 데이터 기반 카테고리 비중 조절: 성공이 입증된 '미디어·AI트렌드'의 비중을 현재 5%에서 8~10% 수준까지 점진적으로 확대하고, 반응이 저조한 일부 카테고리의 비중은 축소하는 '선택과 집중'을 실행해야 합니다.
	3. 30대 독자층 집중 공략: 기여도가 꾸준히 상승하는 30대 독자를 '핵심 성장 타겟'으로 공식 지정하고, 이들의 관심사인 '커리어', '미디어 산업 동향', '비즈니스 모델' 관련 콘텐츠를 신설하여 이들의 유입을 가속화해야 합니다.
	"""
	report_path = f'{output_dir}/comprehensive_analysis_report_with_enhanced_trends.txt'
	with open(report_path, 'w', encoding='utf-8') as f:
	f.write(report)
	print(f"\n - 종합 인사이트 보고서 생성 완료. ({report_path} 저장)")

	# 6. 메인 실행 함수
	def main():
	print("===== 신문과방송 독자 데이터 심층 분석 (월별 트렌드 수치 강화) =====")

	data_dir, output_dir = setup_environment()
	all_data = load_and_preprocess_data(data_dir)

	# --- ★ 수치/추세가 강화된 월별 분석 실행 ★ ---
	monthly_analysis_data = analyze_enhanced_monthly_trends(all_data, output_dir)

	generate_insights_report(monthly_analysis_data, output_dir)

	print("\n===== 모든 분석이 성공적으로 완료되었습니다. =====")
	print(f"결과물은 '{output_dir}' 폴더에서 확인하실 수 있습니다.")

	if __name__ == '__main__':
	main()