Spaces:

QuarterZip
/

PINE-AI-Amdocs

Sleeping

App Files Files Community

PINE-AI-Amdocs / backend /precomputation /logic /segmentation.py

maitrang04

Upload 48 files

0649d3e verified 3 months ago

raw

history blame contribute delete

4.83 kB

	import pandas as pd
	import numpy as np
	from sklearn.preprocessing import StandardScaler, LabelEncoder
	from sklearn.cluster import KMeans

	from backend.config.setting import (
	PRE_TELCO_CHURN_CSV,
	PRE_TEST_CUSTOMER_CSV,
	)

	df1 = pd.read_csv(PRE_TELCO_CHURN_CSV)
	df2 = pd.read_csv(PRE_TEST_CUSTOMER_CSV)
	df = pd.concat([df1, df2], ignore_index=True)

	# Danh sách đầy đủ các feature bạn yêu cầu
	features_to_use = [
	'Customer ID',
	'Age',
	'Avg Monthly GB Download',
	'Churn Score',
	'Gender',
	'Monthly Charge',
	'CLTV',
	'Contract',
	'Streaming Movies',
	'Streaming Music',
	'Streaming TV',
	'Satisfaction Score',
	'Tenure in Months'
	]

	# Chỉ giữ lại các cột có trong file
	existing_cols = [col for col in features_to_use if col in df.columns]
	df_final = df[existing_cols].copy()

	# Kiểm tra xem có đủ cột quan trọng không
	if 'Customer ID' not in df_final.columns:
	print(" Cảnh báo: Không tìm thấy cột Customer ID. Code vẫn chạy nhưng kết quả sẽ không có ID.")

	# ==========================================
	# 2. TIỀN XỬ LÝ (PRE-PROCESSING)
	# ==========================================
	# Tạo một bản sao để train model (không làm hỏng data gốc)
	X = df_final.copy()

	# Bỏ cột ID ra khỏi dữ liệu training (vì ID không có ý nghĩa phân cụm)
	if 'Customer ID' in X.columns:
	X = X.drop(columns=['Customer ID'])

	# --- 2.1 Xử lý dữ liệu dạng chữ (Encoding) ---

	# Xử lý Gender: Male/Female -> 0/1
	le = LabelEncoder()
	if 'Gender' in X.columns:
	X['Gender'] = le.fit_transform(X['Gender'].astype(str))

	# Xử lý Contract: Chuyển thành số theo thứ tự cam kết
	contract_map = {'Month-to-month': 0, 'One year': 1, 'Two year': 2}
	if 'Contract' in X.columns:
	# Nếu dữ liệu lạ không khớp map, gán là 0
	X['Contract'] = X['Contract'].map(contract_map).fillna(0)

	# Xử lý các cột Streaming: Yes -> 1, No -> 0
	streaming_cols = ['Streaming Movies', 'Streaming Music', 'Streaming TV']
	for col in streaming_cols:
	if col in X.columns:
	# Xử lý cả trường hợp 'No internet service' -> coi là 0
	X[col] = X[col].apply(lambda x: 1 if str(x).strip() == 'Yes' else 0)

	# --- 2.2 Xử lý dữ liệu trống (Missing Values) ---
	# Điền giá trị trung bình vào các ô trống (để tránh lỗi)
	X = X.fillna(X.mean())

	# --- 2.3 Chuẩn hóa dữ liệu (Scaling) ---
	# Bước này CỰC KỲ QUAN TRỌNG khi dùng nhiều feature khác đơn vị (Tuổi, Tiền, GB...)
	scaler = StandardScaler()
	X_scaled = scaler.fit_transform(X)

	# ==========================================
	# 3. PHÂN CỤM (CLUSTERING)
	# ==========================================
	print(" Đang tiến hành phân cụm K-Means với 3 nhóm...")

	# Sử dụng K-Means với k=3
	kmeans = KMeans(n_clusters=3, random_state=42, n_init=10)
	clusters = kmeans.fit_predict(X_scaled)

	# Gán nhãn cụm (0, 1, 2) tạm thời vào dataframe
	df_final['Cluster_Temp'] = clusters

	# ==========================================
	# 4. ĐỊNH DANH NHÓM A, B, C (RANKING)
	# ==========================================
	# Logic: Nhóm nào có CLTV (Giá trị vòng đời) cao nhất sẽ là A (VIP)
	# Nếu không có CLTV, dùng Monthly Charge

	ranking_metric = 'CLTV' if 'CLTV' in df_final.columns else 'Monthly Charge'

	# Tính giá trị trung bình của metric xếp hạng cho từng cụm
	cluster_stats = df_final.groupby('Cluster_Temp')[ranking_metric].mean().sort_values(ascending=False)

	print("\n Thống kê trung bình nhóm (Dựa trên CLTV):")
	print(cluster_stats)

	# Tạo map: Cao nhất -> A, Nhì -> B, Thấp -> C
	labels_map = {}
	rank_names = ['A', 'B', 'C'] # A là xịn nhất

	for i, cluster_idx in enumerate(cluster_stats.index):
	labels_map[cluster_idx] = rank_names[i]

	# Áp dụng map để tạo cột Segment cuối cùng
	df_final['Segment'] = df_final['Cluster_Temp'].map(labels_map)

	# ==========================================
	# 5. XUẤT FILE KẾT QUẢ
	# ==========================================
	# Bỏ cột Cluster_Temp thừa đi
	output_df = df_final.drop(columns=['Cluster_Temp'])

	filename = "telco_customer_segmented_full_features.csv"
	output_df.to_csv(filename, index=False)

	print(f"\n THÀNH CÔNG! File kết quả đã lưu tại: {filename}")
	print("-" * 50)
	print("Mẫu dữ liệu 5 dòng đầu tiên:")
	print(output_df[['Customer ID', 'Segment', 'CLTV', 'Churn Score', 'Monthly Charge']].head())

	# In ra đặc điểm trung bình của từng nhóm để bạn dễ hiểu Insight
	print("\n ĐẶC ĐIỂM TRUNG BÌNH CỦA 3 NHÓM KHÁCH HÀNG:")
	summary = output_df.groupby('Segment')[['CLTV', 'Monthly Charge', 'Churn Score', 'Avg Monthly GB Download']].mean()
	print(summary)