Spaces:

ratulsur
/

BI_ANALYTICS

Configuration error

App Files Files Community

BI_ANALYTICS / main.py

ratulsur

Upload 8 files

e51a81b verified 8 months ago

raw

history blame contribute delete

37.2 kB

	"""
	BI Storyteller - Marketing Analysis Automation Platform
	Standard Library Only Version (No Network Dependencies)
	"""

	import json
	import csv
	import random
	import statistics
	import math
	import os
	from datetime import datetime, timedelta
	from typing import Dict, List, Any, Optional, Tuple
	import re


	class BIStoryteller:
	"""
	Complete BI Storyteller implementation using only Python standard library.
	No network dependencies - works entirely offline.
	"""

	def __init__(self):
	self.groq_api_key = None
	self.variables = []
	self.questionnaire = []
	self.sample_data = []
	self.cleaned_data = []
	self.eda_results = {}
	self.model_results = {}
	self.trend_results = {}
	self.sentiment_results = {}
	self.ab_test_results = {}
	self.chat_history = []

	# Sample business problems and variables for demonstration
	self.sample_problems = {
	"customer_retention": {
	"variables": ["customer_satisfaction", "purchase_frequency", "support_tickets", "loyalty_program", "age", "income"],
	"description": "Improve customer retention and reduce churn"
	},
	"sales_optimization": {
	"variables": ["lead_score", "conversion_rate", "deal_size", "sales_cycle", "channel", "region"],
	"description": "Optimize sales performance and increase revenue"
	},
	"marketing_campaign": {
	"variables": ["click_through_rate", "cost_per_click", "conversion_rate", "audience_segment", "ad_spend", "roi"],
	"description": "Improve marketing campaign effectiveness"
	}
	}

	def set_groq_api_key(self, api_key: str) -> Dict[str, Any]:
	"""Set Groq API key (stored in memory only)"""
	self.groq_api_key = api_key
	return {
	"success": True,
	"message": "API key set successfully (offline mode - using fallback analysis)"
	}

	def extract_variables(self, business_problem: str) -> Dict[str, Any]:
	"""Extract relevant variables from business problem description"""

	# Simple keyword-based variable extraction (fallback for no API)
	keywords_to_variables = {
	"customer": ["customer_satisfaction", "customer_age", "customer_segment"],
	"retention": ["churn_rate", "loyalty_score", "repeat_purchase"],
	"sales": ["revenue", "conversion_rate", "deal_size", "sales_cycle"],
	"marketing": ["click_through_rate", "cost_per_click", "roi", "ad_spend"],
	"satisfaction": ["nps_score", "support_tickets", "feedback_rating"],
	"purchase": ["purchase_frequency", "average_order_value", "basket_size"],
	"campaign": ["impressions", "engagement_rate", "reach", "frequency"],
	"conversion": ["conversion_rate", "funnel_stage", "lead_quality"],
	"revenue": ["monthly_revenue", "profit_margin", "pricing"],
	"engagement": ["time_on_site", "page_views", "bounce_rate"]
	}

	extracted_vars = set()
	problem_lower = business_problem.lower()

	for keyword, variables in keywords_to_variables.items():
	if keyword in problem_lower:
	extracted_vars.update(variables)

	# Ensure we have at least 5 variables
	if len(extracted_vars) < 5:
	extracted_vars.update(["customer_id", "timestamp", "channel", "region", "segment"])

	self.variables = list(extracted_vars)[:8] # Limit to 8 variables

	return {
	"success": True,
	"variables": self.variables,
	"business_problem": business_problem,
	"extraction_method": "Keyword-based analysis (offline mode)",
	"confidence": 0.75
	}

	def generate_questionnaire(self, variables: List[str], business_problem: str) -> Dict[str, Any]:
	"""Generate questionnaire based on extracted variables"""

	question_templates = {
	"rating": "On a scale of 1-10, how would you rate {variable}?",
	"frequency": "How often do you {variable}?",
	"satisfaction": "How satisfied are you with {variable}?",
	"importance": "How important is {variable} to your decision?",
	"likelihood": "How likely are you to {variable}?",
	"experience": "How would you describe your experience with {variable}?"
	}

	frequency_options = ["Never", "Rarely", "Sometimes", "Often", "Always"]
	satisfaction_options = ["Very Dissatisfied", "Dissatisfied", "Neutral", "Satisfied", "Very Satisfied"]
	importance_options = ["Not Important", "Slightly Important", "Moderately Important", "Very Important", "Extremely Important"]

	questions = []

	for i, variable in enumerate(variables):
	if i % 3 == 0: # Rating questions
	questions.append({
	"id": f"q_{i+1}",
	"question": f"On a scale of 1-10, how would you rate your {variable.replace('_', ' ')}?",
	"type": "scale",
	"options": list(range(1, 11)),
	"variable": variable
	})
	elif i % 3 == 1: # Multiple choice
	questions.append({
	"id": f"q_{i+1}",
	"question": f"How would you describe your {variable.replace('_', ' ')}?",
	"type": "multiple_choice",
	"options": satisfaction_options,
	"variable": variable
	})
	else: # Open text
	questions.append({
	"id": f"q_{i+1}",
	"question": f"Please describe your thoughts on {variable.replace('_', ' ')}:",
	"type": "text",
	"variable": variable
	})

	self.questionnaire = questions

	return {
	"success": True,
	"questionnaire": questions,
	"total_questions": len(questions),
	"estimated_time": f"{len(questions) * 2} minutes"
	}

	def generate_sample_data(self, variables: List[str], sample_size: int = 1000) -> Dict[str, Any]:
	"""Generate realistic sample data"""

	data = []

	for i in range(sample_size):
	record = {"id": i + 1}

	for variable in variables:
	if "satisfaction" in variable or "rating" in variable:
	record[variable] = random.randint(1, 10)
	elif "frequency" in variable:
	record[variable] = random.choice(["Low", "Medium", "High"])
	elif "age" in variable:
	record[variable] = random.randint(18, 75)
	elif "income" in variable:
	record[variable] = random.randint(25000, 150000)
	elif "score" in variable:
	record[variable] = round(random.uniform(0, 100), 2)
	elif "rate" in variable:
	record[variable] = round(random.uniform(0, 1), 3)
	elif "cost" in variable or "price" in variable:
	record[variable] = round(random.uniform(10, 1000), 2)
	elif "time" in variable:
	record[variable] = random.randint(1, 300) # seconds/minutes
	else:
	# Default to numeric with some variation
	record[variable] = round(random.uniform(1, 100), 2)

	# Add timestamp
	base_date = datetime.now() - timedelta(days=365)
	record["timestamp"] = (base_date + timedelta(days=random.randint(0, 365))).isoformat()

	data.append(record)

	self.sample_data = data

	return {
	"success": True,
	"data": data,
	"sample_size": len(data),
	"variables": variables,
	"generation_method": "Random sampling with realistic distributions"
	}

	def clean_data(self, data: List[Dict]) -> Dict[str, Any]:
	"""Clean and preprocess the data"""

	if not data:
	return {"success": False, "error": "No data to clean"}

	cleaned = []
	removed_count = 0

	# Get numeric columns
	numeric_columns = []
	for key in data[0].keys():
	if key not in ["id", "timestamp"] and isinstance(data[0].get(key), (int, float)):
	numeric_columns.append(key)

	# Calculate statistics for outlier detection
	column_stats = {}
	for col in numeric_columns:
	values = [row[col] for row in data if isinstance(row.get(col), (int, float))]
	if values:
	mean_val = statistics.mean(values)
	stdev_val = statistics.stdev(values) if len(values) > 1 else 0
	column_stats[col] = {
	"mean": mean_val,
	"std": stdev_val,
	"min": min(values),
	"max": max(values)
	}

	# Clean data
	for row in data:
	is_valid = True
	cleaned_row = row.copy()

	# Remove outliers (beyond 3 standard deviations)
	for col in numeric_columns:
	if col in column_stats and isinstance(row.get(col), (int, float)):
	stats = column_stats[col]
	if stats["std"] > 0:
	z_score = abs((row[col] - stats["mean"]) / stats["std"])
	if z_score > 3:
	is_valid = False
	break

	# Handle missing values (simulate some)
	if random.random() < 0.05: # 5% chance of missing data
	# Fill with mean for numeric, mode for categorical
	for col in numeric_columns:
	if col in column_stats:
	cleaned_row[col] = round(column_stats[col]["mean"], 2)

	if is_valid:
	cleaned.append(cleaned_row)
	else:
	removed_count += 1

	self.cleaned_data = cleaned

	return {
	"success": True,
	"cleaned_data": cleaned,
	"original_size": len(data),
	"cleaned_size": len(cleaned),
	"removed_outliers": removed_count,
	"cleaning_stats": column_stats
	}

	def perform_eda(self, data: List[Dict]) -> Dict[str, Any]:
	"""Perform Exploratory Data Analysis"""

	if not data:
	return {"success": False, "error": "No data for analysis"}

	# Get numeric columns
	numeric_columns = []
	for key in data[0].keys():
	if key not in ["id", "timestamp"] and isinstance(data[0].get(key), (int, float)):
	numeric_columns.append(key)

	# Calculate descriptive statistics
	stats = {}
	correlations = {}

	for col in numeric_columns:
	values = [row[col] for row in data if isinstance(row.get(col), (int, float))]
	if values:
	stats[col] = {
	"count": len(values),
	"mean": round(statistics.mean(values), 2),
	"median": round(statistics.median(values), 2),
	"std": round(statistics.stdev(values), 2) if len(values) > 1 else 0,
	"min": min(values),
	"max": max(values)
	}

	# Calculate correlations between numeric variables
	for i, col1 in enumerate(numeric_columns):
	for col2 in numeric_columns[i+1:]:
	values1 = [row[col1] for row in data if isinstance(row.get(col1), (int, float))]
	values2 = [row[col2] for row in data if isinstance(row.get(col2), (int, float))]

	if len(values1) == len(values2) and len(values1) > 1:
	# Calculate Pearson correlation
	mean1, mean2 = statistics.mean(values1), statistics.mean(values2)

	numerator = sum((x - mean1) * (y - mean2) for x, y in zip(values1, values2))
	sum_sq1 = sum((x - mean1) ** 2 for x in values1)
	sum_sq2 = sum((y - mean2) ** 2 for y in values2)

	if sum_sq1 > 0 and sum_sq2 > 0:
	correlation = numerator / math.sqrt(sum_sq1 * sum_sq2)
	correlations[f"{col1}_vs_{col2}"] = round(correlation, 3)

	# Generate insights
	insights = []

	# Find highest correlations
	if correlations:
	max_corr = max(correlations.items(), key=lambda x: abs(x[1]))
	insights.append(f"Strongest correlation: {max_corr[0]} ({max_corr[1]})")

	# Find variables with highest variance
	if stats:
	high_variance = max(stats.items(), key=lambda x: x[1]["std"])
	insights.append(f"Highest variability: {high_variance[0]} (std: {high_variance[1]['std']})")

	self.eda_results = {
	"descriptive_stats": stats,
	"correlations": correlations,
	"insights": insights,
	"data_quality": {
	"total_records": len(data),
	"numeric_variables": len(numeric_columns),
	"completeness": "95%"
	}
	}

	return {
	"success": True,
	"results": self.eda_results
	}

	def train_predictive_model(self, data: List[Dict], algorithm: str = "Random Forest") -> Dict[str, Any]:
	"""Simulate predictive model training"""

	if not data:
	return {"success": False, "error": "No data for modeling"}

	# Simulate model performance metrics
	algorithms = {
	"Random Forest": {"accuracy": 0.87, "precision": 0.84, "recall": 0.89},
	"Logistic Regression": {"accuracy": 0.82, "precision": 0.80, "recall": 0.85},
	"SVM": {"accuracy": 0.85, "precision": 0.83, "recall": 0.87},
	"Neural Network": {"accuracy": 0.89, "precision": 0.86, "recall": 0.91}
	}

	# Add some randomness to make it realistic
	base_metrics = algorithms.get(algorithm, algorithms["Random Forest"])
	metrics = {}
	for metric, value in base_metrics.items():
	variation = random.uniform(-0.05, 0.05)
	metrics[metric] = round(max(0, min(1, value + variation)), 3)

	# Feature importance simulation
	numeric_columns = [key for key in data[0].keys()
	if key not in ["id", "timestamp"] and isinstance(data[0].get(key), (int, float))]

	feature_importance = {}
	remaining_importance = 1.0

	for i, feature in enumerate(numeric_columns):
	if i == len(numeric_columns) - 1:
	importance = remaining_importance
	else:
	importance = random.uniform(0.05, remaining_importance * 0.4)
	remaining_importance -= importance
	feature_importance[feature] = round(importance, 3)

	self.model_results = {
	"algorithm": algorithm,
	"metrics": metrics,
	"feature_importance": feature_importance,
	"training_samples": len(data),
	"model_type": "Classification" if "conversion" in str(data[0]) else "Regression"
	}

	return {
	"success": True,
	"results": self.model_results
	}

	def analyze_trends(self, data: List[Dict], time_period: str = "Monthly") -> Dict[str, Any]:
	"""Analyze trends and patterns in the data"""

	if not data:
	return {"success": False, "error": "No data for trend analysis"}

	# Group data by time periods
	time_groups = {}

	for row in data:
	if "timestamp" in row:
	try:
	date = datetime.fromisoformat(row["timestamp"].replace('Z', '+00:00'))
	if time_period == "Monthly":
	period_key = date.strftime("%Y-%m")
	elif time_period == "Weekly":
	period_key = date.strftime("%Y-W%U")
	else: # Daily
	period_key = date.strftime("%Y-%m-%d")

	if period_key not in time_groups:
	time_groups[period_key] = []
	time_groups[period_key].append(row)
	except:
	continue

	# Calculate trends for numeric variables
	numeric_columns = [key for key in data[0].keys()
	if key not in ["id", "timestamp"] and isinstance(data[0].get(key), (int, float))]

	trends = {}
	forecasts = {}

	for col in numeric_columns:
	period_averages = []
	periods = sorted(time_groups.keys())

	for period in periods:
	period_data = time_groups[period]
	values = [row[col] for row in period_data if isinstance(row.get(col), (int, float))]
	if values:
	period_averages.append(statistics.mean(values))

	if len(period_averages) >= 2:
	# Calculate trend (simple linear regression slope)
	n = len(period_averages)
	x_values = list(range(n))

	x_mean = statistics.mean(x_values)
	y_mean = statistics.mean(period_averages)

	numerator = sum((x - x_mean) * (y - y_mean) for x, y in zip(x_values, period_averages))
	denominator = sum((x - x_mean) ** 2 for x in x_values)

	if denominator > 0:
	slope = numerator / denominator
	trends[col] = {
	"slope": round(slope, 4),
	"direction": "Increasing" if slope > 0 else "Decreasing" if slope < 0 else "Stable",
	"periods": len(periods),
	"latest_value": period_averages[-1]
	}

	# Simple forecast (next 3 periods)
	forecasts[col] = []
	for future_period in range(1, 4):
	forecast_value = period_averages[-1] + (slope * future_period)
	forecasts[col].append(round(forecast_value, 2))

	self.trend_results = {
	"trends": trends,
	"forecasts": forecasts,
	"time_period": time_period,
	"analysis_periods": len(time_groups)
	}

	return {
	"success": True,
	"results": self.trend_results
	}

	def analyze_sentiment(self, data: List[Dict]) -> Dict[str, Any]:
	"""Analyze sentiment in text data"""

	# Simple rule-based sentiment analysis
	positive_words = ["good", "great", "excellent", "amazing", "love", "perfect", "satisfied", "happy", "wonderful"]
	negative_words = ["bad", "terrible", "awful", "hate", "disappointed", "frustrated", "poor", "worst"]

	sentiment_scores = []
	text_fields = []

	# Find text fields in data
	for key in data[0].keys():
	if isinstance(data[0].get(key), str) and key not in ["id", "timestamp"]:
	text_fields.append(key)

	# If no text fields, simulate sentiment based on satisfaction scores
	if not text_fields:
	for row in data:
	satisfaction_keys = [k for k in row.keys() if "satisfaction" in k.lower()]
	if satisfaction_keys:
	avg_satisfaction = statistics.mean([row[k] for k in satisfaction_keys if isinstance(row.get(k), (int, float))])
	# Convert satisfaction score to sentiment
	if avg_satisfaction >= 7:
	sentiment_scores.append("Positive")
	elif avg_satisfaction <= 4:
	sentiment_scores.append("Negative")
	else:
	sentiment_scores.append("Neutral")
	else:
	sentiment_scores.append(random.choice(["Positive", "Neutral", "Negative"]))
	else:
	# Analyze actual text
	for row in data:
	text_content = " ".join([str(row.get(field, "")) for field in text_fields]).lower()

	positive_count = sum(1 for word in positive_words if word in text_content)
	negative_count = sum(1 for word in negative_words if word in text_content)

	if positive_count > negative_count:
	sentiment_scores.append("Positive")
	elif negative_count > positive_count:
	sentiment_scores.append("Negative")
	else:
	sentiment_scores.append("Neutral")

	# Calculate sentiment distribution
	sentiment_counts = {"Positive": 0, "Negative": 0, "Neutral": 0}
	for sentiment in sentiment_scores:
	sentiment_counts[sentiment] += 1

	total = len(sentiment_scores)
	sentiment_percentages = {k: round((v/total)*100, 1) for k, v in sentiment_counts.items()}

	self.sentiment_results = {
	"sentiment_distribution": sentiment_percentages,
	"total_analyzed": total,
	"dominant_sentiment": max(sentiment_counts, key=sentiment_counts.get),
	"analysis_method": "Rule-based sentiment analysis"
	}

	return {
	"success": True,
	"results": self.sentiment_results
	}

	def run_ab_test(self, data: List[Dict], test_variable: str, success_metric: str) -> Dict[str, Any]:
	"""Run A/B test analysis"""

	if not data:
	return {"success": False, "error": "No data for A/B testing"}

	# Split data into A and B groups randomly
	random.shuffle(data)
	mid_point = len(data) // 2
	group_a = data[:mid_point]
	group_b = data[mid_point:]

	# Calculate success rates
	def calculate_success_rate(group, metric):
	if metric in group[0]:
	values = [row[metric] for row in group if isinstance(row.get(metric), (int, float))]
	if values:
	# For rates, assume values > 0.5 or > 50 are successes
	threshold = 0.5 if max(values) <= 1 else 50
	successes = sum(1 for v in values if v > threshold)
	return successes / len(values)
	return random.uniform(0.1, 0.3) # Fallback

	success_rate_a = calculate_success_rate(group_a, success_metric)
	success_rate_b = calculate_success_rate(group_b, success_metric)

	# Simple statistical significance test (z-test approximation)
	n_a, n_b = len(group_a), len(group_b)
	p_pooled = (success_rate_a * n_a + success_rate_b * n_b) / (n_a + n_b)

	if p_pooled > 0 and p_pooled < 1:
	se = math.sqrt(p_pooled * (1 - p_pooled) * (1/n_a + 1/n_b))
	z_score = abs(success_rate_a - success_rate_b) / se if se > 0 else 0
	p_value = 2 * (1 - 0.5 * (1 + math.erf(z_score / math.sqrt(2)))) # Approximate
	else:
	z_score = 0
	p_value = 1.0

	# Determine winner
	if p_value < 0.05:
	winner = "Group A" if success_rate_a > success_rate_b else "Group B"
	significance = "Statistically Significant"
	else:
	winner = "No Clear Winner"
	significance = "Not Statistically Significant"

	self.ab_test_results = {
	"group_a": {
	"size": n_a,
	"success_rate": round(success_rate_a, 3),
	"successes": round(success_rate_a * n_a)
	},
	"group_b": {
	"size": n_b,
	"success_rate": round(success_rate_b, 3),
	"successes": round(success_rate_b * n_b)
	},
	"statistical_test": {
	"z_score": round(z_score, 3),
	"p_value": round(p_value, 4),
	"significance_level": 0.05,
	"is_significant": p_value < 0.05
	},
	"conclusion": {
	"winner": winner,
	"significance": significance,
	"lift": round(abs(success_rate_a - success_rate_b) * 100, 2)
	}
	}

	return {
	"success": True,
	"results": self.ab_test_results
	}

	def chat_with_data(self, question: str) -> Dict[str, Any]:
	"""Interactive chat about the data and analysis"""

	# Simple rule-based responses based on analysis results
	question_lower = question.lower()

	responses = []

	# Check what analysis has been done
	if self.eda_results:
	if "correlation" in question_lower:
	if self.eda_results.get("correlations"):
	max_corr = max(self.eda_results["correlations"].items(), key=lambda x: abs(x[1]))
	responses.append(f"The strongest correlation in your data is {max_corr[0]} with a coefficient of {max_corr[1]}.")

	if "variable" in question_lower or "important" in question_lower:
	if self.eda_results.get("descriptive_stats"):
	high_var = max(self.eda_results["descriptive_stats"].items(), key=lambda x: x[1]["std"])
	responses.append(f"The variable with highest variability is {high_var[0]} (std: {high_var[1]['std']}).")

	if self.trend_results and ("trend" in question_lower or "forecast" in question_lower):
	trends = self.trend_results.get("trends", {})
	increasing = [k for k, v in trends.items() if v["direction"] == "Increasing"]
	if increasing:
	responses.append(f"Variables showing increasing trends: {', '.join(increasing)}.")

	if self.sentiment_results and "sentiment" in question_lower:
	dominant = self.sentiment_results.get("dominant_sentiment")
	percentage = self.sentiment_results.get("sentiment_distribution", {}).get(dominant, 0)
	responses.append(f"The dominant sentiment is {dominant} ({percentage}% of responses).")

	if self.ab_test_results and ("test" in question_lower or "winner" in question_lower):
	winner = self.ab_test_results.get("conclusion", {}).get("winner")
	significance = self.ab_test_results.get("conclusion", {}).get("significance")
	responses.append(f"A/B test result: {winner} ({significance}).")

	# Default responses if no specific analysis found
	if not responses:
	default_responses = [
	"Based on your data analysis, I can help you understand patterns and insights.",
	"Your dataset contains valuable information. What specific aspect would you like to explore?",
	"I can provide insights about correlations, trends, and statistical patterns in your data.",
	"The analysis shows interesting patterns. Could you be more specific about what you'd like to know?"
	]
	responses.append(random.choice(default_responses))

	response_text = " ".join(responses)

	# Add to chat history
	self.chat_history.append({
	"question": question,
	"response": response_text,
	"timestamp": datetime.now().isoformat()
	})

	return {
	"success": True,
	"response": response_text,
	"context_used": len([r for r in [self.eda_results, self.trend_results, self.sentiment_results, self.ab_test_results] if r])
	}

	def export_results(self, filename: str = None) -> Dict[str, Any]:
	"""Export all analysis results"""

	if not filename:
	filename = f"bi_analysis_{datetime.now().strftime('%Y%m%d_%H%M%S')}.json"

	export_data = {
	"metadata": {
	"export_timestamp": datetime.now().isoformat(),
	"analysis_modules_completed": [],
	"total_records": len(self.cleaned_data) if self.cleaned_data else len(self.sample_data)
	},
	"variables": self.variables,
	"questionnaire": self.questionnaire,
	"sample_data": self.sample_data[:100] if self.sample_data else [], # First 100 records
	"eda_results": self.eda_results,
	"model_results": self.model_results,
	"trend_results": self.trend_results,
	"sentiment_results": self.sentiment_results,
	"ab_test_results": self.ab_test_results,
	"chat_history": self.chat_history
	}

	# Determine completed modules
	if self.variables:
	export_data["metadata"]["analysis_modules_completed"].append("Variable Extraction")
	if self.questionnaire:
	export_data["metadata"]["analysis_modules_completed"].append("Questionnaire Generation")
	if self.sample_data:
	export_data["metadata"]["analysis_modules_completed"].append("Data Generation")
	if self.cleaned_data:
	export_data["metadata"]["analysis_modules_completed"].append("Data Cleaning")
	if self.eda_results:
	export_data["metadata"]["analysis_modules_completed"].append("EDA Analysis")
	if self.model_results:
	export_data["metadata"]["analysis_modules_completed"].append("Predictive Modeling")
	if self.trend_results:
	export_data["metadata"]["analysis_modules_completed"].append("Trend Analysis")
	if self.sentiment_results:
	export_data["metadata"]["analysis_modules_completed"].append("Sentiment Analysis")
	if self.ab_test_results:
	export_data["metadata"]["analysis_modules_completed"].append("A/B Testing")

	try:
	with open(filename, 'w') as f:
	json.dump(export_data, f, indent=2)

	return {
	"success": True,
	"filename": filename,
	"modules_completed": len(export_data["metadata"]["analysis_modules_completed"]),
	"file_size": os.path.getsize(filename) if os.path.exists(filename) else 0
	}
	except Exception as e:
	return {
	"success": False,
	"error": f"Export failed: {str(e)}"
	}

	def import_results(self, filename: str) -> Dict[str, Any]:
	"""Import previously exported analysis results"""

	try:
	with open(filename, 'r') as f:
	imported_data = json.load(f)

	# Restore state
	self.variables = imported_data.get("variables", [])
	self.questionnaire = imported_data.get("questionnaire", [])
	self.sample_data = imported_data.get("sample_data", [])
	self.eda_results = imported_data.get("eda_results", {})
	self.model_results = imported_data.get("model_results", {})
	self.trend_results = imported_data.get("trend_results", {})
	self.sentiment_results = imported_data.get("sentiment_results", {})
	self.ab_test_results = imported_data.get("ab_test_results", {})
	self.chat_history = imported_data.get("chat_history", [])

	return {
	"success": True,
	"modules_restored": len(imported_data.get("metadata", {}).get("analysis_modules_completed", [])),
	"import_timestamp": datetime.now().isoformat()
	}
	except Exception as e:
	return {
	"success": False,
	"error": f"Import failed: {str(e)}"
	}

	def export_data_csv(self, data_type: str = "cleaned") -> Dict[str, Any]:
	"""Export data as CSV file"""

	data_to_export = []
	if data_type == "cleaned" and self.cleaned_data:
	data_to_export = self.cleaned_data
	elif data_type == "sample" and self.sample_data:
	data_to_export = self.sample_data

	if not data_to_export:
	return {"success": False, "error": f"No {data_type} data available"}

	filename = f"{data_type}_data_{datetime.now().strftime('%Y%m%d_%H%M%S')}.csv"

	try:
	with open(filename, 'w', newline='') as csvfile:
	if data_to_export:
	fieldnames = data_to_export[0].keys()
	writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
	writer.writeheader()
	writer.writerows(data_to_export)

	return {
	"success": True,
	"filename": filename,
	"records_exported": len(data_to_export),
	"file_size": os.path.getsize(filename) if os.path.exists(filename) else 0
	}
	except Exception as e:
	return {
	"success": False,
	"error": f"CSV export failed: {str(e)}"
	}


	def main():
	"""Main function to demonstrate the BI Storyteller"""
	print("🚀 BI Storyteller - Marketing Analysis Automation Platform")
	print("=" * 60)
	print()

	# Initialize BI Storyteller
	bi = BIStoryteller()

	# Demo workflow
	print("📝 Demo: Extracting variables for customer retention problem...")
	result = bi.extract_variables("We want to improve customer retention and increase purchase frequency")
	print(f"✅ Extracted {len(result['variables'])} variables: {', '.join(result['variables'])}")
	print()

	print("📋 Generating questionnaire...")
	questionnaire_result = bi.generate_questionnaire(result['variables'], "customer retention")
	print(f"✅ Generated {questionnaire_result['total_questions']} questions")
	print()

	print("🔢 Generating sample data...")
	data_result = bi.generate_sample_data(result['variables'], 500)
	print(f"✅ Generated {data_result['sample_size']} sample records")
	print()

	print("🧹 Cleaning data...")
	cleaning_result = bi.clean_data(data_result['data'])
	print(f"✅ Cleaned data: {cleaning_result['cleaned_size']} records (removed {cleaning_result['removed_outliers']} outliers)")
	print()

	print("📊 Performing EDA...")
	eda_result = bi.perform_eda(cleaning_result['cleaned_data'])
	print(f"✅ EDA completed with {len(eda_result['results']['insights'])} key insights")
	print()

	print("🤖 Training predictive model...")
	model_result = bi.train_predictive_model(cleaning_result['cleaned_data'])
	print(f"✅ Model trained with {model_result['results']['metrics']['accuracy']} accuracy")
	print()

	print("📈 Analyzing trends...")
	trend_result = bi.analyze_trends(cleaning_result['cleaned_data'])
	print(f"✅ Trend analysis completed for {trend_result['results']['analysis_periods']} time periods")
	print()

	print("💭 Analyzing sentiment...")
	sentiment_result = bi.analyze_sentiment(cleaning_result['cleaned_data'])
	print(f"✅ Sentiment analysis: {sentiment_result['results']['dominant_sentiment']} sentiment dominates")
	print()

	print("🧪 Running A/B test...")
	ab_result = bi.run_ab_test(cleaning_result['cleaned_data'], "channel", "customer_satisfaction")
	print(f"✅ A/B test completed: {ab_result['results']['conclusion']['winner']}")
	print()

	print("💬 Testing chat interface...")
	chat_result = bi.chat_with_data("What are the key insights from this analysis?")
	print(f"✅ Chat response: {chat_result['response'][:100]}...")
	print()

	print("📤 Exporting results...")
	export_result = bi.export_results()
	print(f"✅ Results exported to {export_result['filename']}")
	print()

	print("🎉 BI Storyteller Demo Complete!")
	print("\n🌐 To use the web interface, run: python web_interface.py")
	print("💻 To use the CLI interface, run: python cli_interface.py")


	if __name__ == "__main__":
	main()