Spaces:

Fred808
/

Insta-AI

Paused

App Files Files Community

Fred808 commited on Jan 15, 2025

Commit

3e33a54

verified ·

1 Parent(s): e0b5e14

Create instagram_ai.py

Browse files

Files changed (1) hide show

instagram_ai.py +149 -0

instagram_ai.py ADDED Viewed

	@@ -0,0 +1,149 @@

+import pandas as pd
+import numpy as np
+import json
+from sklearn.model_selection import train_test_split
+from sklearn.linear_model import LinearRegression, LogisticRegression
+from sklearn.ensemble import RandomForestRegressor, RandomForestClassifier
+from xgboost import XGBRegressor, XGBClassifier
+from sklearn.svm import SVC
+from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score, accuracy_score, precision_score, recall_score, f1_score, roc_auc_score
+from statsmodels.tsa.arima.model import ARIMA
+from tensorflow.keras.models import Sequential
+from tensorflow.keras.layers import LSTM, Dense
+from tensorflow.keras.callbacks import EarlyStopping
+from sklearn.preprocessing import MinMaxScaler
+from sklearn.feature_extraction.text import TfidfVectorizer
+from sklearn.metrics.pairwise import cosine_similarity
+from textblob import TextBlob  # For sentiment analysis
+import logging
+# Set up logging
+logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
+# Load Instagram data
+logging.info("Loading Instagram data...")
+data = pd.read_csv('processed_instagram_data.csv')
+# Load Instagram secrets book
+logging.info("Loading Instagram secrets book...")
+with open('Instagram_secrets_full.json', 'r') as f:
+    instagram_secrets = json.load(f)
+# Extract tips and tricks from the book
+logging.info("Extracting tips and tricks from the book...")
+tips = []
+for section in instagram_secrets.values():
+    if isinstance(section, dict):
+        for key, value in section.items():
+            if isinstance(value, str):
+                tips.append(value)
+            elif isinstance(value, list):
+                tips.extend(value)
+    elif isinstance(section, list):
+        tips.extend(section)
+# Preprocess tips (e.g., remove duplicates, clean text)
+tips = list(set(tips))  # Remove duplicates
+logging.info(f"Extracted {len(tips)} unique tips from the book.")
+# Feature Engineering
+logging.info("Performing feature engineering...")
+data['posting_time_encoded'] = pd.to_datetime(data['posting_time']).astype(int) / 10**9
+data['caption_length'] = data['caption'].apply(len)
+data['hashtag_count'] = data['hashtags'].apply(lambda x: len(eval(x)))
+data['viral'] = data['engagement_rate'].apply(lambda x: 1 if x > data['engagement_rate'].quantile(0.75) else 0)
+data['sentiment'] = data['caption'].apply(lambda x: TextBlob(x).sentiment.polarity)  # Sentiment analysis
+# Define features and target variables
+X = data[['posting_time_encoded', 'content_type_encoded', 'caption_length', 'hashtag_count', 'media_type_encoded', 'sentiment']]
+y_engagement = data['engagement_rate']
+y_viral = data['viral']
+# Split data
+X_train, X_test, y_train_engagement, y_test_engagement, y_train_viral, y_test_viral = train_test_split(
+    X, y_engagement, y_viral, test_size=0.2, random_state=42
+)
+# Regression Model: Engagement Rate Prediction
+logging.info("Training engagement rate prediction model...")
+engagement_model = XGBRegressor(random_state=42)
+engagement_model.fit(X_train, y_train_engagement)
+y_pred_engagement = engagement_model.predict(X_test)
+mae = mean_absolute_error(y_test_engagement, y_pred_engagement)
+mse = mean_squared_error(y_test_engagement, y_pred_engagement)
+r2 = r2_score(y_test_engagement, y_pred_engagement)
+logging.info(f"Engagement Rate Model: MAE: {mae:.4f}, MSE: {mse:.4f}, R²: {r2:.4f}")
+# Classification Model: Viral Potential Prediction
+logging.info("Training viral potential prediction model...")
+viral_model = XGBClassifier(random_state=42)
+viral_model.fit(X_train, y_train_viral)
+y_pred_viral = viral_model.predict(X_test)
+accuracy = accuracy_score(y_test_viral, y_pred_viral)
+precision = precision_score(y_test_viral, y_pred_viral)
+recall = recall_score(y_test_viral, y_pred_viral)
+f1 = f1_score(y_test_viral, y_pred_viral)
+roc_auc = roc_auc_score(y_test_viral, viral_model.predict_proba(X_test)[:, 1])
+logging.info(f"Viral Potential Model: Accuracy: {accuracy:.4f}, Precision: {precision:.4f}, Recall: {recall:.4f}, F1-Score: {f1:.4f}, ROC-AUC: {roc_auc:.4f}")
+# Time-Series Model: Optimal Posting Times
+logging.info("Training time-series model for optimal posting times...")
+time_series_data = data.groupby('posting_time')['engagement_rate'].mean().reset_index()
+time_series_data.set_index('posting_time', inplace=True)
+train_size = int(len(time_series_data) * 0.8)
+train, test = time_series_data[:train_size], time_series_data[train_size:]
+arima_model = ARIMA(train, order=(5, 1, 0))
+arima_fit = arima_model.fit()
+predictions = arima_fit.forecast(steps=len(test))
+mape = mean_absolute_percentage_error(test, predictions)
+logging.info(f"ARIMA Model: MAPE: {mape:.4f}")
+# Recommendation System: Hashtag and Keyword Recommendations
+logging.info("Training recommendation system for hashtags...")
+hashtags = data['hashtags'].apply(lambda x: ' '.join(eval(x)))
+vectorizer = TfidfVectorizer()
+tfidf_matrix = vectorizer.fit_transform(hashtags)
+cosine_sim = cosine_similarity(tfidf_matrix, tfidf_matrix)
+def recommend_hashtags(post_index, top_n=5):
+    sim_scores = list(enumerate(cosine_sim[post_index]))
+    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)
+    top_indices = [i[0] for i in sim_scores[1:top_n+1]]
+    return data.iloc[top_indices]['hashtags']
+# Example: Recommend hashtags for the first post
+logging.info("Example Hashtag Recommendations:")
+print(recommend_hashtags(0))
+# Sentiment Analysis: Audience Reactions
+logging.info("Performing sentiment analysis on captions...")
+data['sentiment_category'] = data['sentiment'].apply(lambda x: 'Positive' if x > 0 else 'Negative' if x < 0 else 'Neutral')
+logging.info("Sentiment Analysis Results:")
+print(data['sentiment_category'].value_counts())
+# Niche Trend Analysis (if available)
+logging.info("Analyzing niche trends...")
+niche_trends = data.groupby('content_type')['engagement_rate'].mean().sort_values(ascending=False)
+logging.info("Top Performing Content Types:")
+print(niche_trends)
+# Promotion Recommendations
+logging.info("Generating promotion recommendations...")
+promotion_data = data[data['promoted'] == 1]
+promotion_effectiveness = promotion_data.groupby('content_type')['engagement_rate'].mean().sort_values(ascending=False)
+logging.info("Most Effective Content Types for Promotion:")
+print(promotion_effectiveness)
+# Callbacks to Avoid Overfitting
+early_stopping = EarlyStopping(monitor='val_loss', patience=10, restore_best_weights=True)
+# Train Until 95% Accuracy (Example for Classification Model)
+logging.info("Training viral potential model until 95% accuracy...")
+accuracy = 0
+while accuracy < 0.95:
+    viral_model.fit(X_train, y_train_viral, eval_set=[(X_test, y_test_viral)], early_stopping_rounds=10, verbose=False)
+    y_pred_viral = viral_model.predict(X_test)
+    accuracy = accuracy_score(y_test_viral, y_pred_viral)
+    logging.info(f"Current Accuracy: {accuracy:.4f}")
+logging.info("Training complete!")