Spaces:

Fred808
/

Insta-AI

Paused

Fred808 commited on Jan 16, 2025

Commit

9a1dfac

verified ·

1 Parent(s): b3709d9

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,5 +1,6 @@
 import pandas as pd
 import numpy as np
 from sklearn.model_selection import train_test_split
 from sklearn.linear_model import LinearRegression, LogisticRegression
 from sklearn.ensemble import RandomForestRegressor, RandomForestClassifier
@@ -19,13 +20,30 @@ import logging
 # Set up logging
 logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
-# Load data
-logging.info("Loading data...")
 data = pd.read_csv('train_data.csv')
 # Feature Engineering
 logging.info("Performing feature engineering...")
-data['posting_time_encoded'] = pd.to_datetime(data['posting_time']).astype(int) / 10**9
 data['caption_length'] = data['caption'].apply(len)
 data['hashtag_count'] = data['hashtags'].apply(lambda x: len(eval(x)))
 data['viral'] = data['engagement_rate'].apply(lambda x: 1 if x > data['engagement_rate'].quantile(0.75) else 0)

 import pandas as pd
 import numpy as np
+import json
 from sklearn.model_selection import train_test_split
 from sklearn.linear_model import LinearRegression, LogisticRegression
 from sklearn.ensemble import RandomForestRegressor, RandomForestClassifier
 # Set up logging
 logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
+# Load Instagram data
+logging.info("Loading Instagram data...")
 data = pd.read_csv('train_data.csv')
+# Debug: Inspect the posting_time column
+logging.info("Inspecting posting_time column...")
+print(data['posting_time'].head())
+# Parse the posting_time column
+logging.info("Parsing posting_time column...")
+data['posting_time'] = pd.to_datetime(data['posting_time'], format='%Y-%m-%d %H:%M:%S', errors='coerce')
+# Check for NaT values (invalid datetime entries)
+if data['posting_time'].isna().any():
+    logging.warning(f"Found {data['posting_time'].isna().sum()} invalid datetime entries. They will be set to NaT.")
+# Convert to Unix timestamp
+logging.info("Converting posting_time to Unix timestamp...")
+data['posting_time_encoded'] = data['posting_time'].astype(int) / 10**9
 # Feature Engineering
 logging.info("Performing feature engineering...")
 data['caption_length'] = data['caption'].apply(len)
 data['hashtag_count'] = data['hashtags'].apply(lambda x: len(eval(x)))
 data['viral'] = data['engagement_rate'].apply(lambda x: 1 if x > data['engagement_rate'].quantile(0.75) else 0)