import pandas as pd
import joblib
from sklearn.ensemble import RandomForestRegressor

# 📌 1. Lade die Daten
df = pd.read_csv("original_apartment_data_analytics_hs24_with_lat_lon.csv")

# 📌 2. Erstelle das Feature "has_balcony"
df['has_balcony'] = df['description_raw'].str.contains('Balkon', case=False, na=False).astype(int)

# 📌 3. Wähle nur die gewünschten Features
features = ['rooms', 'area', 'pop_dens', 'has_balcony']
X = df[features]  
y = df['price']  # Falls 'price' die Zielvariable ist, sonst anpassen!

# 📌 4. Trainiere das Modell mit nur diesen Features
random_forest_model = RandomForestRegressor(random_state=42)
random_forest_model.fit(X, y)

# 📌 5. Speichere das Modell unter NEUEM Namen
model_filename = "random_forest_regression_neu.pkl"
joblib.dump(random_forest_model, model_filename)

print(f"✅ Modell wurde mit den neuen Features trainiert und gespeichert als: {model_filename}")