Spaces:

versus666
/

uplift_lab

Sleeping

App Files Files Community

HardWorkingStation commited on Jul 15, 2022

Commit

3fd6b1d

0 Parent(s):

Initial commit

Browse files

Files changed (4) hide show

.gitignore +1 -0
src/test.ipynb +0 -0
src/tools.py +43 -0
src/web_app.py +15 -0

.gitignore ADDED Viewed

	@@ -0,0 +1 @@


1	+ /venv

src/test.ipynb ADDED Viewed

The diff for this file is too large to render. See raw diff

src/tools.py ADDED Viewed

	@@ -0,0 +1,43 @@

+from typing import Any
+import pandas as pd
+from sklearn.model_selection import train_test_split
+from sklift.datasets import fetch_lenta
+from catboost import CatBoostClassifier
+import sklearn
+import streamlit as st
+@st.experimental_memo
+def get_data() -> sklearn.utils._bunch.Bunch:
+	treat_dict = {
+		'test':    1,
+		'control': 0
+	}
+	# получаем датасет
+	dataset = fetch_lenta()
+	# преобразуем строковые значения колонки в числовыые значения
+	dataset.treatment = dataset.treatment.map(treat_dict)
+	# заполняем пропуски
+	dataset.data['gender'] = dataset.data['gender'].fillna(value='Не определен')
+	dataset.data['children'] = dataset.data['children'].fillna(0).astype('int')
+	dataset.data['age'] = dataset.data['age'].fillna(0).astype('int')
+	dataset.data['months_from_register'] = dataset.data['months_from_register'].fillna(0).astype('int')
+	return dataset
+@st.experimental_memo
+def data_split(data, treatment, target) -> tuple[Any, Any, Any, Any, Any, Any]:
+	# склеиваем threatment и target для дальнейшей стратификации по ним
+	stratify_cols = pd.concat([treatment, target], axis=1)
+	# сплитим датасет
+	X_train, X_val, trmnt_train, trmnt_val, y_train, y_val = train_test_split(
+		data,
+		treatment,
+		target,
+		stratify=stratify_cols,
+		test_size=0.3,
+		random_state=42
+	)
+	return X_train, X_val, trmnt_train, trmnt_val, y_train, y_val

src/web_app.py ADDED Viewed

	@@ -0,0 +1,15 @@

+import streamlit as st
+import tools
+from time import sleep
+norm_columns = ['age', 'children', 'gender', 'main_format', 'months_from_register', 'response_sms', 'response_viber']
+dataset = tools.get_data()
+st.title('Uplift lab')
+st.write('Какие данные выбрать для рассылки?')
+st.write(dataset.data[norm_columns].head())
+columns = st.multiselect(options=norm_columns, label='Выберите признак')
+age = st.select_slider(label='', options=range(1, 101), value=[18, 100])
+st.write(dataset.data[dataset.data['age'].isin(age)][norm_columns])