Upload 6 files

Browse files

Files changed (7) hide show

.gitattributes +1 -0
README.md +72 -1
app.py +22 -0
consumer_complaints_100k.csv +3 -0
model.pkl +3 -0
model.py +77 -0
requirements.txt +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+consumer_complaints_100k.csv filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -1,3 +1,74 @@
 ---
-license: mit
 ---

+README.md
+# 📝 Consumer Complaint Classification with Machine Learning
+Bu proje, tüketicilerin yazdığı şikayet metinlerini analiz ederek, hangi ürünle ilgili olduğunu otomatik olarak tahmin etmeyi amaçlayan bir doğal dil işleme (NLP) projesidir.
+Makine öğrenmesi kullanılarak, tüketici şikayetlerinden `Product` sınıfı tahmin edilmiştir (örneğin: Mortgage, Credit Card, Bank Account).
 ---
+## 📌 Proje Hedefi
+Kullanıcının yazdığı şikayet metnine göre ilgili ürün kategorisini tahmin etmek.
+Bu sayede müşteri hizmetlerinde sınıflandırma süreci otomatikleştirilebilir.
 ---
+## 🧠 Kullanılan Yöntemler
+1. **Veri Okuma ve Temizleme**
+   - İlk 100.000 satır kullanıldı (`consumer_complaints.csv`)
+   - Eksik (`NaN`) veriler çıkarıldı
+   - `Consumer complaint narrative` ve `Product` sütunları kullanıldı
+2. **Doğal Dil İşleme (NLP)**
+   - TF-IDF vektörleştirme (en fazla 5000 kelime)
+   - İngilizce durak kelimeler çıkarıldı
+3. **Model Eğitimi**
+   - Model: `Logistic Regression`
+   - Eğitim/Test oranı: %80 / %20
+   - Performans: `classification_report` ile ölçüldü
+4. **Model Kaydı**
+   - Model + TF-IDF Vectorizer → `model.pkl` dosyasına kaydedildi
+5. **Streamlit Uygulaması**
+   - Kullanıcıdan metin alır
+   - Model tahmini gösterir
+   - Anında çalıştırılabilir arayüz
+---
+## 🚀 Nasıl Çalıştırılır?
+### 1. Gereksinimleri yükle
+```bash
+pip install -r requirements.txt
+📦 Kullanılan Dosyalar
+Dosya	Açıklama
+consumer_complaints_100k.csv	Veri setinin ilk 100.000 satırı
+model.py	Model eğitimi ve .pkl kaydı
+model.pkl	Eğitilmiş model ve TF-IDF
+app.py	Streamlit kullanıcı arayüzü
+requirements.txt	Gerekli kütüphaneler listesi
+README.md	Proje açıklaması
+🧪 Örnek Kullanım
+I was charged extra fees and my credit card was closed without notice.
+Tahmini ürün:
+Credit card or prepaid card
+ Eğitim Amacı
+Bu proje eğitim amacıyla geliştirilmiştir. Gerçek dünyada kullanılmadan önce daha büyük veri ile model iyileştirme, sınıf dengesizliği çözümü, ileri NLP teknikleri ve hiperparametre optimizasyonu yapılması önerilir
+🪪 Lisans
+MIT License

app.py ADDED Viewed

	@@ -0,0 +1,22 @@

+import streamlit as st
+import pickle
+# Model ve TF-IDF yükle
+with open("model.pkl", "rb") as f:
+    model, vectorizer = pickle.load(f)
+st.title("📝 Consumer Complaint Classifier")
+st.subheader("Tahmin Et: Bu şikayet hangi ürünle ilgili?")
+# Kullanıcıdan şikayet metni al
+complaint_text = st.text_area("Şikayet metnini buraya yazın...")
+if st.button("Tahmin Et"):
+    if complaint_text.strip() == "":
+        st.warning("Lütfen bir metin girin.")
+    else:
+        # TF-IDF ile dönüştür
+        input_vec = vectorizer.transform([complaint_text])
+        # Tahmin yap
+        prediction = model.predict(input_vec)[0]
+        st.success(f"📦 Tahmini Ürün: **{prediction}**")

consumer_complaints_100k.csv ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ca6993cf249a8ef1f57461ed74669319ffb0f7ce7ad995ec668b6b996ec0ce35
+size 41279771

model.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a6937cc690c11afe5ea7bcb4fc253d98acece7d750897ebceb1d390a0c63381a
+size 866827

model.py ADDED Viewed

	@@ -0,0 +1,77 @@

+import pandas as pd
+from sklearn.model_selection import train_test_split
+from sklearn.feature_extraction.text import TfidfVectorizer
+from sklearn.linear_model import LogisticRegression
+from sklearn.metrics import classification_report
+import pickle
+# 1. Veri yükleme
+df = pd.read_csv("consumer_complaints_100k.csv")
+# 2. Sütun adlarını düzelt
+df.columns = df.columns.str.strip()
+# 3. Gerekli sütunları seç (Boş olmayanlar)
+df = df[['Consumer complaint narrative', 'Product']].dropna()
+# 4. Giriş ve hedef verileri ayır
+X = df['Consumer complaint narrative']
+y = df['Product']
+# 5. TF-IDF vektörleştirici
+vectorizer = TfidfVectorizer(stop_words='english', max_features=5000)
+X_vec = vectorizer.fit_transform(X)
+# 6. Eğitim / test bölmesi
+X_train, X_test, y_train, y_test = train_test_split(X_vec, y, test_size=0.2, random_state=42)
+# 7. Model oluştur ve eğit
+model = LogisticRegression(max_iter=1000)
+model.fit(X_train, y_train)
+# 8. Performans raporu
+y_pred = model.predict(X_test)
+print("\nClassification Report:\n")
+print(classification_report(y_test, y_pred))
+# 9. Model ve vectorizer'ı kaydet
+with open("model.pkl", "wb") as f:
+    pickle.dump((model, vectorizer), f)
+print("\n✅ Model başarıyla eğitildi ve 'model.pkl' dosyasına kaydedildi.")
+# İlk 100.000 satırı kullanır
+# Sütun isimlerini düzeltir
+# Eksik verileri temizler
+# TF-IDF ile metni sayısallaştırır
+# Logistic Regression ile model eğitir
+# Modeli ve TF-IDF vektörizerini .pkl dosyasına kaydeder

requirements.txt ADDED Viewed

	@@ -0,0 +1,3 @@

+streamlit
+pandas
+scikit-learn