Upload 4 files

Browse files

Files changed (4) hide show

README.md +65 -1
app.py +33 -0
ridge_model.pkl +3 -0
tfidf_vectorizer.pkl +3 -0

README.md CHANGED Viewed

@@ -1,3 +1,67 @@
 ---
-license: mit
 ---

+# 📝 Feedback Prize - English Language Learning (Basitleştirilmiş Versiyon)
+Bu proje, Kaggle'daki "Feedback Prize - English Language Learning" yarışmasına basitleştirilmiş bir çözüm sunar. Öğrenci kompozisyonlarından 6 dil becerisi tahmin edilir:
+- Cohesion
+- Syntax
+- Vocabulary
+- Phraseology
+- Grammar
+- Conventions
 ---
+## 📁 Kullanılan Veri Seti
+- `train.csv`: Öğrenci yazıları ve puanlar
+- `test.csv`: Tahmin yapılacak yazılar
+- `sample_submission.csv`: Örnek çıktı formatı
+Veriler [Kaggle yarışma sayfasından](https://www.kaggle.com/competitions/feedback-prize-english-language-learning/data) indirilebilir.
 ---
+## 🔧 Kullanılan Yöntemler
+- **TF-IDF** ile metin vektörleştirme
+- **Ridge Regression** ile çoklu puan tahmini
+- `MultiOutputRegressor` ile 6 hedefin aynı anda öğrenilmesi
+- Basit ve etkili yaklaşım (RMSE ≈ 0.56)
+---
+## 💻 Streamlit Uygulaması
+```bash
+streamlit run app.py
+📦 Kurulum
+pip install -r requirements.txt
+🧠 Model ve Vektörleştirici
+ridge_model.pkl: Eğitilmiş regresyon modeli
+tfidf_vectorizer.pkl: TF-IDF ile kelime temsilleri
+📤 Kaggle Submission
+Model, test.csv üzerinde tahmin yaparak submission.csv dosyasını üretir. Bu dosya doğrudan Kaggle'a yüklenebilir.📌 Geliştirilebilirlik
+Daha güçlü NLP modelleri (BERT, DeBERTa)
+Ensemble yaklaşımlar
+Tokenizer bazlı embedding’ler
+LSTM/Transformer tabanlı derin modeller
+🧑‍🎓 Amaç
+Bu proje, gerçek bir yarışmanın sadeleştirilmiş bir çözümünü anlamak, NLP modelleme sürecini öğrenmek ve üretilebilir bir prototip oluşturmak amacıyla geliştirilmiştir.
+🏷️ Lisans
+MIT License

app.py ADDED Viewed

	@@ -0,0 +1,33 @@

+# app.py
+import streamlit as st
+import pandas as pd
+import numpy as np
+import joblib
+from sklearn.feature_extraction.text import TfidfVectorizer
+from sklearn.linear_model import Ridge
+from sklearn.multioutput import MultiOutputRegressor
+# Başlık
+st.title("📝 English Essay Skill Predictor")
+st.markdown("Yazınızı girin, 6 dil puanını tahmin edelim (cohesion, syntax, etc.)")
+# Kullanıcıdan metin al
+user_text = st.text_area("✍️ Kompozisyonunuzu buraya yazın", height=250)
+# Model ve TF-IDF yükleme (önceden eğitilmiş)
+model = joblib.load("ridge_model.pkl")
+tfidf = joblib.load("tfidf_vectorizer.pkl")
+# Tahmin butonu
+if st.button("📊 Tahmin Et"):
+    if user_text.strip() == "":
+        st.warning("Lütfen bir yazı girin.")
+    else:
+        # Vektörleştir
+        text_vec = tfidf.transform([user_text])
+        preds = model.predict(text_vec)[0]
+        # Sonuçları göster
+        labels = ['Cohesion', 'Syntax', 'Vocabulary', 'Phraseology', 'Grammar', 'Conventions']
+        for label, score in zip(labels, preds):
+            st.write(f"**{label}**: {round(score, 2)} / 5")

ridge_model.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:68c068bc0a684d581f4c350662cca089f2b7126a79c2ede0412fe075778b6743
+size 481432

tfidf_vectorizer.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fa30b4afda71944c53a5f76c65fea2c987763fbf43bb796f22ba328e5a5dce07
+size 371125