Spaces:

DINO00
/

api-hoax

Sleeping

App Files Files Community

DINO00 commited on Mar 15

Commit

c39208b

verified ·

1 Parent(s): ef2f1d5

Update api.py

Browse files

Files changed (1) hide show

api.py +41 -40

api.py CHANGED Viewed

@@ -6,15 +6,25 @@ import os
 import re
 import requests
 from bs4 import BeautifulSoup
-from tensorflow.keras.models import load_model
-from tensorflow.keras.preprocessing.sequence import pad_sequences
 import pickle
 app = FastAPI(
     title="API Deteksi Hoax Multi-Model",
     description="API untuk mendeteksi berita hoax menggunakan pilihan model.",
-    version="1.0.0"
 )
 app.add_middleware(
@@ -25,7 +35,7 @@ app.add_middleware(
     allow_headers=["*"],
 )
-# --- 1. LOAD KEDUA MODEL ---
 models = {
     "naive_bayes": None,
     "lstm": None
@@ -41,35 +51,36 @@ try:
 except Exception as e:
     print(f"Error loading Naive Bayes: {e}")
-# Load Model LSTM
-PATH_LSTM = 'lstm_fake_news_model.h5'
 try:
     if os.path.exists(PATH_LSTM):
         models["lstm"] = load_model(PATH_LSTM)
         print("Model LSTM berhasil dimuat!")
 except Exception as e:
     print(f"Error loading LSTM: {e}")
 # Load Tokenizer untuk LSTM
 PATH_TOKENIZER = 'tokenizer.pkl'
 try:
     if os.path.exists(PATH_TOKENIZER):
-        #tokenizer = joblib.load(PATH_TOKENIZER)
-        tokenizer = pickle.load(open(PATH_TOKENIZER, 'rb'))
         print("Tokenizer LSTM berhasil dimuat!")
 except Exception as e:
     print(f"Error loading Tokenizer: {e}")
-# --- 2. UPDATE SKEMA REQUEST ---
 class PredictRequest(BaseModel):
     input_text: str
-    model_type: str = "naive_bayes"  # Default pakai naive_bayes jika tidak dikirim
 def scrape_berita(url):
     """Fungsi pembaca halaman web (Scraper)"""
     try:
-        headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}
         response = requests.get(url, headers=headers, timeout=10)
         response.raise_for_status()
         soup = BeautifulSoup(response.content, 'html.parser')
@@ -82,11 +93,11 @@ def scrape_berita(url):
 @app.post("/predict")
 def deteksi_hoax_api(request: PredictRequest):
-    # --- 3. PILIH MODEL ---
     jenis_model = request.model_type
-    if jenis_model not in models:
-         raise HTTPException(status_code=400, detail="Pilihan model tidak valid. Gunakan 'naive_bayes' atau 'lstm'.")
     aktif_model = models[jenis_model]
     if aktif_model is None:
         raise HTTPException(status_code=500, detail=f"Model {jenis_model} tidak ditemukan di server.")
@@ -97,21 +108,22 @@ def deteksi_hoax_api(request: PredictRequest):
     if teks_mentah.startswith("http://") or teks_mentah.startswith("https://"):
         teks_untuk_dianalisis = scrape_berita(teks_mentah)
-        if teks_untuk_dianalisis.startswith("GAGAL:"):
-             raise HTTPException(status_code=400, detail=f"Gagal memproses URL: {teks_untuk_dianalisis}")
     else:
         teks_untuk_dianalisis = teks_mentah
-    # --- 4. PREDIKSI BERDASARKAN MODEL ---
     kamus_bobot = {}
     if jenis_model == "naive_bayes":
-        # Logika untuk algoritma scikit-learn
         proba = aktif_model.predict_proba([teks_untuk_dianalisis])[0]
         prob_fakta = float(proba[0])
         prob_hoax = float(proba[1])
-        # Ekstraksi kata untuk highlight Frontend (biasanya hanya ada pada model linier/Naive Bayes)
         try:
             vec = aktif_model[0]
             clf = aktif_model[1]
@@ -122,40 +134,29 @@ def deteksi_hoax_api(request: PredictRequest):
             pass
     elif jenis_model == "lstm":
-        # Pastikan tokenizer sudah berhasil dimuat sebelumnya
         if tokenizer is None:
             raise HTTPException(status_code=500, detail="Tokenizer model LSTM tidak ditemukan di server.")
-        # 1. Konversi Teks Teks ke Sequence Angka
         sequence = tokenizer.texts_to_sequences([teks_untuk_dianalisis])
-        # 2. Padding (Menyeragamkan panjang kalimat)
-        # PENTING: maxlen=100 adalah angka standar,
-        # namun Anda HARUS menyesuaikan ini dengan 'maxlen' yang Anda gunakan saat di file Jupyter/Colab waktu training model.
-        # Bisa jadi 100, 200, atau 500. Silakan cek ulang notebook Anda jika hasilnya kurang akurat.
-        MAX_LEN = 150
         padded_sequence = pad_sequences(sequence, maxlen=MAX_LEN, padding='post', truncating='post')
-        # 3. Prediksi Menggunakan .predict() BUKAN .predict_proba()
-        prediksi_mentah = aktif_model.predict(padded_sequence)[0]
-        # 4. Pengolahan Output Keras/TensorFlow
         if len(prediksi_mentah) >= 2:
-            # Jika model Anda Outputnya Softmax ([Prob_Fakta, Prob_Hoax])
             prob_fakta = float(prediksi_mentah[0])
             prob_hoax = float(prediksi_mentah[1])
         else:
-            # Jika model Anda Outputnya Sigmoid (1 nilai saja, misal 0.9 = 90% Hoax)
             nilai = float(prediksi_mentah[0])
             prob_hoax = nilai
             prob_fakta = 1.0 - nilai
-        # Model Deep Learning umumnya tidak memiliki log odds per-kata
-        # Maka highlight bedah kata kita biarkan kosong di backend
-    # Penentuan Highlight Kata (Akan berfungsi baik di Naive Bayes, dan jadi 'Netral' di LSTM jika tanpa LIME/SHAP)
     kata_kata = teks_untuk_dianalisis.split()
     teks_highlight = []
@@ -188,4 +189,4 @@ def deteksi_hoax_api(request: PredictRequest):
             }
         },
         "bedah_kata": teks_highlight
-    }

 import re
 import requests
 from bs4 import BeautifulSoup
 import pickle
+# --- 1. KERAS 3 COMPATIBILITY PATCH & IMPORTS ---
+import sys
+import keras
+# Patch darurat: Menjembatani Tokenizer lama (Keras 2) agar bisa dimuat di Keras 3
+# Ini mencegah error "No module named 'keras.src.preprocessing'"
+if 'keras.src.preprocessing' not in sys.modules:
+    sys.modules['keras.src.preprocessing'] = keras.preprocessing
+# Gunakan import standar Keras 3 (Backend Agnostic)
+from keras.models import load_model
+from keras.utils import pad_sequences  # Di Keras 3, pad_sequences pindah ke utils
 app = FastAPI(
     title="API Deteksi Hoax Multi-Model",
     description="API untuk mendeteksi berita hoax menggunakan pilihan model.",
+    version="1.0.1" # Versi update Keras 3
 )
 app.add_middleware(
     allow_headers=["*"],
 )
+# --- 2. LOAD KEDUA MODEL ---
 models = {
     "naive_bayes": None,
     "lstm": None
 except Exception as e:
     print(f"Error loading Naive Bayes: {e}")
+# Load Model LSTM (Format Keras 3)
+PATH_LSTM = 'lstm_fake_news_model.h5' # Atau .keras jika Anda menggunakan format baru
 try:
     if os.path.exists(PATH_LSTM):
         models["lstm"] = load_model(PATH_LSTM)
         print("Model LSTM berhasil dimuat!")
 except Exception as e:
     print(f"Error loading LSTM: {e}")
 # Load Tokenizer untuk LSTM
 PATH_TOKENIZER = 'tokenizer.pkl'
 try:
     if os.path.exists(PATH_TOKENIZER):
+        # Memuat tokenizer menggunakan pickle bawaan Python
+        with open(PATH_TOKENIZER, 'rb') as f:
+            tokenizer = pickle.load(f)
         print("Tokenizer LSTM berhasil dimuat!")
 except Exception as e:
     print(f"Error loading Tokenizer: {e}")
+# --- 3. SKEMA REQUEST & SCRAPER ---
 class PredictRequest(BaseModel):
     input_text: str
+    model_type: str = "naive_bayes"
 def scrape_berita(url):
     """Fungsi pembaca halaman web (Scraper)"""
     try:
+        headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'}
         response = requests.get(url, headers=headers, timeout=10)
         response.raise_for_status()
         soup = BeautifulSoup(response.content, 'html.parser')
 @app.post("/predict")
 def deteksi_hoax_api(request: PredictRequest):
+    # --- 4. VALIDASI INPUT ---
     jenis_model = request.model_type
+    if jenis_model not in models:
+        raise HTTPException(status_code=400, detail="Pilihan model tidak valid. Gunakan 'naive_bayes' atau 'lstm'.")
     aktif_model = models[jenis_model]
     if aktif_model is None:
         raise HTTPException(status_code=500, detail=f"Model {jenis_model} tidak ditemukan di server.")
     if teks_mentah.startswith("http://") or teks_mentah.startswith("https://"):
         teks_untuk_dianalisis = scrape_berita(teks_mentah)
+        if teks_untuk_dianalisis.startswith("GAGAL:"):
+            raise HTTPException(status_code=400, detail=f"Gagal memproses URL: {teks_untuk_dianalisis}")
     else:
         teks_untuk_dianalisis = teks_mentah
+    # --- 5. PREDIKSI BERDASARKAN MODEL ---
     kamus_bobot = {}
+    prob_fakta = 0.0
+    prob_hoax = 0.0
     if jenis_model == "naive_bayes":
         proba = aktif_model.predict_proba([teks_untuk_dianalisis])[0]
         prob_fakta = float(proba[0])
         prob_hoax = float(proba[1])
+        # Ekstraksi kata untuk highlight Frontend
         try:
             vec = aktif_model[0]
             clf = aktif_model[1]
             pass
     elif jenis_model == "lstm":
         if tokenizer is None:
             raise HTTPException(status_code=500, detail="Tokenizer model LSTM tidak ditemukan di server.")
+        # 1. Konversi Teks ke Sequence Angka
         sequence = tokenizer.texts_to_sequences([teks_untuk_dianalisis])
+        # 2. Padding
+        MAX_LEN = 150 # Sesuaikan dengan panjang saat training
         padded_sequence = pad_sequences(sequence, maxlen=MAX_LEN, padding='post', truncating='post')
+        # 3. Prediksi (Keras 3 mengembalikan array numpy standar)
+        prediksi_mentah = aktif_model.predict(padded_sequence, verbose=0)[0]
+        # 4. Pengolahan Output Keras 3
         if len(prediksi_mentah) >= 2:
             prob_fakta = float(prediksi_mentah[0])
             prob_hoax = float(prediksi_mentah[1])
         else:
             nilai = float(prediksi_mentah[0])
             prob_hoax = nilai
             prob_fakta = 1.0 - nilai
+    # --- 6. PENENTUAN HIGHLIGHT KATA ---
     kata_kata = teks_untuk_dianalisis.split()
     teks_highlight = []
             }
         },
         "bedah_kata": teks_highlight
+    }