Spaces:

noranisa
/

MineLit

Sleeping

App Files Files Community

noranisa commited on Aug 7, 2025

Commit

e953a19

verified ·

1 Parent(s): 5c6a397

Update app.py

Browse files

Files changed (1) hide show

app.py +21 -171

app.py CHANGED Viewed

@@ -1,212 +1,62 @@
 import os
-import re
-import io
-import base64
 from flask import Flask, render_template, request, redirect, url_for
 from serpapi import GoogleSearch
 from dotenv import load_dotenv
-# NLP & Data Science Libraries
-import nltk
-from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
-from sklearn.decomposition import LatentDirichletAllocation
-from wordcloud import WordCloud
-import matplotlib
-matplotlib.use('Agg') # Set non-interactive backend for Matplotlib
-import matplotlib.pyplot as plt
-# Import library NLTK
-from nltk.corpus import stopwords
-# --- JARING PENGAMAN: Pastikan data NLTK ada ---
-# Ini adalah blok "fallback" yang paling penting.
-# Ia akan mencoba memuat data. Jika gagal (karena build Docker gagal),
-# ia akan mengunduhnya saat runtime.
-try:
-    # Coba akses data. Ini akan memicu LookupError jika tidak ada.
-    stopwords.words('indonesian')
-except LookupError:
-    # Jika terjadi error, berarti data tidak ada.
-    print("Data 'stopwords' tidak ditemukan saat startup, mengunduh sekarang...")
-    # Unduh data. NLTK akan menggunakan ENV NLTK_DATA dari Dockerfile.
-    nltk.download('stopwords')
-    print("Download 'stopwords' selesai.")
-# ----------------------------------------------------
-# --- Flask App Setup ---
-# Muat environment variable dari file .env (untuk pengembangan lokal)
 load_dotenv()
-# Inisialisasi aplikasi Flask
 app = Flask(__name__)
-# Ambil API key dari environment variable (Secrets di Hugging Face)
 SERPAPI_API_KEY = os.getenv("SERPAPI_API_KEY")
-# Pengecekan keamanan: pastikan API Key ada, jika tidak, aplikasi akan berhenti
 if not SERPAPI_API_KEY:
-    raise ValueError("Environment variable 'SERPAPI_API_KEY' tidak ditemukan. Pastikan sudah diatur di secrets Hugging Face.")
-# --- Helper Functions ---
-def generate_wordcloud(text):
-    """
-    Membuat gambar Word Cloud dari gabungan teks dan mengembalikannya
-    sebagai string base64 yang bisa ditampilkan di HTML.
-    """
-    if not text:
-        return None
-    # Ambil daftar stopwords (kata-kata umum) Bahasa Indonesia
-    stop_words_id = stopwords.words('indonesian')
-    # Konfigurasi dan buat objek WordCloud
-    wordcloud = WordCloud(
-        width=800,
-        height=400,
-        background_color='white',
-        stopwords=stop_words_id,
-        colormap='viridis',
-        max_words=100, # Batasi jumlah kata untuk kejelasan
-        contour_width=3,
-        contour_color='steelblue'
-    ).generate(text)
-    # Simpan gambar ke dalam buffer memori, bukan ke file
-    img = io.BytesIO()
-    wordcloud.to_image().save(img, 'PNG')
-    img.seek(0)
-    # Encode gambar menjadi string base64 agar bisa disisipkan di HTML
-    img_b64 = base64.b64encode(img.getvalue()).decode()
-    return img_b64
-# --- Flask Routes ---
 @app.route('/')
 def index():
-    """
-    Menampilkan halaman utama dengan form pencarian.
-    Akan merender file: templates/index.html
-    """
     return render_template('index.html')
 @app.route('/cari', methods=['POST'])
 def cari():
-    """
-    Endpoint utama yang melakukan semua pekerjaan:
-    1. Memproses input dari form.
-    2. Memanggil SerpApi.
-    3. Melakukan analisis NLP.
-    4. Menampilkan halaman hasil dengan visualisasi.
-    Akan merender file: templates/hasil.html
-    """
-    # Ambil data dari form di halaman index.html
     topik = request.form.get('topik')
     tahun_awal = request.form.get('tahun_awal')
     tahun_akhir = request.form.get('tahun_akhir')
-    jumlah_data = request.form.get('jumlah_data', 10, type=int)
-    # Jika topik kosong, kembalikan pengguna ke halaman utama
     if not topik:
         return redirect(url_for('index'))
-    # 1. PERSIAPAN DAN PENCARIAN JURNAL DENGAN SERPAPI
     params = {
         "engine": "google_scholar",
-        "q": f'"{topik}" pertambangan',
-        "hl": "id",
-        "num": jumlah_data,
-        "as_ylo": tahun_awal,
-        "as_yhi": tahun_akhir,
         "api_key": SERPAPI_API_KEY
     }
     search = GoogleSearch(params)
     results = search.get_dict()
-    organic_results = results.get("organic_results", [])
-    # 2. PENGUMPULAN DATA UNTUK ANALISIS
-    # 'corpus' akan menyimpan semua cuplikan (snippet) teks
-    corpus = []
-    # 'trend_data' akan menyimpan jumlah publikasi per tahun
-    trend_data = {}
-    for item in organic_results:
-        snippet = item.get('snippet')
-        if snippet:
-            corpus.append(snippet)
-        # Ekstraksi tahun dari ringkasan publikasi menggunakan regular expression
-        year_str = item.get('publication_info', {}).get('summary', '')
-        year_match = re.search(r'\b(20\d{2})\b', year_str)
-        if year_match:
-            year_num = int(year_match.group(1))
-            trend_data[year_num] = trend_data.get(year_num, 0) + 1
-    # Urutkan data tren berdasarkan tahun untuk grafik yang benar
-    sorted_trend_data = dict(sorted(trend_data.items()))
-    # 3. PROSES NLP DAN VISUALISASI
-    # Inisialisasi variabel hasil analisis untuk dikirim ke template
-    tfidf_keywords = []
-    lda_topics = []
-    wordcloud_image = None
-    # Lakukan analisis hanya jika ada data yang berhasil dikumpulkan di corpus
-    if corpus:
-        # Gabungkan semua snippet menjadi satu teks besar untuk WordCloud
-        full_corpus_text = " ".join(corpus)
-        wordcloud_image = generate_wordcloud(full_corpus_text)
-        # Ambil daftar stopwords sekali lagi untuk digunakan di TF-IDF dan LDA
-        stop_words_id = stopwords.words('indonesian')
-        # --- Analisis TF-IDF (Term Frequency-Inverse Document Frequency) ---
-        try:
-            tfidf_vectorizer = TfidfVectorizer(max_df=0.85, max_features=50, stop_words=stop_words_id)
-            tfidf_matrix = tfidf_vectorizer.fit_transform(corpus)
-            feature_names = tfidf_vectorizer.get_feature_names_out()
-            total_tfidf_scores = tfidf_matrix.sum(axis=0).tolist()[0]
-            sorted_indices = sorted(range(len(total_tfidf_scores)), key=lambda k: total_tfidf_scores[k], reverse=True)
-            tfidf_keywords = [feature_names[i] for i in sorted_indices[:10]]
-        except ValueError:
-            # Tangani kasus jika corpus terlalu kecil atau tidak memiliki fitur
-            tfidf_keywords = ["Data tidak cukup untuk analisis TF-IDF"]
-        # --- Analisis LDA (Latent Dirichlet Allocation) untuk menemukan topik ---
-        try:
-            count_vectorizer = CountVectorizer(max_df=0.85, max_features=1000, stop_words=stop_words_id)
-            count_matrix = count_vectorizer.fit_transform(corpus)
-            # Tentukan jumlah topik, maksimal 5 atau sesuai jumlah dokumen jika kurang dari 5
-            num_topics = min(5, len(corpus))
-            if num_topics > 0:
-                lda = LatentDirichletAllocation(n_components=num_topics, random_state=42)
-                lda.fit(count_matrix)
-                lda_feature_names = count_vectorizer.get_feature_names_out()
-                for topic_idx, topic in enumerate(lda.components_):
-                    # Ambil 10 kata teratas untuk setiap topik
-                    top_words_indices = topic.argsort()[:-10 - 1:-1]
-                    top_words = [lda_feature_names[i] for i in top_words_indices]
-                    lda_topics.append({"topic_num": topic_idx + 1, "words": top_words})
-        except ValueError:
-            # Tangani kasus jika corpus terlalu kecil
-            lda_topics = []
-    # 4. KIRIM SEMUA DATA YANG DIKUMPULKAN DAN DIANALISIS KE HALAMAN HASIL
     return render_template(
         'hasil.html',
-        query=topik,
         results=organic_results,
-        total_results=results.get("search_information", {}).get("total_results", 0),
-        trend_data=sorted_trend_data,
-        wordcloud_image=wordcloud_image,
-        tfidf_keywords=tfidf_keywords,
-        lda_topics=lda_topics
     )
-# Blok ini hanya akan berjalan jika Anda menjalankan `python app.py` di komputer lokal
 if __name__ == '__main__':
     app.run(debug=True)

 import os
 from flask import Flask, render_template, request, redirect, url_for
 from serpapi import GoogleSearch
 from dotenv import load_dotenv
+# Muat environment variable dari file .env
 load_dotenv()
 app = Flask(__name__)
+# Ambil API key dari environment variable
 SERPAPI_API_KEY = os.getenv("SERPAPI_API_KEY")
+# Pastikan API Key ada
 if not SERPAPI_API_KEY:
+    raise ValueError("Tidak ada SERPAPI_API_KEY di file .env Anda!")
 @app.route('/')
 def index():
+    """Menampilkan halaman utama dengan form pencarian."""
     return render_template('index.html')
 @app.route('/cari', methods=['POST'])
 def cari():
+    """Memproses form, memanggil SerpApi, dan menampilkan hasil."""
     topik = request.form.get('topik')
     tahun_awal = request.form.get('tahun_awal')
     tahun_akhir = request.form.get('tahun_akhir')
+    jumlah_data = request.form.get('jumlah_data', 10, type=int) # Default 10 jika kosong
     if not topik:
+        # Jika topik kosong, kembali ke halaman utama
         return redirect(url_for('index'))
+    # Parameter untuk pencarian di Google Scholar menggunakan SerpApi
     params = {
         "engine": "google_scholar",
+        "q": f'"{topik}" pertambangan', # Menggabungkan topik dengan konteks "pertambangan"
+        "hl": "id",                     # Bahasa hasil: Indonesia
+        "num": jumlah_data,             # Jumlah hasil yang diinginkan
+        "as_ylo": tahun_awal,           # Tahun Awal (Year Low)
+        "as_yhi": tahun_akhir,          # Tahun Akhir (Year High)
         "api_key": SERPAPI_API_KEY
     }
+    # Lakukan pencarian
     search = GoogleSearch(params)
     results = search.get_dict()
+    # Ambil hasil organik (jurnal/artikel)
+    organic_results = results.get("organic_results", [])
+    # Kirim hasil ke template 'hasil.html' untuk ditampilkan
     return render_template(
         'hasil.html',
         results=organic_results,
+        query=topik,
+        total_results=results.get("search_information", {}).get("total_results", 0)
     )
 if __name__ == '__main__':
     app.run(debug=True)