Spaces:

veridetta
/

perpus

Runtime error

App Files Files Community

perpus / app.py

veridetta

rname

c0be56b about 3 years ago

raw

history blame contribute delete

5.95 kB

	import streamlit as st
	import pandas as pd
	from pomegranate import DiscreteDistribution, HiddenMarkovModel
	import matplotlib.pyplot as plt
	import hmmlearn.hmm as hmm
	import numpy as np

	kolom = None
	# Membuat form input untuk file csv tahun sebelumnya
	file_sebelumnya = st.file_uploader("Upload file csv tahun sebelumnya", type="csv")
	# Membuat tombol untuk menampilkan data awal 10 dari file csv tahun sebelumnya
	if file_sebelumnya:
	df_sebelumnya = pd.read_csv(file_sebelumnya)
	if st.button("Tampilkan data awal 10 dari file csv tahun sebelumnya"):
	st.write("Data awal 10 dari file csv tahun sebelumnya:")
	st.write(df_sebelumnya.head(10))
	# Membuat form input untuk file csv tahun sekarang
	file_sekarang = st.file_uploader("Upload file csv tahun sekarang", type="csv")
	# Membuat tombol untuk menampilkan data awal 10 dari file csv tahun sekarang
	if file_sekarang:
	df_sekarang = pd.read_csv(file_sekarang)
	if st.button("Tampilkan data awal 10 dari file csv tahun sekarang"):
	st.write("Data awal 10 dari file csv tahun sekarang:")
	st.write(df_sekarang.head(10))
	# Membuat form input untuk memilih kolom yang akan dicari kata kunci
	if file_sebelumnya and file_sekarang:
	kolom = st.selectbox("Pilih kolom yang akan dicari kata kunci", df_sebelumnya.columns)

	# Membuat form input untuk memasukkan kata kunci
	if kolom!= None:
	keyword = st.text_input("Masukkan kata kunci")

	# Membuat tombol untuk menampilkan jumlah keyword yang cocok
	if file_sebelumnya and file_sekarang and kolom and keyword:
	if st.button("Tampilkan jumlah keyword"):
	# Menghitung jumlah kemunculan kata kunci pada file csv tahun sebelumnya
	jumlah_sebelumnya = df_sebelumnya[kolom].str.contains(keyword, case=False).sum()

	# Menghitung jumlah kemunculan kata kunci pada file csv tahun sekarang
	jumlah_sekarang = df_sekarang[kolom].str.contains(keyword, case=False).sum()

	# Menampilkan hasil
	st.write(f"Jumlah keyword '{keyword}' pada file csv tahun sebelumnya: {jumlah_sebelumnya}")
	st.write(f"Jumlah keyword '{keyword}' pada file csv tahun sekarang: {jumlah_sekarang}")

	if file_sebelumnya and file_sekarang and kolom and keyword:
	if st.button("Prediksi data untuk tahun berikutnya"):
	# Membaca data tahun sebelumnya dan tahun sekarang
	data = pd.concat([df_sebelumnya[kolom], df_sekarang[kolom]], ignore_index=True)
	#data_bersih = pd.concat([df_sebelumnya, df_sekarang],ignore_index=True)
	#st.write(data_bersih.head(10))
	# Menghitung frekuensi kemunculan setiap kata pada data
	freq = {}
	for d in data:
	d_str = str(d)
	for w in d_str.split():
	freq[w] = freq.get(w, 0) + 1

	# Membuat model HMM
	states = list(freq.keys())

	# Menghitung total jumlah baris pada tabel yang cocok dengan keyword
	total_data_sebelumnya = df_sebelumnya[kolom].str.contains(keyword, case=False).sum()
	total_data_sekarang = df_sekarang[kolom].str.contains(keyword, case=False).sum()

	# Membuat tabel dengan no, keyword, total judul yang cocok, dan total data yang cocok
	no = []
	keyword_list = []
	tb_data_sebelumnya = []
	tb_data_sekarang = []
	total_data = []

	for i, s in enumerate(states):
	if keyword in s:
	no.append(i+1)
	keyword_list.append(s)
	tb_data_sebelumnya.append(sum(df_sebelumnya[kolom].str.contains(s, case=False).dropna()))
	tb_data_sekarang.append( sum(df_sekarang[kolom].str.contains(s, case=False).dropna()))
	#total_data.append(total_data_sebelumnya + total_data_sekarang)
	total_data.append(sum(df_sebelumnya[kolom].str.contains(s, case=False).dropna()) + sum(df_sekarang[kolom].str.contains(s, case=False).dropna()))

	df = pd.DataFrame({"no": range(1, len(keyword_list)+1), "keyword": keyword_list, "data tahun sebelumnya": tb_data_sebelumnya, "data tahun sekarang": tb_data_sekarang, "total data": total_data})
	# tambahkan kolom total data
	df.loc[len(df)] = ['', 'Total', sum(df['data tahun sebelumnya']), sum(df['data tahun sekarang']),sum(df['total data'])]
	st.write(df)
	X = df[['data tahun sebelumnya', 'data tahun sekarang', 'total data']].to_numpy()

	# Inisialisasi Model HMM
	n_components = min(1, len(df))
	st.write(n_components)
	model = hmm.GaussianHMM(n_components=n_components, covariance_type="diag", n_iter=160)

	# Mengatur nilai awal transisi antar-states
	model.transmat_ = np.ones((n_components, n_components)) / n_components

	# Melatih Model HMM
	model.fit(X)

	# Normalisasi matriks transisi
	model.transmat_ = model.transmat_ / model.transmat_.sum(axis=1)[:, np.newaxis]

	# Prediksi Peminjaman Buku Tahun Berikutnya
	next_year_data = np.array([[200, 300, 500]])

	predicted_data = []
	for i in range(next_year_data.shape[1]):
	next_month_data = next_year_data[:, i].reshape(-1, 1)
	predicted_state = model.predict(next_month_data)
	predicted_data.append(model.means_[predicted_state][0][0])

	#st.write(predicted_data)

	# Membuat grafik prediksi menggunakan HMM
	plt.figure(figsize=(12, 6))
	plt.title("Grafik prediksi menggunakan HMM")
	plt.xlabel("Tahun")
	plt.ylabel("Jumlah data yang cocok")
	plt.xticks([0, 1, 2], ["Tahun Sebelumnya", "Tahun Sekarang", "Tahun Berikutnya"])
	plt.bar([0, 1, 2], [total_data_sebelumnya, total_data_sekarang, predicted_data[2]])
	plt.show()
	st.set_option('deprecation.showPyplotGlobalUse', False)
	# Menampilkan grafik
	st.pyplot()
	st.write(f"Pinjaman buku untuk tahun berikutnya dari keyword: '{keyword}' adalah '{predicted_data[2]}'")