Spaces:

Wikidepia
/

IndoPara-Gen

Runtime error

App Files Files Community

Wikidepia commited on Sep 4, 2021

Commit

654d2fa

0 Parent(s):

Initial commit

Browse files

Files changed (5) hide show

.gitattributes +27 -0
README.md +9 -0
app/__init__.py +0 -0
app/app.py +56 -0
requirements.txt +1 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,27 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bin.* filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zstandard filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,9 @@

+---
+title: Indonesian Paraphrase Generation
+emoji: 🧬
+colorFrom: blue
+colorTo: red
+sdk: streamlit
+app_file: app/app.py
+pinned: true
+---

app/__init__.py ADDED Viewed

File without changes

app/app.py ADDED Viewed

	@@ -0,0 +1,56 @@

+import os
+from typing import List
+import streamlit as st
+from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
+os.environ["TOKENIZERS_PARALLELISM"] = "false"
+@st.cache(allow_output_mutation=True)
+def load_model(model_name):
+    tokenizer = AutoTokenizer.from_pretrained(model_name)
+    model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
+    return model, tokenizer
+def paraphrase(model, encoding, top_k=120, top_p=0.95, max_len=120) -> List[str]:
+    outputs = model.generate(
+        input_ids=encoding["input_ids"],
+        attention_mask=encoding["attention_mask"],
+        do_sample=True,
+        top_k=top_k,
+        top_p=top_p,
+        max_length=max_len,
+        early_stopping=True,
+        num_return_sequences=5,
+    )
+    return [
+        tokenizer.decode(
+            output, skip_special_tokens=True, clean_up_tokenization_spaces=True
+        )
+        for output in outputs
+    ]
+if __name__ == "__main__":
+    st.header("Indonesian Paraphrase Generation")
+    user_input = st.text_area("Original Sentence", "", height=30)
+    # Slider for max_len
+    st.sidebar.header("Decoding Settings")
+    max_len = st.sidebar.slider("Max-Length", 0, 512, 256)
+    top_k = st.sidebar.slider("Top-K", 0, 512, 200)
+    top_p = st.sidebar.slider("Top-P", 0.0, 1.0, 0.95)
+    if st.button("Paraphrase") or user_input:
+        with st.spinner("T5 is processing your text..."):
+            model, tokenizer = load_model("Wikidepia/IndoT5-base-paraphrase")
+            text = "paraphrase: " + user_input + " </s>"
+            encode_id = tokenizer(text, return_tensors="pt")
+            outputs = paraphrase(
+                model, encode_id, top_k=top_k, top_p=top_p, max_len=max_len
+            )
+            st.markdown("### Hasil Parafrase")
+            for i, output in enumerate(outputs):
+                st.markdown(f"- {output}")

requirements.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ streamlit==0.80.0