Chintan-Shah's picture
Update app.py
847ca07 verified
import gradio as gr
import pickle
with open('merges.pkl','rb') as merges_file:
merges = pickle.load(merges_file)
with open('vocab.pkl', 'rb') as vocab_file:
vocab = pickle.load(vocab_file)
def get_stats(ids):
counts = {}
for pair in zip(ids, ids[1:]):
counts[pair] = counts.get(pair, 0) + 1
return counts
def merge(ids, pair, idx):
i = 0
newids = []
while i < len(ids):
if i < len(ids) - 1 and ids[i] == pair[0] and ids[i+1] == pair[1]:
newids.append(idx)
i += 2
else:
newids.append(ids[i])
i += 1
return newids
def decode(ids):
# given ids (list of integers), return Python string
tokens = b"".join(vocab[idx] for idx in ids)
text = tokens.decode("utf-8", errors="replace")
return text
def encode(text):
# given a string, return list of integers (the tokens)
tokens = list(text.encode("utf-8"))
while len(tokens) >= 2:
stats = get_stats(tokens)
pair = min(stats, key=lambda p: merges.get(p, float("inf")))
if pair not in merges:
break # nothing else can be merged
idx = merges[pair]
tokens = merge(tokens, pair, idx)
return tokens
def getTokens(inputText):
tokens = list(inputText.encode("utf-8"))
while len(tokens) >= 2:
stats = get_stats(tokens)
pair = min(stats, key=lambda p: merges.get(p, float("inf")))
if pair not in merges:
break # nothing else can be merged
idx = merges[pair]
tokens = merge(tokens, pair, idx)
strTokens = []
for token in tokens:
strTokens.append(decode([token]))
# strTokens = ["काफिले", " में"," शमिल"," कों","टा"," विधा","यक"," कवासी"," लखमा"," के"," पी","एस","ओ"," को"," भी"," गोली"," लगने"," की"," जान","कारी"," सामने"," आ"," रही"," है","।"]
return tokens, strTokens
# lightblue, pink, truquoise, yellow, green, lavendar
# colorList = ['#CCC7F7', '#FE9900','#98F5F9', '#FFDE59','#C9FAB5','#E7DDFF']
colorList = ['rgb(253 230 138)', 'rgb(191 219 254)', 'rgb(165 243 252)', 'rgb(245 208 254)', 'rgb(229 231 235)', 'rgb(187 247 208)', 'rgb(199 210 254)', 'rgb(217 249 157)', 'rgb(254 215 170)', 'rgb(167 243 208)', 'rgb(251 207 232)', 'rgb(233 213 255)', 'rgb(239 68 68)', 'rgb(254 205 211)', 'rgb(254 240 138)', 'rgb(241 245 249)']
def getOutputText(inputText, tokens, strTokens):
i = 0
txtLen = len(inputText)
numTokens = len(strTokens)
outputString = """<html><head><style>h2 { font-size: 40px;} sub { vertical-align: sub; font-size: 4px;} span { font-size:16px;}</style></head><body><div><h2>Text length (in chars): """
outputString = outputString + str(txtLen) + """</h2><h2>Token count: """
outputString = outputString + str(numTokens) + """</h2><p> """
for strToken in strTokens:
colorNum = i % len(colorList)
chosencolor = colorList[colorNum]
outputString = outputString + "<span style='background-color:" + chosencolor + ";'> " + strToken + "<sub>" + str(tokens[i]) + "</sub></span>"
i = i + 1
outputString = outputString + """</p></body>"""
return outputString
def generateOutput(inputText):
tokens, strTokens = getTokens(inputText)
return(getOutputText(inputText, tokens, strTokens))
title = "Hindi Tokenizer from Scratch"
description = "Created Hindi Tokenizer from Scratch"
examples = [["काफिले में शमिल कोंटा विधायक कवासी लखमा के पीएसओ को भी गोली लगने की जानकारी सामने आ रही है।"], ["Test sentence."],
["आप लोकसभा में नेता प्रतिपक्ष और राज्यसभा में नेता प्रतिपक्ष के खिलाफ अपने द्वारा लगाए गए आरोपों के सम्बंध में कोई पर्याप्त कारण नहीं पेश कर पाए।"],
["इस वाक्य का अनुवाद गूगल100 ट्रांसलेट द्वारा किया जा रहा है।😅"],
["अमेरिका इस्लामाबाद पर अफगानिस्तान में इस्तेमाल होने वाले पाकिस्तान निर्मित आईआईडी के मुद्दे के समाधान का जोर डाल रहा है जो दोनों देशों के बीच अलगाव का एक प्रमुख कारण बना हुआ है। अमेरिका के रक्षा मंत्री लियोन पेनेटा ने सांसदों से कल कहा कि यह आईईडी अफगानिस्तान में अमेरिकी सैनिकों के हताहत होने का एक प्रमुख कारण हैं तथा इन विस्फोटकों को पाकिस्तान में बनाया जाता है। सीनेट की सैन्य सेवा समिति के समक्ष पेनेटा ने कहा कि आईईडी की पाकिस्तान से आपूर्ति लगातार जारी है और यह वह मामला है जिसे रोकने के लिए कार्रवाई की जरूरत है।टिप्पणियां उन्होंने कहा, ‘हमने उन्हें (पाकिस्तान को) स्पष्ट कह दिया है, जहां यह तैयार होते हैं हमने उन जगहों की पहचान की है। हमने उन्हें विशेष क्षेत्रों के बारे में बता दिया है। हमने उनसे कदम उठाने (इस दिशा में) की अपील की है।’ पेनेटा ने कहा कि कुछ मामलों में आईईडी से संबंधित मुद्दा सुरक्षित स्थान के विस्तार से जुड़ा हुआ है। ज्वाइंट चीफ ऑफ स्टॉफ के अध्यक्ष जनरल मार्टिन डेंप्सी ने कहा कि पाकिस्तान के साथ अमेरिका के संबंध चुनौती बने हुए हैं। अमेरिका के रक्षा मंत्री लियोन पेनेटा ने सांसदों से कल कहा कि यह आईईडी अफगानिस्तान में अमेरिकी सैनिकों के हताहत होने का एक प्रमुख कारण हैं तथा इन विस्फोटकों को पाकिस्तान में बनाया जाता है। सीनेट की सैन्य सेवा समिति के समक्ष पेनेटा ने कहा कि आईईडी की पाकिस्तान से आपूर्ति लगातार जारी है और यह वह मामला है जिसे रोकने के लिए कार्रवाई की जरूरत है।टिप्पणियां उन्होंने कहा, ‘हमने उन्हें (पाकिस्तान को) स्पष्ट कह दिया है, जहां यह तैयार होते हैं हमने उन जगहों की पहचान की है। हमने उन्हें विशेष क्षेत्रों के बारे में बता दिया है। हमने उनसे कदम उठाने (इस दिशा में) की अपील की है।’ पेनेटा ने कहा कि कुछ मामलों में आईईडी से संबंधित मुद्दा सुरक्षित स्थान के विस्तार से जुड़ा हुआ है। ज्वाइंट चीफ ऑफ स्टॉफ के अध्यक्ष जनरल मार्टिन डेंप्सी ने कहा कि पाकिस्तान के साथ अमेरिका के संबंध चुनौती बने हुए हैं। सीनेट की सैन्य सेवा समिति के समक्ष पेनेटा ने कहा कि आईईडी की पाकिस्तान से आपूर्ति लगातार जारी है और यह वह मामला है जिसे रोकने के लिए कार्रवाई की जरूरत है।टिप्पणियां उन्होंने कहा, ‘हमने उन्हें (पाकिस्तान को) स्पष्ट कह दिया है, जहां यह तैयार होते हैं हमने उन जगहों की पहचान की है। हमने उन्हें विशेष क्षेत्रों के बारे में बता दिया है। हमने उनसे कदम उठाने (इस दिशा में) की अपील की है।’ पेनेटा ने कहा कि कुछ मामलों में आईईडी से संबंधित मुद्दा सुरक्षित स्थान के विस्तार से जुड़ा हुआ है। ज्वाइंट चीफ ऑफ स्टॉफ के अध्यक्ष जनरल मार्टिन डेंप्सी ने कहा कि पाकिस्तान के साथ अमेरिका के संबंध चुनौती बने हुए हैं। उन्होंने कहा, ‘हमने उन्हें (पाकिस्तान को) स्पष्ट कह दिया है, जहां यह तैयार होते हैं हमने उन जगहों की पहचान की है। हमने उन्हें विशेष क्षेत्रों के बारे में बता दिया है। हमने उनसे कदम उठाने (इस दिशा में) की अपील की है।’ पेनेटा ने कहा कि कुछ मामलों में आईईडी से संबंधित मुद्दा सुरक्षित स्थान के विस्तार से जुड़ा हुआ है। ज्वाइंट चीफ ऑफ स्टॉफ के अध्यक्ष जनरल मार्टिन डेंप्सी ने कहा कि पाकिस्तान के साथ अमेरिका के संबंध चुनौती बने हुए हैं। ज्वाइंट चीफ ऑफ स्टॉफ के अध्यक्ष जनरल मार्टिन डेंप्सी ने कहा कि पाकिस्तान के साथ अमेरिका के संबंध चुनौती बने हुए हैं।"],
["Stuck in a lift.. surprisingly getting 3G!! Is that even possible in Mumbai??! #TestTweet Yess i am fine.. dont worry..my manager is tryin to get me out.. just restless n hungry now.. :( https://t.co/kssmYVlcYl Ok i am out guys!! Finally! This took tooooooo long! But nothin to worry!! Thank you for the amazing and much needed time-pass getting into a meeting for which i am an hour late now"],
["ऋतिक रोशन (Hritik Roshan) की अपकमिंग फिल्म 'सुपर 30' (Super 30) में दर्शक अब उदित नारायण (Udit Narayan) की आवाज का भी लुत्फ उठा सकेंगे. हिंदी के मशहूर गायकार उदित नारायण (Udit Narayan) ने 'सुपर 30' (Super 30) के लिए 'जुगरफिया' गीत गाया है. इस गीत में मशहूर प्लेबैक सिंगर श्रेया घोषाल (Shreya Ghoshal) ने भी उदित नारायण का साथ दिया है. बताया जा रहा है कि फिल्म सुपर 30 का यह गाना एक रोमांटिक गाना है, जिसमें सिंगर उदित नारायण (Udit Narayan) श्रेया घोषाल की आवाज का जादू बिखेरा गया है."],
["अभिनेत्री पूजा डडवाल की मदद के लिए आगे आये @ravikishannpic.twitter.com/gP2bET2c2X"],
["Batla House Box Office Collection Day 6: बॉलीवुड एक्टर जॉन अब्राहम (John Abraham) की फिल्म 'बाटला हाउस (Batla House)' सिनेमाघरों में लगातार शानदार प्रदर्शन कर रही है. स्वतंत्रता दिवस के मौके पर रिलीज हुई जॉन अब्राहम (John Abraham) की फिल्म 'बाटला हाउस (Batla House)' 'मिशन मंगल' को भी खूब टक्कर दे रही है."]
]
demo = gr.Interface(
generateOutput,
inputs = [
gr.Textbox(),
],
outputs = [
gr.HTML(),
],
title = title,
description = description,
examples = examples,
cache_examples=False
)
demo.launch()