|
|
import gradio as gr |
|
|
import pickle |
|
|
|
|
|
with open('merges.pkl','rb') as merges_file: |
|
|
merges = pickle.load(merges_file) |
|
|
|
|
|
with open('vocab.pkl', 'rb') as vocab_file: |
|
|
vocab = pickle.load(vocab_file) |
|
|
|
|
|
def get_stats(ids): |
|
|
counts = {} |
|
|
for pair in zip(ids, ids[1:]): |
|
|
counts[pair] = counts.get(pair, 0) + 1 |
|
|
return counts |
|
|
|
|
|
def merge(ids, pair, idx): |
|
|
i = 0 |
|
|
newids = [] |
|
|
while i < len(ids): |
|
|
if i < len(ids) - 1 and ids[i] == pair[0] and ids[i+1] == pair[1]: |
|
|
newids.append(idx) |
|
|
i += 2 |
|
|
else: |
|
|
newids.append(ids[i]) |
|
|
i += 1 |
|
|
|
|
|
return newids |
|
|
|
|
|
def decode(ids): |
|
|
|
|
|
tokens = b"".join(vocab[idx] for idx in ids) |
|
|
text = tokens.decode("utf-8", errors="replace") |
|
|
return text |
|
|
|
|
|
def encode(text): |
|
|
|
|
|
tokens = list(text.encode("utf-8")) |
|
|
while len(tokens) >= 2: |
|
|
stats = get_stats(tokens) |
|
|
pair = min(stats, key=lambda p: merges.get(p, float("inf"))) |
|
|
if pair not in merges: |
|
|
break |
|
|
idx = merges[pair] |
|
|
tokens = merge(tokens, pair, idx) |
|
|
return tokens |
|
|
|
|
|
def getTokens(inputText): |
|
|
tokens = list(inputText.encode("utf-8")) |
|
|
while len(tokens) >= 2: |
|
|
stats = get_stats(tokens) |
|
|
pair = min(stats, key=lambda p: merges.get(p, float("inf"))) |
|
|
if pair not in merges: |
|
|
break |
|
|
idx = merges[pair] |
|
|
tokens = merge(tokens, pair, idx) |
|
|
strTokens = [] |
|
|
for token in tokens: |
|
|
strTokens.append(decode([token])) |
|
|
|
|
|
return tokens, strTokens |
|
|
|
|
|
|
|
|
|
|
|
colorList = ['rgb(253 230 138)', 'rgb(191 219 254)', 'rgb(165 243 252)', 'rgb(245 208 254)', 'rgb(229 231 235)', 'rgb(187 247 208)', 'rgb(199 210 254)', 'rgb(217 249 157)', 'rgb(254 215 170)', 'rgb(167 243 208)', 'rgb(251 207 232)', 'rgb(233 213 255)', 'rgb(239 68 68)', 'rgb(254 205 211)', 'rgb(254 240 138)', 'rgb(241 245 249)'] |
|
|
def getOutputText(inputText, tokens, strTokens): |
|
|
i = 0 |
|
|
txtLen = len(inputText) |
|
|
numTokens = len(strTokens) |
|
|
outputString = """<html><head><style>h2 { font-size: 40px;} sub { vertical-align: sub; font-size: 4px;} span { font-size:16px;}</style></head><body><div><h2>Text length (in chars): """ |
|
|
outputString = outputString + str(txtLen) + """</h2><h2>Token count: """ |
|
|
outputString = outputString + str(numTokens) + """</h2><p> """ |
|
|
for strToken in strTokens: |
|
|
colorNum = i % len(colorList) |
|
|
chosencolor = colorList[colorNum] |
|
|
outputString = outputString + "<span style='background-color:" + chosencolor + ";'> " + strToken + "<sub>" + str(tokens[i]) + "</sub></span>" |
|
|
i = i + 1 |
|
|
outputString = outputString + """</p></body>""" |
|
|
return outputString |
|
|
|
|
|
def generateOutput(inputText): |
|
|
tokens, strTokens = getTokens(inputText) |
|
|
return(getOutputText(inputText, tokens, strTokens)) |
|
|
|
|
|
title = "Hindi Tokenizer from Scratch" |
|
|
description = "Created Hindi Tokenizer from Scratch" |
|
|
examples = [["काफिले में शमिल कोंटा विधायक कवासी लखमा के पीएसओ को भी गोली लगने की जानकारी सामने आ रही है।"], ["Test sentence."], |
|
|
["आप लोकसभा में नेता प्रतिपक्ष और राज्यसभा में नेता प्रतिपक्ष के खिलाफ अपने द्वारा लगाए गए आरोपों के सम्बंध में कोई पर्याप्त कारण नहीं पेश कर पाए।"], |
|
|
["इस वाक्य का अनुवाद गूगल100 ट्रांसलेट द्वारा किया जा रहा है।😅"], |
|
|
["अमेरिका इस्लामाबाद पर अफगानिस्तान में इस्तेमाल होने वाले पाकिस्तान निर्मित आईआईडी के मुद्दे के समाधान का जोर डाल रहा है जो दोनों देशों के बीच अलगाव का एक प्रमुख कारण बना हुआ है। अमेरिका के रक्षा मंत्री लियोन पेनेटा ने सांसदों से कल कहा कि यह आईईडी अफगानिस्तान में अमेरिकी सैनिकों के हताहत होने का एक प्रमुख कारण हैं तथा इन विस्फोटकों को पाकिस्तान में बनाया जाता है। सीनेट की सैन्य सेवा समिति के समक्ष पेनेटा ने कहा कि आईईडी की पाकिस्तान से आपूर्ति लगातार जारी है और यह वह मामला है जिसे रोकने के लिए कार्रवाई की जरूरत है।टिप्पणियां उन्होंने कहा, ‘हमने उन्हें (पाकिस्तान को) स्पष्ट कह दिया है, जहां यह तैयार होते हैं हमने उन जगहों की पहचान की है। हमने उन्हें विशेष क्षेत्रों के बारे में बता दिया है। हमने उनसे कदम उठाने (इस दिशा में) की अपील की है।’ पेनेटा ने कहा कि कुछ मामलों में आईईडी से संबंधित मुद्दा सुरक्षित स्थान के विस्तार से जुड़ा हुआ है। ज्वाइंट चीफ ऑफ स्टॉफ के अध्यक्ष जनरल मार्टिन डेंप्सी ने कहा कि पाकिस्तान के साथ अमेरिका के संबंध चुनौती बने हुए हैं। अमेरिका के रक्षा मंत्री लियोन पेनेटा ने सांसदों से कल कहा कि यह आईईडी अफगानिस्तान में अमेरिकी सैनिकों के हताहत होने का एक प्रमुख कारण हैं तथा इन विस्फोटकों को पाकिस्तान में बनाया जाता है। सीनेट की सैन्य सेवा समिति के समक्ष पेनेटा ने कहा कि आईईडी की पाकिस्तान से आपूर्ति लगातार जारी है और यह वह मामला है जिसे रोकने के लिए कार्रवाई की जरूरत है।टिप्पणियां उन्होंने कहा, ‘हमने उन्हें (पाकिस्तान को) स्पष्ट कह दिया है, जहां यह तैयार होते हैं हमने उन जगहों की पहचान की है। हमने उन्हें विशेष क्षेत्रों के बारे में बता दिया है। हमने उनसे कदम उठाने (इस दिशा में) की अपील की है।’ पेनेटा ने कहा कि कुछ मामलों में आईईडी से संबंधित मुद्दा सुरक्षित स्थान के विस्तार से जुड़ा हुआ है। ज्वाइंट चीफ ऑफ स्टॉफ के अध्यक्ष जनरल मार्टिन डेंप्सी ने कहा कि पाकिस्तान के साथ अमेरिका के संबंध चुनौती बने हुए हैं। सीनेट की सैन्य सेवा समिति के समक्ष पेनेटा ने कहा कि आईईडी की पाकिस्तान से आपूर्ति लगातार जारी है और यह वह मामला है जिसे रोकने के लिए कार्रवाई की जरूरत है।टिप्पणियां उन्होंने कहा, ‘हमने उन्हें (पाकिस्तान को) स्पष्ट कह दिया है, जहां यह तैयार होते हैं हमने उन जगहों की पहचान की है। हमने उन्हें विशेष क्षेत्रों के बारे में बता दिया है। हमने उनसे कदम उठाने (इस दिशा में) की अपील की है।’ पेनेटा ने कहा कि कुछ मामलों में आईईडी से संबंधित मुद्दा सुरक्षित स्थान के विस्तार से जुड़ा हुआ है। ज्वाइंट चीफ ऑफ स्टॉफ के अध्यक्ष जनरल मार्टिन डेंप्सी ने कहा कि पाकिस्तान के साथ अमेरिका के संबंध चुनौती बने हुए हैं। उन्होंने कहा, ‘हमने उन्हें (पाकिस्तान को) स्पष्ट कह दिया है, जहां यह तैयार होते हैं हमने उन जगहों की पहचान की है। हमने उन्हें विशेष क्षेत्रों के बारे में बता दिया है। हमने उनसे कदम उठाने (इस दिशा में) की अपील की है।’ पेनेटा ने कहा कि कुछ मामलों में आईईडी से संबंधित मुद्दा सुरक्षित स्थान के विस्तार से जुड़ा हुआ है। ज्वाइंट चीफ ऑफ स्टॉफ के अध्यक्ष जनरल मार्टिन डेंप्सी ने कहा कि पाकिस्तान के साथ अमेरिका के संबंध चुनौती बने हुए हैं। ज्वाइंट चीफ ऑफ स्टॉफ के अध्यक्ष जनरल मार्टिन डेंप्सी ने कहा कि पाकिस्तान के साथ अमेरिका के संबंध चुनौती बने हुए हैं।"], |
|
|
["Stuck in a lift.. surprisingly getting 3G!! Is that even possible in Mumbai??! #TestTweet Yess i am fine.. dont worry..my manager is tryin to get me out.. just restless n hungry now.. :( https://t.co/kssmYVlcYl Ok i am out guys!! Finally! This took tooooooo long! But nothin to worry!! Thank you for the amazing and much needed time-pass getting into a meeting for which i am an hour late now"], |
|
|
["ऋतिक रोशन (Hritik Roshan) की अपकमिंग फिल्म 'सुपर 30' (Super 30) में दर्शक अब उदित नारायण (Udit Narayan) की आवाज का भी लुत्फ उठा सकेंगे. हिंदी के मशहूर गायकार उदित नारायण (Udit Narayan) ने 'सुपर 30' (Super 30) के लिए 'जुगरफिया' गीत गाया है. इस गीत में मशहूर प्लेबैक सिंगर श्रेया घोषाल (Shreya Ghoshal) ने भी उदित नारायण का साथ दिया है. बताया जा रहा है कि फिल्म सुपर 30 का यह गाना एक रोमांटिक गाना है, जिसमें सिंगर उदित नारायण (Udit Narayan) श्रेया घोषाल की आवाज का जादू बिखेरा गया है."], |
|
|
["अभिनेत्री पूजा डडवाल की मदद के लिए आगे आये @ravikishannpic.twitter.com/gP2bET2c2X"], |
|
|
["Batla House Box Office Collection Day 6: बॉलीवुड एक्टर जॉन अब्राहम (John Abraham) की फिल्म 'बाटला हाउस (Batla House)' सिनेमाघरों में लगातार शानदार प्रदर्शन कर रही है. स्वतंत्रता दिवस के मौके पर रिलीज हुई जॉन अब्राहम (John Abraham) की फिल्म 'बाटला हाउस (Batla House)' 'मिशन मंगल' को भी खूब टक्कर दे रही है."] |
|
|
] |
|
|
|
|
|
demo = gr.Interface( |
|
|
generateOutput, |
|
|
inputs = [ |
|
|
gr.Textbox(), |
|
|
], |
|
|
outputs = [ |
|
|
gr.HTML(), |
|
|
], |
|
|
title = title, |
|
|
description = description, |
|
|
examples = examples, |
|
|
cache_examples=False |
|
|
) |
|
|
demo.launch() |