import gradio as gr import pickle with open('merges.pkl','rb') as merges_file: merges = pickle.load(merges_file) with open('vocab.pkl', 'rb') as vocab_file: vocab = pickle.load(vocab_file) def get_stats(ids): counts = {} for pair in zip(ids, ids[1:]): counts[pair] = counts.get(pair, 0) + 1 return counts def merge(ids, pair, idx): i = 0 newids = [] while i < len(ids): if i < len(ids) - 1 and ids[i] == pair[0] and ids[i+1] == pair[1]: newids.append(idx) i += 2 else: newids.append(ids[i]) i += 1 return newids def decode(ids): # given ids (list of integers), return Python string tokens = b"".join(vocab[idx] for idx in ids) text = tokens.decode("utf-8", errors="replace") return text def encode(text): # given a string, return list of integers (the tokens) tokens = list(text.encode("utf-8")) while len(tokens) >= 2: stats = get_stats(tokens) pair = min(stats, key=lambda p: merges.get(p, float("inf"))) if pair not in merges: break # nothing else can be merged idx = merges[pair] tokens = merge(tokens, pair, idx) return tokens def getTokens(inputText): tokens = list(inputText.encode("utf-8")) while len(tokens) >= 2: stats = get_stats(tokens) pair = min(stats, key=lambda p: merges.get(p, float("inf"))) if pair not in merges: break # nothing else can be merged idx = merges[pair] tokens = merge(tokens, pair, idx) strTokens = [] for token in tokens: strTokens.append(decode([token])) # strTokens = ["काफिले", " में"," शमिल"," कों","टा"," विधा","यक"," कवासी"," लखमा"," के"," पी","एस","ओ"," को"," भी"," गोली"," लगने"," की"," जान","कारी"," सामने"," आ"," रही"," है","।"] return tokens, strTokens # lightblue, pink, truquoise, yellow, green, lavendar # colorList = ['#CCC7F7', '#FE9900','#98F5F9', '#FFDE59','#C9FAB5','#E7DDFF'] colorList = ['rgb(253 230 138)', 'rgb(191 219 254)', 'rgb(165 243 252)', 'rgb(245 208 254)', 'rgb(229 231 235)', 'rgb(187 247 208)', 'rgb(199 210 254)', 'rgb(217 249 157)', 'rgb(254 215 170)', 'rgb(167 243 208)', 'rgb(251 207 232)', 'rgb(233 213 255)', 'rgb(239 68 68)', 'rgb(254 205 211)', 'rgb(254 240 138)', 'rgb(241 245 249)'] def getOutputText(inputText, tokens, strTokens): i = 0 txtLen = len(inputText) numTokens = len(strTokens) outputString = """

Text length (in chars): """ outputString = outputString + str(txtLen) + """

Token count: """ outputString = outputString + str(numTokens) + """

""" for strToken in strTokens: colorNum = i % len(colorList) chosencolor = colorList[colorNum] outputString = outputString + " " + strToken + "" + str(tokens[i]) + "" i = i + 1 outputString = outputString + """

""" return outputString def generateOutput(inputText): tokens, strTokens = getTokens(inputText) return(getOutputText(inputText, tokens, strTokens)) title = "Hindi Tokenizer from Scratch" description = "Created Hindi Tokenizer from Scratch" examples = [["काफिले में शमिल कोंटा विधायक कवासी लखमा के पीएसओ को भी गोली लगने की जानकारी सामने आ रही है।"], ["Test sentence."], ["आप लोकसभा में नेता प्रतिपक्ष और राज्यसभा में नेता प्रतिपक्ष के खिलाफ अपने द्वारा लगाए गए आरोपों के सम्बंध में कोई पर्याप्त कारण नहीं पेश कर पाए।"], ["इस वाक्य का अनुवाद गूगल100 ट्रांसलेट द्वारा किया जा रहा है।😅"], ["अमेरिका इस्लामाबाद पर अफगानिस्तान में इस्तेमाल होने वाले पाकिस्तान निर्मित आईआईडी के मुद्दे के समाधान का जोर डाल रहा है जो दोनों देशों के बीच अलगाव का एक प्रमुख कारण बना हुआ है। अमेरिका के रक्षा मंत्री लियोन पेनेटा ने सांसदों से कल कहा कि यह आईईडी अफगानिस्तान में अमेरिकी सैनिकों के हताहत होने का एक प्रमुख कारण हैं तथा इन विस्फोटकों को पाकिस्तान में बनाया जाता है। सीनेट की सैन्य सेवा समिति के समक्ष पेनेटा ने कहा कि आईईडी की पाकिस्तान से आपूर्ति लगातार जारी है और यह वह मामला है जिसे रोकने के लिए कार्रवाई की जरूरत है।टिप्पणियां उन्होंने कहा, ‘हमने उन्हें (पाकिस्तान को) स्पष्ट कह दिया है, जहां यह तैयार होते हैं हमने उन जगहों की पहचान की है। हमने उन्हें विशेष क्षेत्रों के बारे में बता दिया है। हमने उनसे कदम उठाने (इस दिशा में) की अपील की है।’ पेनेटा ने कहा कि कुछ मामलों में आईईडी से संबंधित मुद्दा सुरक्षित स्थान के विस्तार से जुड़ा हुआ है। ज्वाइंट चीफ ऑफ स्टॉफ के अध्यक्ष जनरल मार्टिन डेंप्सी ने कहा कि पाकिस्तान के साथ अमेरिका के संबंध चुनौती बने हुए हैं। अमेरिका के रक्षा मंत्री लियोन पेनेटा ने सांसदों से कल कहा कि यह आईईडी अफगानिस्तान में अमेरिकी सैनिकों के हताहत होने का एक प्रमुख कारण हैं तथा इन विस्फोटकों को पाकिस्तान में बनाया जाता है। सीनेट की सैन्य सेवा समिति के समक्ष पेनेटा ने कहा कि आईईडी की पाकिस्तान से आपूर्ति लगातार जारी है और यह वह मामला है जिसे रोकने के लिए कार्रवाई की जरूरत है।टिप्पणियां उन्होंने कहा, ‘हमने उन्हें (पाकिस्तान को) स्पष्ट कह दिया है, जहां यह तैयार होते हैं हमने उन जगहों की पहचान की है। हमने उन्हें विशेष क्षेत्रों के बारे में बता दिया है। हमने उनसे कदम उठाने (इस दिशा में) की अपील की है।’ पेनेटा ने कहा कि कुछ मामलों में आईईडी से संबंधित मुद्दा सुरक्षित स्थान के विस्तार से जुड़ा हुआ है। ज्वाइंट चीफ ऑफ स्टॉफ के अध्यक्ष जनरल मार्टिन डेंप्सी ने कहा कि पाकिस्तान के साथ अमेरिका के संबंध चुनौती बने हुए हैं। सीनेट की सैन्य सेवा समिति के समक्ष पेनेटा ने कहा कि आईईडी की पाकिस्तान से आपूर्ति लगातार जारी है और यह वह मामला है जिसे रोकने के लिए कार्रवाई की जरूरत है।टिप्पणियां उन्होंने कहा, ‘हमने उन्हें (पाकिस्तान को) स्पष्ट कह दिया है, जहां यह तैयार होते हैं हमने उन जगहों की पहचान की है। हमने उन्हें विशेष क्षेत्रों के बारे में बता दिया है। हमने उनसे कदम उठाने (इस दिशा में) की अपील की है।’ पेनेटा ने कहा कि कुछ मामलों में आईईडी से संबंधित मुद्दा सुरक्षित स्थान के विस्तार से जुड़ा हुआ है। ज्वाइंट चीफ ऑफ स्टॉफ के अध्यक्ष जनरल मार्टिन डेंप्सी ने कहा कि पाकिस्तान के साथ अमेरिका के संबंध चुनौती बने हुए हैं। उन्होंने कहा, ‘हमने उन्हें (पाकिस्तान को) स्पष्ट कह दिया है, जहां यह तैयार होते हैं हमने उन जगहों की पहचान की है। हमने उन्हें विशेष क्षेत्रों के बारे में बता दिया है। हमने उनसे कदम उठाने (इस दिशा में) की अपील की है।’ पेनेटा ने कहा कि कुछ मामलों में आईईडी से संबंधित मुद्दा सुरक्षित स्थान के विस्तार से जुड़ा हुआ है। ज्वाइंट चीफ ऑफ स्टॉफ के अध्यक्ष जनरल मार्टिन डेंप्सी ने कहा कि पाकिस्तान के साथ अमेरिका के संबंध चुनौती बने हुए हैं। ज्वाइंट चीफ ऑफ स्टॉफ के अध्यक्ष जनरल मार्टिन डेंप्सी ने कहा कि पाकिस्तान के साथ अमेरिका के संबंध चुनौती बने हुए हैं।"], ["Stuck in a lift.. surprisingly getting 3G!! Is that even possible in Mumbai??! #TestTweet Yess i am fine.. dont worry..my manager is tryin to get me out.. just restless n hungry now.. :( https://t.co/kssmYVlcYl Ok i am out guys!! Finally! This took tooooooo long! But nothin to worry!! Thank you for the amazing and much needed time-pass getting into a meeting for which i am an hour late now"], ["ऋतिक रोशन (Hritik Roshan) की अपकमिंग फिल्म 'सुपर 30' (Super 30) में दर्शक अब उदित नारायण (Udit Narayan) की आवाज का भी लुत्फ उठा सकेंगे. हिंदी के मशहूर गायकार उदित नारायण (Udit Narayan) ने 'सुपर 30' (Super 30) के लिए 'जुगरफिया' गीत गाया है. इस गीत में मशहूर प्लेबैक सिंगर श्रेया घोषाल (Shreya Ghoshal) ने भी उदित नारायण का साथ दिया है. बताया जा रहा है कि फिल्म सुपर 30 का यह गाना एक रोमांटिक गाना है, जिसमें सिंगर उदित नारायण (Udit Narayan) श्रेया घोषाल की आवाज का जादू बिखेरा गया है."], ["अभिनेत्री पूजा डडवाल की मदद के लिए आगे आये @ravikishannpic.twitter.com/gP2bET2c2X"], ["Batla House Box Office Collection Day 6: बॉलीवुड एक्टर जॉन अब्राहम (John Abraham) की फिल्म 'बाटला हाउस (Batla House)' सिनेमाघरों में लगातार शानदार प्रदर्शन कर रही है. स्वतंत्रता दिवस के मौके पर रिलीज हुई जॉन अब्राहम (John Abraham) की फिल्म 'बाटला हाउस (Batla House)' 'मिशन मंगल' को भी खूब टक्कर दे रही है."] ] demo = gr.Interface( generateOutput, inputs = [ gr.Textbox(), ], outputs = [ gr.HTML(), ], title = title, description = description, examples = examples, cache_examples=False ) demo.launch()