Spaces:

MultiTransformer
/

AyaTonic

Runtime error

App Files Files Community

tonic commited on Feb 25, 2024

Commit

5701b30

1 Parent(s): e115e9b

improve the interface , add parsing for longest phrases , language code quick fix for surya, adding translation with aya

Browse files

Files changed (2) hide show

app.py +93 -26
languages.json +0 -0

app.py CHANGED Viewed

@@ -5,7 +5,7 @@ from surya.ocr import run_ocr
 from surya.model.detection.segformer import load_model as load_det_model, load_processor as load_det_processor
 from surya.model.recognition.model import load_model as load_rec_model
 from surya.model.recognition.processor import load_processor as load_rec_processor
-# from lang_list import TEXT_SOURCE_LANGUAGE_NAMES
 from gradio_client import Client
 from dotenv import load_dotenv
 import requests
@@ -27,7 +27,7 @@ choices = df["name"].to_list()
 inputlanguage = ""
 producetext =  "\n\nProduce a complete expositional blog post in {target_language} based on the above :"
 formatinputstring = "\n\nthe above text is a learning aid. you must use rich text format to rewrite the above and add 1 . a red color tags for nouns 2. a blue color tag for verbs 3. a green color tag for adjectives and adverbs:"
 # Regular expression patterns for each color
 patterns = {
     "red": r'<span style="color: red;">(.*?)</span>',
@@ -41,6 +41,35 @@ matches = {
     "blue": [],
     "green": [],
 }
 class TaggedPhraseExtractor:
     def __init__(self, text=''):
         self.text = text
@@ -55,24 +84,32 @@ class TaggedPhraseExtractor:
         self.patterns[color] = pattern
     def extract_phrases(self):
-        """Extract phrases for all colors and patterns added."""
-        matches = {color: re.findall(pattern, self.text) for color, pattern in self.patterns.items()}
-        return matches
     def print_phrases(self):
-        """Extract phrases and print them."""
         matches = self.extract_phrases()
-        for color, phrases in matches.items():
             print(f"Phrases with color {color}:")
-            for phrase in phrases:
                 print(f"- {phrase}")
-            print()
-co = cohere.Client(COHERE_API_KEY)
-audio_client = Client(SEAMLESSM4T)
-client = Client(SEAMLESSM4T)
-def process_audio_to_text(audio_path, inputlanguage="English"):
     """
     Convert audio input to text using the Gradio client.
     """
@@ -80,7 +117,7 @@ def process_audio_to_text(audio_path, inputlanguage="English"):
     result = audio_client.predict(
         audio_path,
         inputlanguage,
-        inputlanguage,
         api_name="/s2tt"
     )
     print("Audio Result: ", result)
@@ -100,8 +137,8 @@ def process_text_to_audio(text, translatefrom="English", translateto="English"):
     return result[0]
 class OCRProcessor:
-    def __init__(self, langs=["en"]): #add input language code
-        self.langs = langs
         self.det_processor, self.det_model = load_det_processor(), load_det_model()
         self.rec_model, self.rec_processor = load_rec_model(), load_rec_processor()
@@ -109,18 +146,19 @@ class OCRProcessor:
         """
         Process a PIL image and return the OCR text.
         """
-        predictions = run_ocr([image], [self.langs], self.det_model, self.det_processor, self.rec_model, self.rec_processor)
-        return predictions[0]  # Assuming the first item in predictions contains the desired text
     def process_pdf(self, pdf_path):
         """
         Process a PDF file and return the OCR text.
         """
-        predictions = run_ocr([pdf_path], [self.langs], self.det_model, self.det_processor, self.rec_model, self.rec_processor)
-        return predictions[0]  # Assuming the first item in predictions contains the desired text
 def process_input(image=None, file=None, audio=None, text="", translateto = "English", translatefrom = "English" ):
-    ocr_processor = OCRProcessor()
     final_text = text
     if image is not None:
         ocr_prediction = ocr_processor.process_image(image)
@@ -171,7 +209,20 @@ def process_input(image=None, file=None, audio=None, text="", translateto = "Eng
     audio_output = process_text_to_audio(processed_text, translateto, translateto)
-    return processed_text, audio_output
 def main():
     with gr.Blocks() as demo:
@@ -193,12 +244,28 @@ def main():
         process_button = gr.Button("🌟AyaTonic")
         processed_text_output = RichTextbox(label="Processed Text")
-        audio_output = gr.Audio(label="Audio Output")
         process_button.click(
-            fn=process_input,
             inputs=[image_input, file_input, audio_input, text_input, input_language, target_language],
-            outputs=[processed_text_output, audio_output]
         )
 if __name__ == "__main__":

 from surya.model.detection.segformer import load_model as load_det_model, load_processor as load_det_processor
 from surya.model.recognition.model import load_model as load_rec_model
 from surya.model.recognition.processor import load_processor as load_rec_processor
+from lang_list import TEXT_SOURCE_LANGUAGE_NAMES , LANGUAGE_NAME_TO_CODE , text_source_language_codes
 from gradio_client import Client
 from dotenv import load_dotenv
 import requests
 inputlanguage = ""
 producetext =  "\n\nProduce a complete expositional blog post in {target_language} based on the above :"
 formatinputstring = "\n\nthe above text is a learning aid. you must use rich text format to rewrite the above and add 1 . a red color tags for nouns 2. a blue color tag for verbs 3. a green color tag for adjectives and adverbs:"
+translatetextinst = "\n\nthe above text is a learning aid. you must use markdown format to translate the above into {inputlanguage} :'"
 # Regular expression patterns for each color
 patterns = {
     "red": r'<span style="color: red;">(.*?)</span>',
     "blue": [],
     "green": [],
 }
+co = cohere.Client(COHERE_API_KEY)
+audio_client = Client(SEAMLESSM4T)
+def get_language_code(language_name):
+    """
+    Extracts the first two letters of the language code based on the language name.
+    """
+    code = df.loc[df['name'] == language_name, 'code'].values[0]
+    return code[:2]
+def translate_text(text, instructions=translatetextinst):
+    """
+    - text (str): The initial text.
+    Returns:
+    - str: The translated text response.
+    """
+    prompt = f"{text}{instructions}"
+    response = co.generate(
+        model='c4ai-aya',
+        prompt=prompt,
+        max_tokens=2986,
+        temperature=0.6,
+        k=0,
+        stop_sequences=[],
+        return_likelihoods='NONE'
+    )
+    return response.generations[0].text
 class TaggedPhraseExtractor:
     def __init__(self, text=''):
         self.text = text
         self.patterns[color] = pattern
     def extract_phrases(self):
+        """Extract phrases for all colors and patterns added, including the three longest phrases."""
+        matches = {}
+        three_matches = {}
+        for color, pattern in self.patterns.items():
+            found_phrases = re.findall(pattern, self.text)
+            sorted_phrases = sorted(found_phrases, key=len, reverse=True)
+            matches[color] = {
+                'all_phrases': found_phrases,
+                'top_three_longest': sorted_phrases[:3]
+            }
+            three_matches = sorted_phrases[:3]
+        return matches , three_matches
     def print_phrases(self):
+        """Extract phrases and print them, including the three longest phrases."""
         matches = self.extract_phrases()
+        for color, data in matches.items():
             print(f"Phrases with color {color}:")
+            for phrase in data['all_phrases']:
+                print(f"- {phrase}")
+            print(f"\nThree longest phrases for color {color}:")
+            for phrase in data['top_three_longest']:
                 print(f"- {phrase}")
+            print()
+def process_audio_to_text(audio_path, inputlanguage="English", outputlanguage="English"):
     """
     Convert audio input to text using the Gradio client.
     """
     result = audio_client.predict(
         audio_path,
         inputlanguage,
+        outputlanguage,
         api_name="/s2tt"
     )
     print("Audio Result: ", result)
     return result[0]
 class OCRProcessor:
+    def __init__(self, lang_code=["en"]):
+        self.lang_code = lang_code
         self.det_processor, self.det_model = load_det_processor(), load_det_model()
         self.rec_model, self.rec_processor = load_rec_model(), load_rec_processor()
         """
         Process a PIL image and return the OCR text.
         """
+        predictions = run_ocr([image], [self.lang_code], self.det_model, self.det_processor, self.rec_model, self.rec_processor)
+        return predictions[0]
     def process_pdf(self, pdf_path):
         """
         Process a PDF file and return the OCR text.
         """
+        predictions = run_ocr([pdf_path], [self.lang_code], self.det_model, self.det_processor, self.rec_model, self.rec_processor)
+        return predictions[0]
 def process_input(image=None, file=None, audio=None, text="", translateto = "English", translatefrom = "English" ):
+    lang_code = get_language_code(translatefrom)
+    ocr_processor = OCRProcessor(lang_code)
     final_text = text
     if image is not None:
         ocr_prediction = ocr_processor.process_image(image)
     audio_output = process_text_to_audio(processed_text, translateto, translateto)
+    extractor = TaggedPhraseExtractor(processed_text)
+    longest_phrases = extractor.get_longest_phrases()
+    # Translate the longest phrases back into the native language
+    translated_phrases = [translate_text(phrase, translateto, translatefrom) for phrase in longest_phrases]
+    # Convert the original and translated phrases to audio
+    audio_samples = {
+        "target_language": [text_to_audio(phrase, translateto) for phrase in longest_phrases],
+        "native_language": [text_to_audio(phrase, translatefrom) for phrase in translated_phrases]
+    }
+    return audio_output, processed_text, audio_samples, longest_phrases, translated_phrases
 def main():
     with gr.Blocks() as demo:
         process_button = gr.Button("🌟AyaTonic")
         processed_text_output = RichTextbox(label="Processed Text")
+        longest_phrases_1 = gr.Textbox(label="Focus")
+        translated_phrases_output_1 = gr.Textbox(label="Translated Phrases")
+        audio_output_native_phrase_1 = gr.Audio(label="Audio Output (Native Language)")
+        audio_output_target_phrase_1 = gr.Audio(label="Audio Output (Target Language)")
+        longest_phrases_2 = gr.Textbox(label="Focus")
+        translated_phrases_output_2 = gr.Textbox(label="Translated Phrases")
+        audio_output_native_phrase_2 = gr.Audio(label="Audio Output (Native Language)")
+        audio_output_target_phrase_2 = gr.Audio(label="Audio Output (Target Language)")
+        longest_phrases_3 = gr.Textbox(label="Focus")
+        translated_phrases_output_3 = gr.Textbox(label="Translated Phrases")
+        audio_output_native_phrase_3 = gr.Audio(label="Audio Output (Native Language)")
+        audio_output_target_phrase_3 = gr.Audio(label="Audio Output (Target Language)")
+        def update_outputs(image, file, audio, text, input_language, target_language):
+            processed_text, audio_samples, longest_phrases, translated_phrases = process_input(
+                image, file, audio, text, input_language, target_language)
+            return processed_text, audio_samples['native_language'], audio_samples['target_language'], "\n".join(longest_phrases), "\n".join(translated_phrases) # Fix this
         process_button.click(
+            fn=update_outputs,
             inputs=[image_input, file_input, audio_input, text_input, input_language, target_language],
+            outputs=[processed_text_output, audio_output_native_phrase_1, audio_output_target_phrase_1, longest_phrases_1, translated_phrases_output_1, audio_output_native_phrase_2, audio_output_target_phrase_2, longest_phrases_2, translated_phrases_output_2, audio_output_native_phrase_3, audio_output_target_phrase_3, longest_phrases_3, translated_phrases_output_3] #add education output
         )
 if __name__ == "__main__":

languages.json DELETED Viewed

File without changes