Spaces:

EyeSeeUIUC
/

EyeSee_chi

Running

App Files Files Community

LouisLi commited on Jun 2, 2024

Commit

eab8f59

verified ·

1 Parent(s): 3999986

Update app.py

Browse files

Files changed (1) hide show

app.py +8 -8

app.py CHANGED Viewed

@@ -567,8 +567,8 @@ def submit_caption(image_input, state, generated_caption, text_refiner, visual_c
     focus_map = {
     "CFV-D":0,
     "CFV-DA":1,
-    "PFV-DA":2,
-    "PFV-DAI":3
 }
     mapped_value = focus_map.get(focus_type, -1)
@@ -632,18 +632,18 @@ def submit_caption(image_input, state, generated_caption, text_refiner, visual_c
                 focus_info=focus_info[1:-1]
             # state = state + [(None, f"Wiki: {paragraph}")]
-            state = state + [(None, f"Focus_Caption: {focus_info}")]
             print("new_cap",focus_info)
             refined_image_input = create_bubble_frame(np.array(origin_image_input), focus_info, click_index, input_mask,
                                                       input_points=input_points, input_labels=input_labels)
             try:
-                waveform_visual, audio_output = tts.predict(focus_info, input_language, input_audio, input_mic, use_mic, agree)
                 return state, state, refined_image_input, click_index_state, input_mask_state, input_points_state, input_labels_state, out_state, waveform_visual, audio_output
             except Exception as e:
                 state = state + [(None, f"Error during TTS prediction: {str(e)}")]
                 print(f"Error during TTS prediction: {str(e)}")
-                return state, state, refined_image_input, click_index_state, input_mask_state, input_points_state, input_labels_state, out_state, None, None
         else:
             try:
@@ -652,7 +652,7 @@ def submit_caption(image_input, state, generated_caption, text_refiner, visual_c
             except Exception as e:
                 state = state + [(None, f"Error during TTS prediction: {str(e)}")]
                 print(f"Error during TTS prediction: {str(e)}")
-                return state, state, image_input, click_index_state, input_mask_state, input_points_state, input_labels_state, out_state, None, None
 def encode_image(image_path):
@@ -941,7 +941,7 @@ def create_ui():
                             material_label = gr.Button(value="Material: ")
                         with gr.Row(scale=1.0):
                              focus_type = gr.Radio(
-                                    choices=["CFV-D", "CFV-DA", "PFV-DA","PFV-DAI"],
                                     value="CFV-D",
                                     label="Focus Type",
                                     interactive=True)
@@ -1320,7 +1320,7 @@ def create_ui():
         input_text, input_language, input_audio, input_mic, use_mic, agree,paragraph,focus_type,openai_api_key,new_crop_save_path
     ],
             outputs=[
-                chatbot, state, image_input, click_index_state, input_mask_state, input_points_state, input_labels_state, out_state,
                 output_waveform, output_audio
             ],
             show_progress=True,

     focus_map = {
     "CFV-D":0,
     "CFV-DA":1,
+    "CFV-DAI":2,
+    "PFV-DDA":3
 }
     mapped_value = focus_map.get(focus_type, -1)
                 focus_info=focus_info[1:-1]
             # state = state + [(None, f"Wiki: {paragraph}")]
+            state = state + [(None, f"{focus_info}")]
             print("new_cap",focus_info)
             refined_image_input = create_bubble_frame(np.array(origin_image_input), focus_info, click_index, input_mask,
                                                       input_points=input_points, input_labels=input_labels)
             try:
+                waveform_visual, audio_output = tts.predict(focus_info.replace('#', ''), input_language, input_audio, input_mic, use_mic, agree)
                 return state, state, refined_image_input, click_index_state, input_mask_state, input_points_state, input_labels_state, out_state, waveform_visual, audio_output
             except Exception as e:
                 state = state + [(None, f"Error during TTS prediction: {str(e)}")]
                 print(f"Error during TTS prediction: {str(e)}")
+                return state, state, click_index_state, input_mask_state, input_points_state, input_labels_state, out_state, None, None
         else:
             try:
             except Exception as e:
                 state = state + [(None, f"Error during TTS prediction: {str(e)}")]
                 print(f"Error during TTS prediction: {str(e)}")
+                return state, state, click_index_state, input_mask_state, input_points_state, input_labels_state, out_state, None, None
 def encode_image(image_path):
                             material_label = gr.Button(value="Material: ")
                         with gr.Row(scale=1.0):
                              focus_type = gr.Radio(
+                                    choices=["CFV-D", "CFV-DA", "CFV-DAI","PFV-DDA"],
                                     value="CFV-D",
                                     label="Focus Type",
                                     interactive=True)
         input_text, input_language, input_audio, input_mic, use_mic, agree,paragraph,focus_type,openai_api_key,new_crop_save_path
     ],
             outputs=[
+                chatbot, state, click_index_state, input_mask_state, input_points_state, input_labels_state, out_state,
                 output_waveform, output_audio
             ],
             show_progress=True,