Spaces:

7H4M3R
/

Audio

Sleeping

App Files Files Community

7H4M3R commited on May 22, 2025

Commit

2dd9c4b

verified ·

1 Parent(s): 424f75b

Update src/streamlit_app.py

Browse files

Files changed (1) hide show

src/streamlit_app.py +15 -14

src/streamlit_app.py CHANGED Viewed

@@ -129,26 +129,27 @@ if st.button("Analyze"):
             st.write("Audio saved at:", audio_path)
             st.write("Exists:", os.path.exists(audio_path))
-        with st.spinner("Transcribing with Whisper..."):
-            whisper_model = whisper.load_model("base")
-            result = whisper_model.transcribe(audio_path)
-            transcription = result['text']
-            transcription = "Hello There"
-            pass
         with st.spinner("Classifying accent..."):
-            # model_name = "dima806/english_accents_classification"
-            # pipe = pipeline('audio-classification', model=model_name, device=-1)  # GPU (device=0) or CPU (device=-1)
-            # accent_data = accent_classify(pipe, audio_path)
-            audio_df = split_audio(audio_path)
             waves = f"{np.concatenate(audio_df["audio"][:5].to_list())}"
             st.markdown("**Audio waves:**")
             st.text_area("Audio waves", waves, height=200)
             # audio_df = split_audio(audio_path)
             # print(np.concatenate(audio_df["audio"][:50].to_list()))
-            accent_data = {"label": "American", "score": 0.9}
             accent = accent_data.get("label", "American")
             confidence = accent_data.get("score", 0.0)
             # pass
@@ -156,8 +157,8 @@ if st.button("Analyze"):
         st.success("Analysis Complete!")
         st.markdown(f"**Accent:** {accent}")
         st.markdown(f"**Confidence Score:** {confidence:.2f}%")
-        st.markdown("**Transcription:**")
-        st.text_area("Transcript", transcription, height=200)
         # Cleanup
         os.remove(video_path)

             st.write("Audio saved at:", audio_path)
             st.write("Exists:", os.path.exists(audio_path))
+        # with st.spinner("Transcribing with Whisper..."):
+        #     whisper_model = whisper.load_model("base")
+        #     result = whisper_model.transcribe(audio_path)
+        #     transcription = result['text']
+        #     transcription = "Hello There"
+        #     pass
         with st.spinner("Classifying accent..."):
             waves = f"{np.concatenate(audio_df["audio"][:5].to_list())}"
             st.markdown("**Audio waves:**")
             st.text_area("Audio waves", waves, height=200)
+            model_name = "dima806/english_accents_classification"
+            pipe = pipeline('audio-classification', model=model_name, device=0)  # GPU (device=0) or CPU (device=-1)
+            accent_data = accent_classify(pipe, audio_path)
+            audio_df = split_audio(audio_path)
             # audio_df = split_audio(audio_path)
             # print(np.concatenate(audio_df["audio"][:50].to_list()))
+            # accent_data = {"label": "American", "score": 0.9}
             accent = accent_data.get("label", "American")
             confidence = accent_data.get("score", 0.0)
             # pass
         st.success("Analysis Complete!")
         st.markdown(f"**Accent:** {accent}")
         st.markdown(f"**Confidence Score:** {confidence:.2f}%")
+        # st.markdown("**Transcription:**")
+        # st.text_area("Transcript", transcription, height=200)
         # Cleanup
         os.remove(video_path)