Spaces:

giancarlino
/

Music-Converter

Sleeping

App Files Files Community

shethjenil commited on Jul 31, 2025

Commit

ae92f3c

verified ·

1 Parent(s): 6297a41

Upload 4 files

Browse files

Files changed (5) hide show

.gitattributes +1 -0
app.py +170 -169
packages.txt +1 -0
requirements.txt +2 -0
violin-guitar.sf2 +3 -0

.gitattributes CHANGED Viewed

@@ -35,3 +35,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 viola.sf2 filter=lfs diff=lfs merge=lfs -text
 instrument.sf2 filter=lfs diff=lfs merge=lfs -text

 *tfevents* filter=lfs diff=lfs merge=lfs -text
 viola.sf2 filter=lfs diff=lfs merge=lfs -text
 instrument.sf2 filter=lfs diff=lfs merge=lfs -text
+violin-guitar.sf2 filter=lfs diff=lfs merge=lfs -text

app.py CHANGED Viewed

@@ -1,169 +1,170 @@
-# from midi2audio import FluidSynth
-# from pydub import AudioSegment
-# import os
-# def midi_audio_mix_export(audio_path, midi_path, instrument_audio_path="only_instrument.mp3", output_path="mix.mp3"):
-#     temp_midi_audio = "temp_midi_output.wav"
-#     fs = FluidSynth()
-#     fs.midi_to_audio(midi_path, temp_midi_audio)
-#     midi_audio = AudioSegment.from_file(temp_midi_audio)
-#     input_audio = AudioSegment.from_file(audio_path)
-#     midi_audio_boosted = midi_audio + 15
-#     input_audio_reduced = input_audio - 15.5
-#     min_len = min(len(midi_audio_boosted), len(input_audio_reduced))
-#     midi_trimmed = midi_audio_boosted[:min_len]
-#     audio_trimmed = input_audio_reduced[:min_len]
-#     mixed_audio = audio_trimmed.overlay(midi_trimmed)
-#     mixed_audio.export(output_path, format="mp3")
-#     os.remove(temp_midi_audio)
-#     midi_audio_boosted.export(instrument_audio_path, format="mp3")
-#     return output_path , instrument_audio_path, midi_path
-from audio2midi.basic_pitch_pitch_detector import BasicPitch , model_output_to_notes
-from torch import device as Device
-import gradio as gr
-import pretty_midi_fix
-def merge_midis(midi1: pretty_midi_fix.PrettyMIDI, midi2: pretty_midi_fix.PrettyMIDI,concatenate: bool = False):
-    if concatenate:
-        # Offset midi2 so it starts after midi1 ends
-        offset = midi1.get_end_time()
-        for instrument in midi2.instruments:
-            for note in instrument.notes:
-                note.start += offset
-                note.end += offset
-            for bend in instrument.pitch_bends:
-                bend.time += offset
-            for cc in instrument.control_changes:
-                cc.time += offset
-    # Merge instruments
-    merged = pretty_midi_fix.PrettyMIDI()
-    merged.instruments.extend(midi1.instruments)
-    merged.instruments.extend(midi2.instruments)
-    # Merge global metadata (tempo, time signatures, key signatures)
-    merged.time_signature_changes.extend(midi1.time_signature_changes + midi2.time_signature_changes)
-    merged.key_signature_changes.extend(midi1.key_signature_changes + midi2.key_signature_changes)
-    merged._tick_scales = midi1._tick_scales if midi1._tick_scales else midi2._tick_scales
-    # Tempo changes
-    for tempo_change in midi1.get_tempo_changes()[1]:
-        pass  # Usually keep first tempo map; advanced merging requires remapping
-    return merged
-def quantize(input, quantization='1/8T'):
-    if quantization not in ['1/4', '1/8', '1/16', '1/32', '1/4T', '1/8T', '1/16T', '1/32T']:
-        return input
-    q_map = {
-        "1/4": 1/1,
-        "1/8": 1/2,
-        "1/16": 1/4,
-        "1/32": 1/8,
-        "1/4T": 1/1.5,
-        "1/8T": 1/3,
-        "1/16T": 1/6,
-        "1/32T": 1/12
-    }
-    input.instruments[0].program = 24
-    tempo_changes, tempi = input.get_tempo_changes()
-    default_tempo = tempi[0]
-    spqn = 60.0 / default_tempo
-    step = spqn * q_map[quantization]
-    for instrument in input.instruments:
-        for note in instrument.notes:
-            note.start = round(note.start / step) * step
-            note.end = max(note.start + 0.05, round(note.end / step) * step)  # avoid zero-length notes
-    for instrument in input.instruments:
-        for cc in instrument.control_changes:
-            cc.time = round(cc.time / step) * step
-    return input
-device = Device('cuda' if Device.type == 'cuda' else 'cpu')
-pitch_detector = BasicPitch(device=device)
-def clone_midi(midi_obj):
-    """Create a deep copy of a PrettyMIDI object (instruments, notes, CCs, etc.)."""
-    new_midi = pretty_midi_fix.PrettyMIDI()
-    # Copy metadata
-    new_midi.time_signature_changes = list(midi_obj.time_signature_changes)
-    new_midi.key_signature_changes = list(midi_obj.key_signature_changes)
-    new_midi._tick_scales = list(midi_obj._tick_scales)
-    # Copy instruments and their contents
-    for instr in midi_obj.instruments:
-        new_instr = pretty_midi_fix.Instrument(program=instr.program, is_drum=instr.is_drum, name=instr.name)
-        new_instr.notes = [pretty_midi_fix.Note(n.velocity, n.pitch, n.start, n.end) for n in instr.notes]
-        new_instr.pitch_bends = [pretty_midi_fix.PitchBend(pb.pitch, pb.time) for pb in instr.pitch_bends]
-        new_instr.control_changes = [pretty_midi_fix.ControlChange(cc.number, cc.value, cc.time) for cc in instr.control_changes]
-        new_midi.instruments.append(new_instr)
-    return new_midi
-import gradio as gr
-import pretty_midi_fix
-def run_inference(audio_file, progress=gr.Progress()):
-    if not audio_file:
-        return None, "No audio file provided."
-    try:
-        result = pitch_detector.run_inference(audio_file, lambda x, y:progress((x, y)))
-        return result, "Inference completed!"
-    except Exception as e:
-        return None, f"Error: {str(e)}"
-def generate_midi(cached_result, onset_thresh, frame_thresh, min_note_len, midi_tempo,
-                  infer_onsets, include_pitch_bends, melodia_trick, quantize_midi):
-    if cached_result is None:
-        gr.Warning("No inference results found. Please run inference first.")
-        return None
-    # Generate original MIDI (Violin)
-    notes_violin = model_output_to_notes(
-        cached_result, onset_thresh, frame_thresh,infer_onsets, min_note_len,
-        None, None, include_pitch_bends, False, melodia_trick, midi_tempo
-    )
-    for inst in notes_violin.instruments:
-        inst.program = 40  # Violin
-    # Clone for Guitar
-    notes_guitar = clone_midi(notes_violin)
-    notes_guitar = quantize(notes_guitar, quantize_midi)
-    for inst in notes_guitar.instruments:
-        inst.program = 24  # Nylon Guitar
-        inst.pitch_bends = []  # Remove pitch bends for guitar
-    # Merge
-    merged = merge_midis(notes_violin, notes_guitar)
-    merged.write("output.mid")
-    return "output.mid"
-with gr.Blocks() as demo:
-    audio_input = gr.Audio(type="filepath", label="Upload Audio")
-    run_btn = gr.Button("Run Model Inference")
-    state_output = gr.State()
-    status_output = gr.Textbox(label="Status")
-    run_btn.click(run_inference, inputs=[audio_input], outputs=[state_output, status_output])
-    with gr.Accordion("MIDI Settings", open=False):
-        onset_thresh = gr.Slider(0, 1, 0, step=0.01, label="Onset Threshold")
-        frame_thresh = gr.Slider(0, 1, 0.3, step=0.01, label="Frame Threshold")
-        min_note_len = gr.Slider(1, 50, 11, step=1, label="Minimum Note Length (frames)")
-        midi_tempo = gr.Slider(30, 240, 120, step=1, label="MIDI Tempo (BPM)")
-        infer_onsets = gr.Checkbox(value=True, label="Infer Onsets")
-        include_pitch_bends = gr.Checkbox(value=True, label="Include Pitch Bends")
-        melodia_trick = gr.Checkbox(value=True, label="Use Melodia Trick")
-        quantize_midi = gr.Dropdown(['1/4', '1/8', '1/16', '1/32', '1/4T', '1/8T', '1/16T', '1/32T', 'normal'], value="1/8T", label="Quantize MIDI")
-    generate_btn = gr.Button("Generate MIDI")
-    midi_output = gr.File(label="Generated MIDI", file_types=[".mid"])
-    generate_btn.click(generate_midi,[state_output, onset_thresh, frame_thresh, min_note_len, midi_tempo,infer_onsets, include_pitch_bends, melodia_trick, quantize_midi],midi_output)
-demo.queue(max_size=1,default_concurrency_limit=1).launch()

+from midi2audio import FluidSynth
+from pydub import AudioSegment
+import os
+from audio2midi.basic_pitch_pitch_detector import BasicPitch, model_output_to_notes
+from torch import device as Device
+import gradio as gr
+import pretty_midi_fix
+def midi_audio_mix_export(audio_path, midi_path, instrument_audio_path="only_instrument.mp3", output_path="mix.mp3",sf_file="violin-guitar.sf2"):
+    temp_midi_audio = "temp_midi_output.wav"
+    fs = FluidSynth(sf_file)
+    fs.midi_to_audio(midi_path, temp_midi_audio)
+    midi_audio = AudioSegment.from_file(temp_midi_audio)
+    input_audio = AudioSegment.from_file(audio_path)
+    midi_audio_boosted = midi_audio + 15
+    input_audio_reduced = input_audio - 15.5
+    min_len = min(len(midi_audio_boosted), len(input_audio_reduced))
+    midi_trimmed = midi_audio_boosted[:min_len]
+    audio_trimmed = input_audio_reduced[:min_len]
+    mixed_audio = audio_trimmed.overlay(midi_trimmed)
+    mixed_audio.export(output_path, format="mp3")
+    os.remove(temp_midi_audio)
+    midi_audio_boosted.export(instrument_audio_path, format="mp3")
+    return output_path, instrument_audio_path, midi_path
+def merge_midis(midi1: pretty_midi_fix.PrettyMIDI, midi2: pretty_midi_fix.PrettyMIDI, concatenate: bool = False):
+    if concatenate:
+        offset = midi1.get_end_time()
+        for instrument in midi2.instruments:
+            for note in instrument.notes:
+                note.start += offset
+                note.end += offset
+            for bend in instrument.pitch_bends:
+                bend.time += offset
+            for cc in instrument.control_changes:
+                cc.time += offset
+    merged = pretty_midi_fix.PrettyMIDI()
+    merged.instruments.extend(midi1.instruments)
+    merged.instruments.extend(midi2.instruments)
+    merged.time_signature_changes.extend(midi1.time_signature_changes + midi2.time_signature_changes)
+    merged.key_signature_changes.extend(midi1.key_signature_changes + midi2.key_signature_changes)
+    merged._tick_scales = midi1._tick_scales if midi1._tick_scales else midi2._tick_scales
+    return merged
+def quantize(input, quantization='1/8T'):
+    if quantization not in ['1/4', '1/8', '1/16', '1/32', '1/4T', '1/8T', '1/16T', '1/32T']:
+        return input
+    q_map = {
+        "1/4": 1/1,
+        "1/8": 1/2,
+        "1/16": 1/4,
+        "1/32": 1/8,
+        "1/4T": 1/1.5,
+        "1/8T": 1/3,
+        "1/16T": 1/6,
+        "1/32T": 1/12
+    }
+    input.instruments[0].program = 24
+    tempo_changes, tempi = input.get_tempo_changes()
+    default_tempo = tempi[0]
+    spqn = 60.0 / default_tempo
+    step = spqn * q_map[quantization]
+    for instrument in input.instruments:
+        for note in instrument.notes:
+            note.start = round(note.start / step) * step
+            note.end = max(note.start + 0.05, round(note.end / step) * step)
+    for instrument in input.instruments:
+        for cc in instrument.control_changes:
+            cc.time = round(cc.time / step) * step
+    return input
+device = Device('cuda' if Device.type == 'cuda' else 'cpu')
+pitch_detector = BasicPitch(device=device)
+def clone_midi(midi_obj):
+    new_midi = pretty_midi_fix.PrettyMIDI()
+    new_midi.time_signature_changes = list(midi_obj.time_signature_changes)
+    new_midi.key_signature_changes = list(midi_obj.key_signature_changes)
+    new_midi._tick_scales = list(midi_obj._tick_scales)
+    for instr in midi_obj.instruments:
+        new_instr = pretty_midi_fix.Instrument(program=instr.program, is_drum=instr.is_drum, name=instr.name)
+        new_instr.notes = [pretty_midi_fix.Note(n.velocity, n.pitch, n.start, n.end) for n in instr.notes]
+        new_instr.pitch_bends = [pretty_midi_fix.PitchBend(pb.pitch, pb.time) for pb in instr.pitch_bends]
+        new_instr.control_changes = [pretty_midi_fix.ControlChange(cc.number, cc.value, cc.time) for cc in instr.control_changes]
+        new_midi.instruments.append(new_instr)
+    return new_midi
+def run_inference(audio_file, progress=gr.Progress()):
+    if not audio_file:
+        return None, "No audio file provided."
+    try:
+        result = pitch_detector.run_inference(audio_file, lambda x, y: progress((x, y)))
+        return result, "Inference completed!"
+    except Exception as e:
+        return None, f"Error: {str(e)}"
+def generate_midi(audio_file, cached_result, onset_thresh, frame_thresh, min_note_len, midi_tempo,
+                  infer_onsets, include_pitch_bends, melodia_trick, quantize_midi):
+    if cached_result is None:
+        gr.Warning("No inference results found. Please run inference first.")
+        return None, None, None
+    # Generate violin MIDI
+    notes_violin = model_output_to_notes(
+        cached_result, onset_thresh, frame_thresh, infer_onsets, min_note_len,
+        None, None, include_pitch_bends, False, melodia_trick, midi_tempo
+    )
+    for inst in notes_violin.instruments:
+        inst.program = 40  # Violin
+    # If quantization is enabled (not "not using"), create guitar + merge
+    if quantize_midi != "not using":
+        notes_guitar = clone_midi(notes_violin)
+        notes_guitar = quantize(notes_guitar, quantize_midi)
+        for inst in notes_guitar.instruments:
+            inst.program = 24  # Nylon Guitar
+            inst.pitch_bends = []
+        final_midi = merge_midis(notes_violin, notes_guitar)
+    else:
+        final_midi = notes_violin  # Only violin
+    final_midi.write("output.mid")
+    # Generate audio (instrument-only + mix)
+    mix_audio, instrument_audio, midi_path = midi_audio_mix_export(audio_file, "output.mid")
+    return "output.mid", instrument_audio, mix_audio
+# ---- Gradio UI ----
+with gr.Blocks() as demo:
+    audio_input = gr.Audio(type="filepath", label="Upload Audio")
+    run_btn = gr.Button("Run Model Inference")
+    state_output = gr.State()
+    status_output = gr.Textbox(label="Status")
+    run_btn.click(run_inference, inputs=[audio_input], outputs=[state_output, status_output])
+    with gr.Accordion("MIDI Settings", open=False):
+        onset_thresh = gr.Slider(0, 1, 0, step=0.01, label="Onset Threshold")
+        frame_thresh = gr.Slider(0, 1, 0.3, step=0.01, label="Frame Threshold")
+        min_note_len = gr.Slider(1, 50, 11, step=1, label="Minimum Note Length (frames)")
+        midi_tempo = gr.Slider(30, 240, 120, step=1, label="MIDI Tempo (BPM)")
+        infer_onsets = gr.Checkbox(value=True, label="Infer Onsets")
+        include_pitch_bends = gr.Checkbox(value=True, label="Include Pitch Bends")
+        melodia_trick = gr.Checkbox(value=True, label="Use Melodia Trick")
+        quantize_midi = gr.Dropdown(
+            ['1/4', '1/8', '1/16', '1/32', '1/4T', '1/8T', '1/16T', '1/32T', 'not using'],
+            value="not using",
+            label="Quantize MIDI"
+        )
+    generate_btn = gr.Button("Generate MIDI & Audio")
+    midi_output = gr.File(label="Generated MIDI", file_types=[".mid"])
+    instrument_output = gr.Audio(label="Instrument Only Audio")
+    mix_output = gr.Audio(label="Mixed Audio (Original + Instrument)")
+    generate_btn.click(
+        generate_midi,
+        [audio_input, state_output, onset_thresh, frame_thresh, min_note_len, midi_tempo,
+         infer_onsets, include_pitch_bends, melodia_trick, quantize_midi],
+        [midi_output, instrument_output, mix_output]
+    )
+demo.queue(max_size=1, default_concurrency_limit=1).launch()

packages.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ fluidsynth

requirements.txt CHANGED Viewed

	@@ -1 +1,3 @@


1	audio2midi[basic_pitch_pitch_detector]

+midi2audio
+pydub
 audio2midi[basic_pitch_pitch_detector]

violin-guitar.sf2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:06723c530ee4cde9048d66f60eacfce27708d350ab92d6d444b54e9120dcfe15
+size 29233526