In [11]:
from pathlib import Path
from retry import retry
import time, base64, requests, ffmpeg  # ffmpeg-python

token = "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"
API_URL = "https://t4vtvikeag4f1yzd.eu-west-1.aws.endpoints.huggingface.cloud"
# API_URL = "https://y7b9n0olpn47wbfr.us-east-1.aws.endpoints.huggingface.cloud"
fichier_audio = Path("/Users/ericmattmann/Desktop/Place Carpeaux.m4a")
headers = {"Authorization": f"Bearer {token}", "Content-Type": "application/json"}
with open(fichier_audio, "rb") as f:
    audio_data = base64.b64encode(f.read()).decode("utf-8")

In [12]:
def get_duration_ffmpeg(file_path):
    probe = ffmpeg.probe(file_path)
    stream = next((stream for stream in probe["streams"] if stream["codec_type"] == "audio"), None)
    duration = float(stream["duration"])
    return duration


g = get_duration_ffmpeg(fichier_audio)
print(
    f"La durée de l'enregistrement est : {int(g//3600):d} heures, {int((g % 3600)//60):d} minutes et {int(g%60):d} secondes."
)

La durée de l'enregistrement est : 2 heures, 11 minutes et 22 secondes.


In [13]:
@retry(tries=10, delay=60)
def query_transcription(audio_data):
    payload = {
        "inputs": audio_data,
        "parameters": {
            "language": "fr",
            "sampling_rate": 16000,
            "min_speakers": 4,
            "max_speakers": 4,
        },
        "options": {"transcription": True, "diarization": False},
    }

    response = requests.post(API_URL, headers=headers, json=payload)
    return response.json()


@retry(tries=10, delay=60)
def query_diarization(audio_data, transcription):
    payload = {
        "inputs": (audio_data, transcription),
        "parameters": {
            "language": "fr",
            "sampling_rate": 16000,
        },
        "options": {"transcription": False, "diarization": True},
    }

    response = requests.post(API_URL, headers=headers, json=payload)
    return response.json()


@retry(tries=10, delay=60)
def query_transcription_diarization(audio_data):
    payload = {
        "inputs": audio_data,
        "parameters": {
            "language": "fr",
            "sampling_rate": 16000,
        },
        "options": {"transcription": True, "alignment": True, "diarization": True},
    }

    response = requests.post(API_URL, headers=headers, json=payload)
    return response.json()

In [14]:
if g < 5_400:  # (1h30)
    print("Transcription and Diarization in the same call.")
    response = query_transcription_diarization(audio_data=audio_data)
else:
    print("Transcription first...")
    response = query_transcription(audio_data=audio_data)
    time.sleep(30)
    print("...then Diarization.")
    response = query_diarization(audio_data=audio_data, transcription=response)

Transcription first...
...then Diarization.


In [17]:
from itertools import groupby
from collections import deque

print("Assignation des locuteurs...")
locuteurs = {}
for sp in list(
    set(
        [
            r.get("speaker", "Non-identifié")
            for r in response["segments"]
            if r.get("speaker", "Non-identifié") != ("Non-identifié")
        ]
    )
):
    for r in [r for r in response["segments"] if r.get("speaker") == sp][:15]:
        print(f"{r['speaker']} :\t{r['text'].strip()[:100]}{'...' if len(r['text'].strip()) > 100 else ''}")
    locuteurs[sp] = sp  # input(f"Nom du locuteur {sp} : ")
# [k for k, v in groupby(ligne.split())] permet d'éliminer les mots répétés à la suite les uns des autres. https://docs.python.org/fr/3/library/itertools.html#itertools.groupby
résultat = [
    f"{locuteurs[segment['speaker']]} :\t{' '.join([k for k, v in groupby(segment['text'].strip().split())])}\n"
    for segment in response["segments"]
    if segment.get("speaker", "Non-identifié") != "Non-identifié"
]
# le code ci-après permet d'éliminer les lignes répétées à la suite les unes des autres (même locuteur, même texte)
out = list()
précédente = deque()
for line in résultat:
    if line not in précédente and not line.startswith("Non-identifié"):
        out.append(line)
        précédente.append(line)
        if len(précédente) > 2:
            précédente.popleft()

Assignation des locuteurs...
SPEAKER_15 :	Merci beaucoup. Alors on va prendre une dernière question avant de passer à la suite. Bonjour. Tom N...
SPEAKER_12 :	qui va compléter ce panorama avec un focus plus largement axé contexte normatif et enjeux associés. ...
SPEAKER_12 :	cette recommandation. La dernière, elle a une raison toute particulière pour nous aujourd'hui puisqu...
SPEAKER_12 :	Comme on l'a vu avec Guillaume et Thomas, on va pouvoir s'appuyer, enfin vous allez pouvoir vous app...
SPEAKER_12 :	à vocation opérationnelle, c'est-à-dire à harmoniser et à partager les bonnes pratiques en France, à...
SPEAKER_12 :	un environnement normatif à l'international très favorable à l'émergence de ces normes, on vous en a...
SPEAKER_12 :	Donc ces documents vont pouvoir répondre peut-être à une demande de normalisation prochaine. Merci b...
SPEAKER_12 :	Juliette, elle va assurer vraiment un rôle de pilote dans vos débats. Elle va rechercher et faire ém...
SPEAKER_12 :	Côté à moi, je voudrai

In [18]:
print("".join(résultat))

SPEAKER_08 :	Thomas Cotinet, directeur d'Ecolab, et vraiment très heureux d'être parmi vous aujourd'hui. Nous sommes plus de 225 participants au lancement de ce groupe de travail, dont 60 en présentiel ici au ministère. Très heureux de vous accueillir dans les locaux du ministère pour démarrer ces travaux et l'installation de ce groupe de travail sur l'impact
SPEAKER_08 :	et sur l'intelligence artificielle frugale. C'est un enjeu qui, pour nous, se situe à la fois au sein de la stratégie nationale de l'intelligence artificielle, et je passerai la parole après à Guillaume Abrin, le coordonnateur national, mais également au sein de France
SPEAKER_08 :	extrêmement important. Et puis notre ministère a pris l'initiative dès 2021 de se doter d'une stratégie, une feuille de route de l'intelligence artificielle pour la transition écologique. Nous étions à l'époque le premier ministère à faire cela, qui a été renouvelé récemment et republié en novembre dernier. D'ailleurs vous pouvez trouver en

In [19]:
with open("/Users/ericmattmann/Desktop/transcription.txt", "w") as f:
    f.write("".join(out))