🛒 C10 NER – Extraction d'entités pour commandes B2B CHR

Modèle NER fine-tuné sur le catalogue C10 (Cafés, Hôtels, Restaurants). Pipeline adaptatif supportant des datasets de 3K à 100K+ exemples.

Stack technique

  • spaCy fr_core_news_lg + tok2vec → pipeline principal (rapide, déployé par défaut)
  • DistilCamemBERT cmarkea/distilcamembert-base → fallback du cascade, appelé uniquement si tok2vec échoue à constituer le panier
  • Dedup : MinHash LSH (datasketch) sur datasets ≥ 50K
  • Split : stratifié par combinaison de labels

Entités reconnues

Label Source CSV Exemple
PRODUCT LibelleCourt Coca-Cola, 1664, Absolut
SKU sku 1200000030
QUANTITY (commande) 5, 12
FAMILLE Famille bières, vins, softs
FORMAT Contenance+UniteContenance 33cl, 75cl, 1L
MARQUE MarqueFabricant Grimbergen, Nicolas Feuillatte
CONDITIONNEMENT UniteVente caisse, pack, palette
UNITE_VENTE (commande) bouteille, canette, fût

Usage rapide

import spacy
nlp = spacy.load("Kahouli/c10-ner-b2b")
doc = nlp("Je voudrais 5 caisses de Coca-Cola 33cl")
for ent in doc.ents:
    print(ent.text, ent.label_)
Downloads last month
22
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Spaces using Kahouli/c10-ner-b2b 2