🤏 smolified-ocr-data-extractor-urssaf
Intelligence, Distilled.
This is a Domain Specific Language Model (DSLM) generated by the Smolify Foundry.
It has been synthetically distilled from SOTA reasoning engines into a high-efficiency architecture, optimized for deployment on edge hardware (CPU/NPU) or low-VRAM environments.
📦 Asset Details
- Origin: Smolify Foundry (Job ID:
6baf72cd) - Architecture: DSLM-Micro (270M Parameter Class)
- Training Method: Proprietary Neural Distillation
- Optimization: 4-bit Quantized / FP16 Mixed
- Dataset: Link to Dataset
🚀 Usage (Inference)
This model is compatible with standard inference backends like vLLM.
# Example: Running your Sovereign Model
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "titou4ng/smolified-ocr-data-extractor-urssaf"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id, device_map="auto")
messages = [
{'role': 'system', 'content': '''You are an OCR data extraction engine. The user message contains the full OCR text of a document. Your task: 1. Read the OCR text and extract, for each target field, the substring that corresponds to the value of this field in the text. Return a SINGLE top level JSON object that maps each target field name to this substring (or to null if it cannot be found). 2. The list of target fields is FIXED and ALWAYS exactly: ["code_securite","date","siren"]. - code_securite: The security code ('code de s curit '). - date: The date of the document indicated after 'A CITY_NAME, le' in DD/MM/YYYY. - siren: The SIREN number. You MUST always output ALL AND ONLY these fields (no extra fields, no missing fields, no renaming). 3. For each field: - The value MUST be a substring copied EXACTLY from the provided OCR text (same characters, including punctuation and spacing). If the OCR text contains ANY text that could match the field, extract it even if uncertain. 4. NEVER invent, infer, or hallucinate values that are not present in the OCR text. 5. The output MUST be strictly valid JSON: - A single top level object: the first non whitespace character is `{` and the last is `}`. - Use double quotes for all keys and string values. - Do NOT include comments, trailing commas, or additional text before or after the JSON. 6. Output ONLY this JSON object. No explanations, no natural language, no markdown.'''},
{'role': 'user', 'content': '''URSSAF POITOU-CHARENTES TSA 30009 38046 GRENOBLE CEDEX 9 Nous contacter Courriel: depuis votre espace urssaf.fr Tel.: 3957 Références N SIREN 325580694 Page 1/2 A POITIERS , le 11/07/2025 SA STE MACON TP MOREAU LATHUS MACONNERIE ET TRAVAUX PUBLICS ZAC DE LA CLIE 86240 ITEUIL Objet : attestation de fourniture des déclarations sociales et paiement des cotisations et contributions sociales. CODE DE S CURIT NBAX1AERGV5Q85N La v rification de l'authenticit et de la validit de ce document s'effectue sur urssaf.fr/portail/home/utile-et-pratique/veri fication-attestation.html Madame, Monsieur, Je vous adresse votre attestation de fourniture des déclarations sociales et de paiement des cotisations et contributions sociales. En votre qualité d'employeur, cette attestation vous est délivrée pour les établissements dont la liste figure au verso. J'attire votre attention sur le fait que ce document a été établi à partir de vos déclarations. Il ne préjuge pas de l'exactitude de ces déclarations et ne vaut pas renonciation au recouvrement d'éventuelles créances. La validité de cette attestation et le détail des informations contenues doivent être contrôlés par votre cocontractant. Pour tout renseignement complémentaire, n'hésitez pas à prendre contact avec nos conseillers Urssaf. Cordialement, CADRE L GAL Article L.243-15 du code de la Sécurité sociale. NAT / UR-547 / Attestation vigilance - URSSAF / 52 / Novembre 2024 CODE DE S CURIT NBAX1AERGV5Q85N La v rification de l'authenticit et de la validit de ce document s'effectue sur urssaf.fr/portail/home/utile-et-pratique/veri fication-attestation.html ATTESTATION DE FOURNITURE DES D CLARATIONS SOCIALES ET DE PAIEMENT DES COTISATIONS ET CONTRIBUTIONS Article L.243-15 du code de la Sécurité sociale 2/2 SA STE MACON TP MOREAU LATHUS MACONNERIE ET TRAVAUX PUBLICS ZAC DE LA CLIE 86240 ITEUIL En votre qualité d'employeur, la présente attestation de fourniture des déclarations et de paiement des cotisations de Sécurité sociale et d'allocations familiales, de contributions d'assurance chômage et de cotisations AGS, vous est délivrée : - pour un effectif moyen mensuel de 71 salariés, L'effectif moyen mensuel calculé par l Urssaf à partir des données issues de votre DSN - pour une masse salariale de 198835 euros, - au titre du mois de mai 2025, - et au titre du (des) établissement(s) suivant(s) : ATTESTATION DE L'UNION DE RECOUVREMENT Le Directeur soussigné certifie qu'au titre du (des) établissement(s) ci-dessus désigné(s), l'entreprise est à jour de ses obligations en matière de cotisations de Sécurité sociale et d'allocations familiales, de contributions d'assurance chômage, de cotisations AGS*, et d'obligation d'emploi des travailleurs handicapés** à la date du 31/05/2025. * Cette attestation concerne les contributions d'assurance chômage et cotisations AGS dues au titre des rémunérations versées à compter du 1er janvier 2011. Pour les périodes antérieures à cette date, il convient de se rapprocher de Pôle Emploi. ** Cette attestation concerne les contributions liées à l obligntreprise y est assujettie. Pour les périodes antérieures à cette date, il convient de se rapprocher de l Agefiph. La présente attestation ne préjuge pas de l'exactitude des bases sur lesquelles elle a été établie et ne vaut pas renonciation au recouvrement des éventuelles créances contestées. Fait à : POITIERS le : 11/07/2025 ÉTABLISSEMENTS CONCERNÉS NUM RO SIRET ZAC DE LA CLIE 86240 ITEUIL 32558069400041 SECTIONNELLE 21 64 RTE DE CHATELLERAULT BAT 86100 ANTRAN 32558069400058'''}
]
text = tokenizer.apply_chat_template(
messages,
tokenize = False,
add_generation_prompt = True,
).removeprefix('<bos>')
from transformers import TextStreamer
_ = model.generate(
**tokenizer(text, return_tensors = "pt").to("cuda"),
max_new_tokens = 1000,
temperature = 1, top_p = 0.95, top_k = 64,
streamer = TextStreamer(tokenizer, skip_prompt = True),
)
⚖️ License & Ownership
This model weights are a sovereign asset owned by titou4ng. Generated via Smolify.ai.
- Downloads last month
- 11
