Spaces:

MedInjection-FR
/

README

Running

App Files Files Community

MedInjection-FR commited on Oct 22, 2025

Commit

4543f66

verified ·

1 Parent(s): 1a07fbd

Update index.html

Browse files

Files changed (1) hide show

index.html +56 -24

index.html CHANGED Viewed

@@ -12,7 +12,7 @@
       <div class="wrap">
         <h1>MedInjection-FR</h1>
         <p class="subtitle">A French biomedical instruction dataset and model suite</p>
-        <p class="meta">Native • Synthetic • Translated | 577,577 instruction–response pairs</p>
         <div class="cta-row">
           <a class="btn primary" href="#download">Download</a>
           <a class="btn" href="#models">Models</a>
@@ -34,9 +34,9 @@
         </p>
         <ul class="pill-list">
           <li>Native: <strong>77,247</strong></li>
-          <li>Synthetic: <strong>82,269</strong></li>
-          <li>Translated: <strong>418,061</strong></li>
-          <li>Total: <strong>577,577</strong></li>
         </ul>
       </section>
@@ -60,9 +60,9 @@
               </thead>
               <tbody>
                 <tr><td>Native</td><td>57,563</td><td>5,055</td><td>14,629</td><td>77,247</td></tr>
-                <tr><td>Synthetic</td><td>82,269</td><td>—</td><td>—</td><td>82,269</td></tr>
-                <tr><td>Translated</td><td>367,704</td><td>38,337</td><td>12,020</td><td>418,061</td></tr>
-                <tr class="total"><td>Total</td><td>507,536</td><td>43,392</td><td>26,649</td><td>577,577</td></tr>
               </tbody>
             </table>
           </div>
@@ -124,28 +124,66 @@ print(ds)
           <li>QWEN-4B-NAT-TRAD</li>
           <li>QWEN-4B-NAT-SYN</li>
           <li>QWEN-4B-TRAD-SYN</li>
-          <li>QWEN-4B-COMBO</li>
         </ul>
         <div class="grid-3 tight">
           <a class="tile" href="./models/qwen-4b-nat/" target="_blank"><h3>NAT</h3><p>Best single-source (MCQ/MCQU).</p></a>
           <a class="tile" href="./models/qwen-4b-nat-trad/" target="_blank"><h3>NAT-TRAD</h3><p>Top mixed configuration.</p></a>
-          <a class="tile" href="./models/qwen-4b-combo/" target="_blank"><h3>COMBO</h3><p>All sources combined.</p></a>
         </div>
         <h3>Quick inference (🤗 Transformers)</h3>
         <pre><code class="code">
 from transformers import AutoModelForCausalLM, AutoTokenizer
-import torch
-model_id = "your-org/qwen-4b-nat-trad"  # pick one of the released models
-tok = AutoTokenizer.from_pretrained(model_id)
-model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=torch.float16, device_map="auto")
-prompt = "Question: Quelle est la prise en charge initiale d'un OAP ?\nChoix: A) ... B) ... C) ... D) ...\nRépondez par la lettre."
-inputs = tok(prompt, return_tensors="pt").to(model.device)
-out = model.generate(**inputs, max_new_tokens=64)
-print(tok.decode(out[0], skip_special_tokens=True))
         </code></pre>
       </section>
@@ -175,13 +213,7 @@ print(tok.decode(out[0], skip_special_tokens=True))
         <h2>Citation</h2>
         <p>If you use MedInjection-FR or the models, please cite:</p>
         <pre><code class="code">
-@inproceedings{medinjection-fr-2025,
-  title   = {MedInjection-FR: Investigating Data Provenance for French Biomedical Instruction Tuning},
-  author  = {Your Name and Coauthors},
-  booktitle = {Proceedings of ...},
-  year    = {2025},
-  note    = {Dataset and models available on Hugging Face}
-}
         </code></pre>
       </section>

       <div class="wrap">
         <h1>MedInjection-FR</h1>
         <p class="subtitle">A French biomedical instruction dataset and model suite</p>
+        <p class="meta">Native • Synthetic • Translated | 570,154 instruction–response pairs</p>
         <div class="cta-row">
           <a class="btn primary" href="#download">Download</a>
           <a class="btn" href="#models">Models</a>
         </p>
         <ul class="pill-list">
           <li>Native: <strong>77,247</strong></li>
+          <li>Synthetic: <strong>76,506</strong></li>
+          <li>Translated: <strong>416,401</strong></li>
+          <li>Total: <strong>570,154</strong></li>
         </ul>
       </section>
               </thead>
               <tbody>
                 <tr><td>Native</td><td>57,563</td><td>5,055</td><td>14,629</td><td>77,247</td></tr>
+                <tr><td>Synthetic</td><td>76,506</td><td>—</td><td>—</td><td>76,506</td></tr>
+                <tr><td>Translated</td><td>366,370 </td><td>38,011</td><td>12,020</td><td>416,401</td></tr>
+                <tr class="total"><td>Total</td><td>500,439</td><td>43,066</td><td>26,649</td><td>570,154</td></tr>
               </tbody>
             </table>
           </div>
           <li>QWEN-4B-NAT-TRAD</li>
           <li>QWEN-4B-NAT-SYN</li>
           <li>QWEN-4B-TRAD-SYN</li>
+          <li>QWEN-4B-ALL</li>
         </ul>
         <div class="grid-3 tight">
           <a class="tile" href="./models/qwen-4b-nat/" target="_blank"><h3>NAT</h3><p>Best single-source (MCQ/MCQU).</p></a>
           <a class="tile" href="./models/qwen-4b-nat-trad/" target="_blank"><h3>NAT-TRAD</h3><p>Top mixed configuration.</p></a>
+          <a class="tile" href="./models/QWEN-4B-ALL/" target="_blank"><h3>ALL</h3><p>All sources combined.</p></a>
         </div>
         <h3>Quick inference (🤗 Transformers)</h3>
         <pre><code class="code">
 from transformers import AutoModelForCausalLM, AutoTokenizer
+model_name = "MedInjection-FR/QWEN-4B-NAT-TRAD"
+# load the tokenizer and the model
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+model = AutoModelForCausalLM.from_pretrained(
+    model_name,
+    torch_dtype="auto",
+    device_map="auto"
+)
+# prepare the model input
+prompt = """Un professionnel de santé de 54 ans consulte un spécialiste des maladies infectieuses pour un suivi concernant un diagnostic récent d'hépatite C chronique.
+          Il s'est initialement présenté avec des symptômes tels que fatigue, malaise et enzymes hépatiques élevées et soupçonne d'avoir contracté l'infection à la suite
+          d'une piqûre d'aiguille il y a des années. Malgré le début du traitement, son titre viral reste élevé, ce qui incite le médecin à ajouter un nouveau médicament
+          qui inhibe la maturation virale en bloquant la synthèse des protéines. Quel est l'effet indésirable le plus probable de ce médicament ?
+          Choix de réponses :
+          (A) Uropathie cristalline obstructive
+          (B) Suppression de la moelle osseuse
+          (C) Insomnie et irritabilité
+          (D) Céphalées et photosensibilité
+          (E) Rêves lucides
+          (F) Hyperbilirubinémie
+          (G) Pancréatite
+          (H) Neuropathie périphérique
+          (I) Augmentation de la créatine kinase
+          (J) Alopécie"""
+messages = [
+    {"role": "user", "content": prompt}
+]
+text = tokenizer.apply_chat_template(
+    messages,
+    tokenize=False,
+    add_generation_prompt=True,
+)
+model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
+# conduct text completion
+generated_ids = model.generate(
+    **model_inputs,
+    max_new_tokens=1
+)
+output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()
+content = tokenizer.decode(output_ids, skip_special_tokens=True)
+print("content:", content)
         </code></pre>
       </section>
         <h2>Citation</h2>
         <p>If you use MedInjection-FR or the models, please cite:</p>
         <pre><code class="code">
         </code></pre>
       </section>