lamm-mit
/

BeamPERL

Text Generation

reinforcement-learning

structural-engineering

Model card Files Files and versions

mjbuehler commited on 2 days ago

Commit

a036343

·

verified ·

1 Parent(s): f29cc3c

Update README.md

Updated arXiv reference; datasets

Files changed (1) hide show

README.md +21 -17

README.md CHANGED Viewed

@@ -2,17 +2,20 @@
 license: apache-2.0
 base_model: deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B
 tags:
-  - reinforcement-learning
-  - grpo
-  - peft
-  - lora
-  - beam-mechanics
-  - structural-engineering
-  - math
-  - reasoning
 language:
-  - en
 pipeline_tag: text-generation
 ---
 # BeamPERL — DeepSeek-R1-Distill-Qwen-1.5B
@@ -65,15 +68,16 @@ LoRA adapters were trained using GRPO via the [BeamPERL framework](https://githu
 ## Citation
 ```bibtex
-@misc{hage2025beamperl,
-  title={BeamPERL: Parameter-Efficient Reinforcement Learning for Verifiable Beam Mechanics Problem-Solving},
-  author={Tarjei P. Hage and Markus J. Buehler},
-  year={2025},
-  archivePrefix={arXiv},
-  primaryClass={cs.CL}
-}
 ```
 ## Acknowledgements
-Built upon [Tina](https://arxiv.org/abs/2504.15777) and [Open R1](https://github.com/huggingface/open-r1). Dataset generation uses a custom version of [SymBeam](https://github.com/amcc1996/symbeam).

 license: apache-2.0
 base_model: deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B
 tags:
+- reinforcement-learning
+- grpo
+- peft
+- lora
+- beam-mechanics
+- structural-engineering
+- math
+- reasoning
 language:
+- en
 pipeline_tag: text-generation
+datasets:
+- lamm-mit/BeamRL-TrainData
+- lamm-mit/BeamRL-EvalData
 ---
 # BeamPERL — DeepSeek-R1-Distill-Qwen-1.5B
 ## Citation
 ```bibtex
+@misc{hage2026beamperlparameterefficientrlverifiable,
+      title={BeamPERL: Parameter-Efficient RL with Verifiable Rewards Specializes Compact LLMs for Structured Beam Mechanics Reasoning},
+      author={Tarjei Paule Hage and Markus J. Buehler},
+      year={2026},
+      eprint={2603.04124},
+      archivePrefix={arXiv},
+      primaryClass={cs.AI},
+      url={https://arxiv.org/abs/2603.04124},
 ```
 ## Acknowledgements
+Built upon [Tina](https://arxiv.org/abs/2504.15777) and [Open R1](https://github.com/huggingface/open-r1). Dataset generation uses a custom version of [SymBeam](https://github.com/amcc1996/symbeam).