lamm-mit
/

Graph-Preflexor-8b_12292025

Text Generation

text-generation-inference

Model card Files Files and versions

mjbuehler commited on Jan 8

Commit

85d64ca

·

verified ·

1 Parent(s): 39306f4

Update README.md

Files changed (1) hide show

README.md +4 -4

README.md CHANGED Viewed

@@ -22,7 +22,7 @@ cd graph-preflexor-grpo
 Training run ORPO, then Graph-GRPO:
-```python
 python ./src/run_orpo_graph.py
 --base_model Qwen/Qwen3-8B
 --dataset lamm-mit/graph_reasoning_1K
@@ -37,13 +37,13 @@ python ./src/run_orpo_graph.py
 Test warm-start model:
-```python
-python ./src/test_model.py --model ./orpo-graph_v40
 ```
 Graph-GRPO phase:
-```python
 python ./src/run_grpo_graph.py
 --base_model_dir lamm-mit/orpo-graph
 --dataset lamm-mit/graph_reasoning_1K

 Training run ORPO, then Graph-GRPO:
+```bash
 python ./src/run_orpo_graph.py
 --base_model Qwen/Qwen3-8B
 --dataset lamm-mit/graph_reasoning_1K
 Test warm-start model:
+```bash
+python ./src/test_model.py --model ./orpo-graph
 ```
 Graph-GRPO phase:
+```bash
 python ./src/run_grpo_graph.py
 --base_model_dir lamm-mit/orpo-graph
 --dataset lamm-mit/graph_reasoning_1K