Add 9-head Gemma BTRM (6 corpus + 3 structural genre heads)

Browse files

Files changed (11) hide show

.gitattributes +1 -0
gemma_9head_btrm/README.md +123 -0
gemma_9head_btrm/base_model/chat_template.jinja +47 -0
gemma_9head_btrm/base_model/config.json +54 -0
gemma_9head_btrm/base_model/generation_config.json +11 -0
gemma_9head_btrm/base_model/model.safetensors +3 -0
gemma_9head_btrm/base_model/special_tokens_map.json +33 -0
gemma_9head_btrm/base_model/tokenizer.json +3 -0
gemma_9head_btrm/base_model/tokenizer_config.json +0 -0
gemma_9head_btrm/btrm_heads.pt +3 -0
gemma_9head_btrm/config.yaml +270 -0

.gitattributes CHANGED Viewed

@@ -35,3 +35,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 gemma_btrm/base_model/tokenizer.json filter=lfs diff=lfs merge=lfs -text
 qwen_btrm/base_model/tokenizer.json filter=lfs diff=lfs merge=lfs -text

 *tfevents* filter=lfs diff=lfs merge=lfs -text
 gemma_btrm/base_model/tokenizer.json filter=lfs diff=lfs merge=lfs -text
 qwen_btrm/base_model/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+gemma_9head_btrm/base_model/tokenizer.json filter=lfs diff=lfs merge=lfs -text

gemma_9head_btrm/README.md ADDED Viewed

	@@ -0,0 +1,123 @@

+# BTRM 9-Head Gemma-3 270M
+A multi-head Bradley-Terry Reward Model trained on situated dialogue corpora from video games and synthetic settings.
+## Model Details
+- **Base Model**: `google/gemma-3-270m-it`
+- **Architecture**: 9 classification heads on frozen transformer + trained BTRM projection
+- **Hidden Dim**: 640
+- **Training**: 10 epochs, 2000 batches/epoch, batch size 4
+- **Training Time**: 160 minutes on single GPU
+- **Final Loss**: 0.3240
+## Heads
+### Corpus Membership Heads (6)
+These heads score whether text belongs to a specific narrative setting:
+| Head | Description | Training Samples |
+|------|-------------|------------------|
+| `skyrim` | Nordic fantasy RPG (TES V) | ~2,500 |
+| `oblivion` | Imperial fantasy RPG (TES IV) | ~2,300 |
+| `fonv` | Post-apocalyptic Western (Fallout NV) | ~2,400 |
+| `gallia` | Franco-Roman bureaucratic fantasy (synthetic) | ~2,300 |
+| `marmotte` | Alpine corporate dystopia (synthetic) | ~2,200 |
+| `sanguo` | Three Kingdoms romance/otome (synthetic) | ~1,700 |
+### Structural Genre Heads (3)
+These heads score text format/style rather than setting:
+| Head | Description |
+|------|-------------|
+| `multiturn_dialogue` | Raw quoted dialogue walks |
+| `fk_normed_prose` | Flesch-Kincaid controlled prose |
+| `brainrot_aesop` | Vocabulary teaching passages with embedded definitions |
+## Training Data
+Total: **26,816 positive samples** across all heads
+### Reference Corpora (extracted from games)
+- Skyrim, Oblivion, Fallout NV dialogue with emotion annotations
+- FK-normed prose rewrites at controlled reading levels
+- Brainrot aesops (vocabulary teaching passages)
+### Synthetic Corpora (generated via translation pipeline)
+- Gallia v9, Marmotte v6, Sanguo v1 synthetic dialogue graphs
+- Translated through structural parser → translation engine pipeline
+- Same FK/aesops treatment as reference corpora
+### Negative Samples
+- **soft_neg**: Cross-corpus prose (other settings' FK/aesops)
+- **semi_firm_neg**: Out-of-domain (SYNTH reasoning, Wattpad fiction)
+- **furthest_neg**: Wrong format (FineWeb webscrape, WikiText)
+## Evaluation Results
+Tested on hand-written samples matching each setting's style:
+| Sample | Top Corpus Head | Expected | Match |
+|--------|----------------|----------|-------|
+| "The Dragonborn approaches the ancient Nordic temple..." | skyrim (+1.04) | skyrim | ✓ |
+| "By the Nine Divines! The Imperial Legion..." | oblivion (+0.60) | oblivion | ✓ |
+| "Patrolling the Mojave almost makes you wish..." | marmotte (+0.68) | fonv | ✗ |
+| "The Prefecture's bureaucrats stamped..." | oblivion (+0.57) | gallia | ✗ |
+| "The alpine facility hummed with corporate machinery..." | marmotte (+1.13) | marmotte | ✓ |
+| "General Zhou studied the map..." | skyrim (+0.33) | sanguo | ✗ |
+### Observations
+1. **Reference corpora discriminate better** than synthetic (skyrim/oblivion work well, gallia/sanguo don't)
+2. **Structural heads work excellently**:
+   - `fk_normed_prose` consistently high (+1.0 to +1.5) for all prose
+   - `brainrot_aesop` consistently low (-1.0 to -1.4) for non-aesop text
+   - `multiturn_dialogue` consistently low for prose
+3. **Setting confusion**: FoNV line classified as marmotte (both have dystopian vibes)
+4. **Synthetic settings need more training data** for better separation
+## Usage
+```python
+from scripts.train_btrm import MultiHeadBTRM
+# Load model
+model = MultiHeadBTRM.load("models/btrm_9head_gemma_test")
+# Score text
+scores = model.score(["Your text here"])
+# Returns: {"skyrim": [...], "oblivion": [...], ...}
+```
+Or via CLI:
+```bash
+python scripts/train_btrm.py score \
+  -m models/btrm_9head_gemma_test \
+  -i input.jsonl \
+  -o output.jsonl
+```
+## Files
+```
+models/btrm_9head_gemma_test/
+├── base_model/          # Gemma-3 270M weights + tokenizer
+├── btrm_heads.pt        # Trained BTRM head weights
+├── config.yaml          # Full training configuration
+└── README.md            # This file
+```
+## Training Configuration
+- Learning rate: 5e-5
+- Warmup steps: 200
+- Logsquare weight: 0.01
+- Max sequence length: 2048
+- Gradient checkpointing: enabled
+- Mixed precision: bfloat16
+- Logit cap: ±10.0 (soft tanh)
+## License
+Model weights derived from Google Gemma-3 (see Gemma license).
+Training data from Bethesda game dialogue (fair use for research) and synthetic generation.

gemma_9head_btrm/base_model/chat_template.jinja ADDED Viewed

	@@ -0,0 +1,47 @@

+{{ bos_token }}
+{%- if messages[0]['role'] == 'system' -%}
+    {%- if messages[0]['content'] is string -%}
+        {%- set first_user_prefix = messages[0]['content'] + '
+' -%}
+    {%- else -%}
+        {%- set first_user_prefix = messages[0]['content'][0]['text'] + '
+' -%}
+    {%- endif -%}
+    {%- set loop_messages = messages[1:] -%}
+{%- else -%}
+    {%- set first_user_prefix = "" -%}
+    {%- set loop_messages = messages -%}
+{%- endif -%}
+{%- for message in loop_messages -%}
+    {%- if (message['role'] == 'user') != (loop.index0 % 2 == 0) -%}
+        {{ raise_exception("Conversation roles must alternate user/assistant/user/assistant/...") }}
+    {%- endif -%}
+    {%- if (message['role'] == 'assistant') -%}
+        {%- set role = "model" -%}
+    {%- else -%}
+        {%- set role = message['role'] -%}
+    {%- endif -%}
+    {{ '<start_of_turn>' + role + '
+' + (first_user_prefix if loop.first else "") }}
+    {%- if message['content'] is string -%}
+        {{ message['content'] | trim }}
+    {%- elif message['content'] is iterable -%}
+        {%- for item in message['content'] -%}
+            {%- if item['type'] == 'image' -%}
+                {{ '<start_of_image>' }}
+            {%- elif item['type'] == 'text' -%}
+                {{ item['text'] | trim }}
+            {%- endif -%}
+        {%- endfor -%}
+    {%- else -%}
+        {{ raise_exception("Invalid content type") }}
+    {%- endif -%}
+    {{ '<end_of_turn>
+' }}
+{%- endfor -%}
+{%- if add_generation_prompt -%}
+    {{'<start_of_turn>model
+'}}
+{%- endif -%}

gemma_9head_btrm/base_model/config.json ADDED Viewed

	@@ -0,0 +1,54 @@

+{
+  "_sliding_window_pattern": 6,
+  "architectures": [
+    "Gemma3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "attn_logit_softcapping": null,
+  "bos_token_id": 2,
+  "dtype": "bfloat16",
+  "eos_token_id": 1,
+  "final_logit_softcapping": null,
+  "head_dim": 256,
+  "hidden_activation": "gelu_pytorch_tanh",
+  "hidden_size": 640,
+  "initializer_range": 0.02,
+  "intermediate_size": 2048,
+  "layer_types": [
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 32768,
+  "model_type": "gemma3_text",
+  "num_attention_heads": 4,
+  "num_hidden_layers": 18,
+  "num_key_value_heads": 1,
+  "pad_token_id": 0,
+  "query_pre_attn_scalar": 256,
+  "rms_norm_eps": 1e-06,
+  "rope_local_base_freq": 10000.0,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "sliding_window": 512,
+  "transformers_version": "4.57.3",
+  "use_bidirectional_attention": false,
+  "use_cache": true,
+  "vocab_size": 262144
+}

gemma_9head_btrm/base_model/generation_config.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+  "cache_implementation": "hybrid",
+  "do_sample": true,
+  "eos_token_id": [
+    1,
+    106
+  ],
+  "top_k": 64,
+  "top_p": 0.95,
+  "transformers_version": "4.57.3"
+}

gemma_9head_btrm/base_model/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9f6ebba80d4f2cd80a980ead8957990e23b3794a5960346c2ebfde766c80bd54
+size 536223056

gemma_9head_btrm/base_model/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "boi_token": "<start_of_image>",
+  "bos_token": {
+    "content": "<bos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eoi_token": "<end_of_image>",
+  "eos_token": {
+    "content": "<eos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "image_token": "<image_soft_token>",
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

gemma_9head_btrm/base_model/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7ddf8d949394a54aa836de565a77ee97e4e800252b8ab5c3f85eb6bc445354f7
+size 33384821

gemma_9head_btrm/base_model/tokenizer_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

gemma_9head_btrm/btrm_heads.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4e178cba18a40c3b7bd2f39d32aa147f516ff5ccfcaa34f9bbbf81cbef2ebbda
+size 27837

gemma_9head_btrm/config.yaml ADDED Viewed

	@@ -0,0 +1,270 @@

+amp_dtype: bfloat16
+api_buffer_size: 200
+api_games:
+- oblivion
+- falloutnv
+- skyrim
+api_url: http://127.0.0.1:8000
+api_walks_per_batch: 2
+base_model: google/gemma-3-270m-it
+batch_size: 4
+epochs: 10
+gradient_checkpointing: true
+heads:
+- description: All prose derived from Skyrim - Nordic fantasy RPG
+  name: skyrim
+  positive_paths: []
+  positive_splits:
+  - skyrim_fk
+  - skyrim_aesops
+  - skyrim_dialogue
+  positive_text_field: auto
+  positive_tier_filter: fk_normed
+- description: All prose derived from Oblivion - Imperial fantasy RPG
+  name: oblivion
+  positive_paths: []
+  positive_splits:
+  - oblivion_fk
+  - oblivion_aesops
+  - oblivion_dialogue
+  positive_text_field: auto
+  positive_tier_filter: fk_normed
+- description: All prose derived from Fallout NV - Post-apocalyptic Western RPG
+  name: fonv
+  positive_paths: []
+  positive_splits:
+  - fonv_fk
+  - fonv_aesops
+  - fonv_dialogue
+  positive_text_field: auto
+  positive_tier_filter: fk_normed
+- description: Synthetic Gallia setting - Franco-Roman bureaucratic fantasy
+  name: gallia
+  positive_paths: []
+  positive_splits:
+  - gallia_fk
+  - gallia_aesops
+  - gallia_dialogue
+  positive_text_field: auto
+  positive_tier_filter: fk_normed
+- description: Synthetic Marmotte setting - Alpine corporate dystopia
+  name: marmotte
+  positive_paths: []
+  positive_splits:
+  - marmotte_fk
+  - marmotte_aesops
+  - marmotte_dialogue
+  positive_text_field: auto
+  positive_tier_filter: fk_normed
+- description: Synthetic Sanguo Otome setting - Three Kingdoms romance with HSI stat
+  name: sanguo
+  positive_paths: []
+  positive_splits:
+  - sanguo_fk
+  - sanguo_aesops
+  - sanguo_dialogue
+  positive_text_field: auto
+  positive_tier_filter: fk_normed
+- description: Raw multi-turn dialogue walks (quoted lines, not prose)
+  name: multiturn_dialogue
+  negative_splits:
+  - all_fk_as_soft_neg
+  - all_aesops_as_soft_neg
+  positive_paths: []
+  positive_splits:
+  - skyrim_dialogue
+  - oblivion_dialogue
+  - fonv_dialogue
+  - gallia_dialogue
+  - marmotte_dialogue
+  - sanguo_dialogue
+  positive_text_field: auto
+  positive_tier_filter: fk_normed
+- description: FK-normed prose passages (controlled reading level)
+  name: fk_normed_prose
+  positive_paths: []
+  positive_splits:
+  - skyrim_fk
+  - oblivion_fk
+  - fonv_fk
+  - gallia_fk
+  - marmotte_fk
+  - sanguo_fk
+  positive_text_field: auto
+  positive_tier_filter: fk_normed
+- description: Vocabulary teaching passages with embedded definitions
+  name: brainrot_aesop
+  positive_paths: []
+  positive_splits:
+  - skyrim_aesops
+  - oblivion_aesops
+  - fonv_aesops
+  - gallia_aesops
+  - marmotte_aesops
+  - sanguo_aesops
+  positive_text_field: auto
+  positive_tier_filter: fk_normed
+logit_cap: 10.0
+logsquare_weight: 0.01
+lora_alpha: 32
+lora_r: 16
+lr: 5.0e-05
+max_batches: 2000
+max_length: 2048
+neg_samples_per_tier: 300
+soft_neg_paths: []
+splits:
+  all_aesops_as_soft_neg:
+    files:
+    - dialogue_data/prose/skyrim_training_aesops.jsonl
+    - dialogue_data/prose/skyrim_batch2_aesops.jsonl
+    - dialogue_data/prose/oblivion_training_aesops.jsonl
+    - dialogue_data/prose/oblivion_batch2_aesops.jsonl
+    - dialogue_data/prose/falloutnv_training_aesops.jsonl
+    - dialogue_data/prose/falloutnv_batch2_aesops.jsonl
+    - output/gallia_v9_training_aesops.jsonl
+    - output/marmotte_v6_training_aesops.jsonl
+    - output/sanguo_v1_training_aesops.jsonl
+    neg_tier: soft_neg
+    text_field: auto
+    tier_filter: brainrot_aesop
+  all_fk_as_soft_neg:
+    files:
+    - dialogue_data/prose/skyrim_training_fk.jsonl
+    - dialogue_data/prose/skyrim_batch2_fk.jsonl
+    - dialogue_data/prose/oblivion_training_fk.jsonl
+    - dialogue_data/prose/oblivion_batch2_fk.jsonl
+    - dialogue_data/prose/falloutnv_training_fk.jsonl
+    - dialogue_data/prose/falloutnv_batch2_fk.jsonl
+    - output/gallia_v9_training_fk.jsonl
+    - output/marmotte_v6_training_fk.jsonl
+    - output/sanguo_v1_training_fk.jsonl
+    neg_tier: soft_neg
+    text_field: auto
+    tier_filter: fk_normed
+  fonv_aesops:
+    files:
+    - dialogue_data/prose/falloutnv_training_aesops.jsonl
+    - dialogue_data/prose/falloutnv_batch2_aesops.jsonl
+    text_field: auto
+    tier_filter: brainrot_aesop
+  fonv_dialogue:
+    files:
+    - dialogue_data/prose/falloutnv_training_fk.jsonl
+    - dialogue_data/prose/falloutnv_batch2_fk.jsonl
+    text_field: auto
+    tier_filter: flattened
+  fonv_fk:
+    files:
+    - dialogue_data/prose/falloutnv_training_fk.jsonl
+    - dialogue_data/prose/falloutnv_batch2_fk.jsonl
+    text_field: auto
+    tier_filter: fk_normed
+  gallia_aesops:
+    files:
+    - output/gallia_v9_training_aesops.jsonl
+    - output/gallia_v9_batch2_aesops_aesops.jsonl
+    - output/gallia_v9_batch3_aesops.jsonl
+    text_field: auto
+    tier_filter: brainrot_aesop
+  gallia_dialogue:
+    files:
+    - output/gallia_v9_training_fk.jsonl
+    - output/gallia_v9_batch2_fk.jsonl
+    - output/gallia_v9_batch3_fk.jsonl
+    text_field: auto
+    tier_filter: flattened
+  gallia_fk:
+    files:
+    - output/gallia_v9_training_fk.jsonl
+    - output/gallia_v9_batch2_fk.jsonl
+    - output/gallia_v9_batch3_fk.jsonl
+    text_field: auto
+    tier_filter: fk_normed
+  marmotte_aesops:
+    files:
+    - output/marmotte_v6_training_aesops.jsonl
+    - output/marmotte_v6_mega_aesops.jsonl
+    - output/marmotte_v6_batch2_aesops_aesops.jsonl
+    - output/marmotte_v6_batch3_aesops.jsonl
+    text_field: auto
+    tier_filter: brainrot_aesop
+  marmotte_dialogue:
+    files:
+    - output/marmotte_v6_training_fk.jsonl
+    - output/marmotte_v6_mega_fk.jsonl
+    - output/marmotte_v6_batch2_fk.jsonl
+    - output/marmotte_v6_batch3_fk.jsonl
+    text_field: auto
+    tier_filter: flattened
+  marmotte_fk:
+    files:
+    - output/marmotte_v6_training_fk.jsonl
+    - output/marmotte_v6_mega_fk.jsonl
+    - output/marmotte_v6_batch2_fk.jsonl
+    - output/marmotte_v6_batch3_fk.jsonl
+    text_field: auto
+    tier_filter: fk_normed
+  oblivion_aesops:
+    files:
+    - dialogue_data/prose/oblivion_training_aesops.jsonl
+    - dialogue_data/prose/oblivion_batch2_aesops.jsonl
+    text_field: auto
+    tier_filter: brainrot_aesop
+  oblivion_dialogue:
+    files:
+    - dialogue_data/prose/oblivion_training_fk.jsonl
+    - dialogue_data/prose/oblivion_batch2_fk.jsonl
+    text_field: auto
+    tier_filter: flattened
+  oblivion_fk:
+    files:
+    - dialogue_data/prose/oblivion_training_fk.jsonl
+    - dialogue_data/prose/oblivion_batch2_fk.jsonl
+    text_field: auto
+    tier_filter: fk_normed
+  sanguo_aesops:
+    files:
+    - output/sanguo_v1_training_aesops.jsonl
+    - output/sanguo_v1_batch2_aesops_aesops.jsonl
+    text_field: auto
+    tier_filter: brainrot_aesop
+  sanguo_dialogue:
+    files:
+    - output/sanguo_v1_training_fk.jsonl
+    - output/sanguo_v1_batch2_fk.jsonl
+    text_field: auto
+    tier_filter: flattened
+  sanguo_fk:
+    files:
+    - output/sanguo_v1_training_fk.jsonl
+    - output/sanguo_v1_batch2_fk.jsonl
+    text_field: auto
+    tier_filter: fk_normed
+  skyrim_aesops:
+    files:
+    - dialogue_data/prose/skyrim_training_aesops.jsonl
+    - dialogue_data/prose/skyrim_batch2_aesops.jsonl
+    text_field: auto
+    tier_filter: brainrot_aesop
+  skyrim_dialogue:
+    files:
+    - dialogue_data/prose/skyrim_training_fk.jsonl
+    - dialogue_data/prose/skyrim_batch2_fk.jsonl
+    text_field: auto
+    tier_filter: flattened
+  skyrim_fk:
+    files:
+    - dialogue_data/prose/skyrim_training_fk.jsonl
+    - dialogue_data/prose/skyrim_batch2_fk.jsonl
+    text_field: auto
+    tier_filter: fk_normed
+use_amp: true
+use_api_walks: false
+use_fineweb: true
+use_lora: false
+use_meta_prompt: true
+use_synth: true
+use_wattpad: true
+use_wikitext: true
+warmup_steps: 200