Update sentinel-mb-c-d11 release bundle

Browse files

Files changed (12) hide show

README.md +110 -3
config.json +395 -0
configuration_sentinel.py +74 -0
metadata.json +589 -0
metrics.json +997 -0
model.safetensors +3 -0
modeling_sentinel.py +294 -0
pipeline_sentinel.py +103 -0
results.md +0 -0
special_tokens_map.json +37 -0
tokenizer.json +0 -0
tokenizer_config.json +945 -0

README.md CHANGED Viewed

@@ -1,7 +1,114 @@
 ---
-license: apache-2.0
 language:
 - en
 base_model:
-- FacebookAI/roberta-large
----

 ---
+license: other
 language:
 - en
 base_model:
+- answerdotai/ModernBERT-base
+library_name: transformers
+pipeline_tag: text-classification
+tags:
+- custom
+- compliance
+- finance
+- risk-detection
+- text-classification
+- sentinel-stage-a
+- limited-functionality
+- model-version:sentinel-mb-c-d11-20260424
+widget:
+- text: "Subject: Portfolio review follow-up. Hi Karen, following our quarterly review, I recommend trimming part of the concentrated technology position and reallocating the proceeds into the municipal bond ladder we discussed. This should reduce single-name exposure while keeping the account aligned with your income objective."
+  example_title: "Portfolio review follow-up"
+- text: "Subject: Structured note opportunity. Hi Michael, I wanted to flag a new structured note that may fit the income sleeve of your portfolio. The note offers enhanced coupon potential, but it is subject to issuer credit risk, market risk, and downside participation if the reference index falls below the stated buffer."
+  example_title: "Structured note email"
+---
+# sentinel-01-pub
+`sentinel-01-pub` is a limited-functionality public Aurelex Sentinel Stage A model for demonstration and evaluation of wealth-management communications risk review. It is not a production Aurelex model and must not be treated as legal, compliance, or investment advice.
+## Publisher And Ownership
+- Model developed by Aurelex AI Corp.
+- Published in collaboration with Ratio1.
+- Contact: [hello@aurelexai.com](mailto:hello@aurelexai.com).
+- All intellectual property rights in the model remain with Aurelex AI Corp.
+This repository is intended to publish only the designated limited-functionality model artifact and its required Hugging Face runtime files. It does not include proprietary training data, system prompts, production models, or internal Aurelex architecture details beyond the information needed to load and evaluate this public artifact.
+## Identity
+- Repo ID: `AurelexAI/sentinel-01-pub`
+- Model key: `sentinel-mb-c-d11`
+- Model version: `sentinel-mb-c-d11-20260424`
+- Release channel: `sentinel-01-pub`
+- Base model: `answerdotai/ModernBERT-base`
+- Artifact format: `transformers_end_to_end`
+- Publication status: public, approved by Aurelex on 2026-04-28
+The model was selected as a public, lower-capacity, limited-functionality variant. It is separate from Aurelex production channels and full-featured internal models.
+## Loading From Hugging Face
+```python
+from transformers import pipeline
+MODEL_ID = "AurelexAI/sentinel-01-pub"
+audit = pipeline(
+  "sentinel-stage-a",
+  model=MODEL_ID,
+  tokenizer=MODEL_ID,
+  trust_remote_code=True,
+)
+result = audit(
+  "Subject: Portfolio review follow-up. Hi Karen, following our quarterly "
+  "review, I recommend trimming part of the concentrated technology position "
+  "and reallocating the proceeds into the municipal bond ladder we discussed."
+)
+model_version = getattr(audit.model.config, "model_version", MODEL_ID)
+print(result)
+print(model_version)
+```
+For reproducible evaluation, pin a reviewed Hub commit with `revision="<commit_sha>"`.
+## Outputs
+The pipeline returns a JSON-serializable dictionary for Sentinel Stage A labels: `violation`, `severity`, `domain`, `subtype`, `jurisdiction`, `why`, `impacted_principles`, `remediation_actions`, `content_type`, `audience_segment`, `detection_difficulty`, and `aggravating_factors`.
+These outputs are risk-review signals for human review. They are not final compliance determinations.
+## Evaluation
+Dataset: `2026-04-07-final-audit-clear-v1`, test split size `150`.
+| Metric | Test |
+| --- | ---: |
+| Stage-A | `0.751` |
+| Violation F1 | `0.993` |
+| Severity Acc | `0.727` |
+| Domain F1 | `0.803` |
+| Subtype F1 | `0.738` |
+| Jurisdiction Acc | `0.740` |
+| Why F1 | `0.684` |
+| Principles F1 | `0.703` |
+| Remediation F1 | `0.618` |
+| Aggravating F1 | `0.655` |
+## Repository Contents
+- `model.safetensors`: serialized public model artifact.
+- `config.json`: custom Transformers config, pipeline registration, and public release metadata.
+- `configuration_sentinel.py`, `modeling_sentinel.py`, `pipeline_sentinel.py`: Hugging Face runtime code required to load this artifact.
+- tokenizer files: tokenizer assets used by the model.
+- `metadata.json`: dataset signature, output signature, thresholds, and release metadata.
+- `metrics.json`: evaluation metrics for the selected model.
+- `results.md`: human-readable evaluation artifact.
+## Intended Use And Limits
+This model is intended for public demonstration and evaluation of automated first-pass risk signals in wealth-management communications. It is scoped to English client-communications examples under the dataset contract listed above.
+Do not use this model as a legal decision-maker, a substitute for qualified compliance review, a general-purpose moderation system, or evidence of performance outside the stated dataset scope. Aurelex AI Corp may request modification or removal of this repository at any time.

config.json ADDED Viewed

	@@ -0,0 +1,395 @@

+{
+  "architectures": [
+    "SentinelStageAModel"
+  ],
+  "auto_map": {
+    "AutoConfig": "configuration_sentinel.SentinelConfig",
+    "AutoModel": "modeling_sentinel.SentinelStageAModel"
+  },
+  "classifier_dropout": 0.1,
+  "custom_pipelines": {
+    "sentinel-stage-a": {
+      "impl": "pipeline_sentinel.SentinelStageAPipeline",
+      "pt": [
+        "AutoModel"
+      ],
+      "type": "text"
+    }
+  },
+  "dataset_signature": {
+    "counts": {
+      "dev": 150,
+      "test": 150,
+      "train": 900
+    },
+    "distribution": {
+      "dev": {
+        "clean": 8,
+        "risky": 142
+      },
+      "test": {
+        "clean": 8,
+        "risky": 142
+      },
+      "train": {
+        "clean": 297,
+        "risky": 603
+      }
+    },
+    "generator_version": "2026-04-07-final-audit-clear-v1"
+  },
+  "encoder_code_revision": null,
+  "encoder_config": {
+    "_attn_implementation_autoset": true,
+    "_name_or_path": "answerdotai/ModernBERT-base",
+    "add_cross_attention": false,
+    "architectures": [
+      "ModernBertForMaskedLM"
+    ],
+    "attention_bias": false,
+    "attention_dropout": 0.0,
+    "bad_words_ids": null,
+    "begin_suppress_tokens": null,
+    "bos_token_id": 50281,
+    "chunk_size_feed_forward": 0,
+    "classifier_activation": "gelu",
+    "classifier_bias": false,
+    "classifier_dropout": 0.0,
+    "classifier_pooling": "mean",
+    "cls_token_id": 50281,
+    "cross_attention_hidden_size": null,
+    "decoder_bias": true,
+    "decoder_start_token_id": null,
+    "deterministic_flash_attn": false,
+    "diversity_penalty": 0.0,
+    "do_sample": false,
+    "early_stopping": false,
+    "embedding_dropout": 0.0,
+    "encoder_no_repeat_ngram_size": 0,
+    "eos_token_id": 50282,
+    "exponential_decay_length_penalty": null,
+    "finetuning_task": null,
+    "forced_bos_token_id": null,
+    "forced_eos_token_id": null,
+    "global_attn_every_n_layers": 3,
+    "global_rope_theta": 160000.0,
+    "gradient_checkpointing": false,
+    "hidden_activation": "gelu",
+    "hidden_size": 768,
+    "id2label": {
+      "0": "LABEL_0",
+      "1": "LABEL_1"
+    },
+    "initializer_cutoff_factor": 2.0,
+    "initializer_range": 0.02,
+    "intermediate_size": 1152,
+    "is_decoder": false,
+    "is_encoder_decoder": false,
+    "label2id": {
+      "LABEL_0": 0,
+      "LABEL_1": 1
+    },
+    "layer_norm_eps": 1e-05,
+    "length_penalty": 1.0,
+    "local_attention": 128,
+    "local_rope_theta": 10000.0,
+    "max_length": 20,
+    "max_position_embeddings": 8192,
+    "min_length": 0,
+    "mlp_bias": false,
+    "mlp_dropout": 0.0,
+    "model_type": "modernbert",
+    "no_repeat_ngram_size": 0,
+    "norm_bias": false,
+    "norm_eps": 1e-05,
+    "num_attention_heads": 12,
+    "num_beam_groups": 1,
+    "num_beams": 1,
+    "num_hidden_layers": 22,
+    "num_return_sequences": 1,
+    "output_attentions": false,
+    "output_hidden_states": false,
+    "output_scores": false,
+    "pad_token_id": 50283,
+    "position_embedding_type": "absolute",
+    "prefix": null,
+    "problem_type": null,
+    "pruned_heads": {},
+    "reference_compile": null,
+    "remove_invalid_values": false,
+    "repad_logits_with_grad": false,
+    "repetition_penalty": 1.0,
+    "return_dict": true,
+    "return_dict_in_generate": false,
+    "sep_token_id": 50282,
+    "sparse_pred_ignore_index": -100,
+    "sparse_prediction": false,
+    "suppress_tokens": null,
+    "task_specific_params": null,
+    "temperature": 1.0,
+    "tf_legacy_loss": false,
+    "tie_encoder_decoder": false,
+    "tie_word_embeddings": true,
+    "tokenizer_class": null,
+    "top_k": 50,
+    "top_p": 1.0,
+    "torch_dtype": "float32",
+    "torchscript": false,
+    "transformers_version": "4.48.3",
+    "typical_p": 1.0,
+    "use_bfloat16": false,
+    "vocab_size": 50368
+  },
+  "encoder_config_overrides": {},
+  "encoder_model_name": "answerdotai/ModernBERT-base",
+  "encoder_revision": null,
+  "encoder_trust_remote_code": false,
+  "head_code": "c",
+  "head_div": 1,
+  "head_dropout": 0.1,
+  "head_mul": 1,
+  "head_skip": true,
+  "head_type": "columnar",
+  "head_variant": "d11",
+  "max_length": 512,
+  "model_key": "sentinel-mb-c-d11",
+  "model_type": "sentinel_stage_a",
+  "model_version": "sentinel-mb-c-d11-20260424",
+  "output_heads": [
+    "violation",
+    "severity",
+    "domain",
+    "subtype",
+    "jurisdiction",
+    "why",
+    "impacted_principles",
+    "remediation_actions",
+    "content_type",
+    "audience_segment",
+    "detection_difficulty",
+    "aggravating_factors"
+  ],
+  "output_signature": {
+    "aggravating_factors": {
+      "labels": [
+        "intentional",
+        "reckless",
+        "negligent",
+        "concealment_present",
+        "customer_harm_potential",
+        "financial_benefit_to_respondent",
+        "vulnerable_client",
+        "pattern_or_duration"
+      ],
+      "type": "multilabel"
+    },
+    "audience_segment": {
+      "labels": [
+        "client",
+        "internal",
+        "prospect_or_investor",
+        "public",
+        "third_party"
+      ],
+      "type": "multiclass"
+    },
+    "content_type": {
+      "labels": [
+        "email",
+        "message"
+      ],
+      "type": "multiclass"
+    },
+    "detection_difficulty": {
+      "labels": [
+        "obvious",
+        "moderate",
+        "subtle"
+      ],
+      "type": "multiclass"
+    },
+    "domain": {
+      "labels": [
+        "performance_claims_forecasting",
+        "investment_advice_suitability",
+        "conflicts_inducements",
+        "marketing_solicitation_advertising",
+        "selective_disclosure_fair_access",
+        "mnpi_insider_trading",
+        "recordkeeping_supervision",
+        "ai_automation_capability_claims",
+        "privacy_confidentiality",
+        "cybersecurity_internal_controls",
+        "employment_favoritism_role_conflict",
+        "aml_and_suspicious_activity",
+        "other_unknown"
+      ],
+      "type": "multiclass"
+    },
+    "impacted_principles": {
+      "labels": [
+        "truthful_non_misleading_communications",
+        "balanced_risk_reward_presentation",
+        "no_performance_guarantees_or_promissory_language",
+        "registration_and_scope_of_advice",
+        "duty_of_loyalty_conflict_disclosure",
+        "fair_access_to_material_information",
+        "insider_trading_and_mnpi_controls",
+        "supervision_and_books_records",
+        "privacy_confidentiality_and_secure_handling",
+        "security_control_integrity",
+        "role_separation_and_fair_access_in_academia",
+        "non_coercion_and_no_undue_influence",
+        "accurate_ai_capability_and_human_oversight",
+        "client_vulnerability_and_exploitation_prevention",
+        "aml_and_sanctions_compliance"
+      ],
+      "type": "multilabel"
+    },
+    "jurisdiction": {
+      "labels": [
+        "US",
+        "EU",
+        "UK",
+        "Other",
+        "Unknown"
+      ],
+      "type": "multiclass"
+    },
+    "remediation_actions": {
+      "labels": [
+        "add_forward_looking_disclaimer",
+        "reframe_as_scenarios_not_expectations",
+        "add_balanced_risk_and_downside_section",
+        "remove_or_soften_guarantee_language",
+        "remove_personalized_recommendations",
+        "add_registered_advice_boundary_language",
+        "disclose_conflicts_and_compensation",
+        "add_fees_costs_and_alternatives_comparison",
+        "use_standardized_approved_performance_materials",
+        "add_performance_methodology_and_gross_net_context",
+        "avoid_selective_disclosure_share_broadly",
+        "escalate_mnpi_to_compliance_and_halt",
+        "keep_discussion_on_retained_channels",
+        "require_formal_preapproval_before_send",
+        "remove_pressure_scarcity_and_use_factual_timeline",
+        "substantiation_or_remove_credibility_claims",
+        "add_testimonial_endorsement_and_rating_disclosure",
+        "make_required_disclosure_clear_and_prominent",
+        "avoid_minimizing_compliance_or_diligence",
+        "clarify_ai_is_assistive_with_human_review",
+        "remove_claims_that_ai_eliminates_risk",
+        "redact_and_minimize_sensitive_data",
+        "use_secure_transfer_and_limit_access",
+        "avoid_sharing_internal_controls_or_sanitize",
+        "route_academic_opportunities_through_institution",
+        "separate_recommendation_letters_from_work",
+        "assess_cost_to_equity_against_client_profile",
+        "flag_for_elder_exploitation_review_and_hold",
+        "assess_sar_filing_obligation_and_escalate",
+        "initiate_breach_notification_review_and_timeline",
+        "remove_provisions_impeding_regulatory_communications"
+      ],
+      "type": "multilabel"
+    },
+    "severity": {
+      "labels": [
+        "sev_0_compliant_or_ok",
+        "sev_1_minor",
+        "sev_2_moderate",
+        "sev_3_high"
+      ],
+      "type": "multiclass"
+    },
+    "subtype": {
+      "labels": [
+        "speculative_outcomes_unqualified",
+        "implicit_or_explicit_guarantee",
+        "risk_context_omitted_or_unbalanced",
+        "unregistered_personalized_investment_advice",
+        "undisclosed_economic_conflict_or_referral",
+        "pressure_or_coercion",
+        "selective_disclosure",
+        "mnpi_misuse_or_encouragement",
+        "recordkeeping_or_preapproval_evasion",
+        "ai_autonomy_or_safety_overstatement",
+        "credentials_validation_or_compliance_misrepresentation",
+        "confidential_data_leakage",
+        "internal_controls_or_exception_process_leakage",
+        "academic_commercial_role_blurring_or_quid_pro_quo",
+        "improper_solicitation_offering_pressure",
+        "excessive_trading_or_account_churning",
+        "product_switching_without_cost_benefit_analysis",
+        "dual_registrant_capacity_or_wrap_fee_conflict_confusion",
+        "elder_exploitation_or_vulnerable_client_signal",
+        "suspicious_activity_indicator_or_structuring",
+        "influencer_or_social_media_promotion_compliance_failure",
+        "crypto_asset_misrepresentation_or_inadequate_disclosure",
+        "other_unknown"
+      ],
+      "type": "multiclass"
+    },
+    "violation": {
+      "type": "binary"
+    },
+    "why": {
+      "labels": [
+        "forward_looking_statement_unqualified",
+        "guarantee_or_assurance_language",
+        "omits_material_risk_or_downside",
+        "implies_downside_protection_or_no_drawdown",
+        "cherry_picks_performance_period",
+        "omits_performance_methodology_or_gross_net_context",
+        "personalized_trade_or_allocation_recommendation",
+        "timing_or_sizing_guidance",
+        "creates_implied_advisory_relationship",
+        "conflict_not_disclosed",
+        "referral_relationship_not_disclosed",
+        "omits_fees_costs_or_reasonably_available_alternatives",
+        "selective_private_performance_or_fundraising_update",
+        "off_the_record_or_not_in_writing_language",
+        "mnpi_possession_indicated",
+        "encourages_action_before_public_release",
+        "avoid_recordkeeping_channel_shift",
+        "bypasses_required_preapproval",
+        "pressure_scarcity_urgency",
+        "unsubstantiated_social_proof_or_validation",
+        "omits_testimonial_endorsement_or_rating_disclosure",
+        "obscures_required_disclosure_or_form_crs",
+        "minimizes_need_for_diligence_or_compliance",
+        "overstates_ai_capability_or_removes_human_oversight",
+        "claims_compliance_risk_eliminated",
+        "shares_sensitive_personal_or_financial_data",
+        "violates_need_to_know_data_minimization",
+        "shares_sensitive_internal_controls_or_exceptions",
+        "role_power_imbalance_or_favoritism",
+        "excessive_trading_cost_to_equity",
+        "inadequate_customer_profile_or_suitability_basis",
+        "exploits_vulnerable_or_elderly_client",
+        "aml_suspicious_activity_indicator",
+        "omits_switching_costs_and_product_comparison",
+        "conflict_language_understates_actual_relationship",
+        "omits_influencer_compensation_or_affiliation_disclosure",
+        "misrepresents_sipc_or_regulatory_protection_for_crypto",
+        "data_breach_notification_obligation_triggered",
+        "impedes_regulatory_reporting_or_whistleblower_rights"
+      ],
+      "type": "multilabel"
+    }
+  },
+  "projection_size": 640,
+  "release_alias_of": null,
+  "release_channel": "sentinel-01-pub",
+  "release_repo_id": "AurelexAI/sentinel-01-pub",
+  "thresholds": {
+    "aggravating_factors": 0.4,
+    "impacted_principles": 0.7,
+    "remediation_actions": 0.5,
+    "violation": 0.5,
+    "why": 0.55
+  },
+  "tokenizer_class": "PreTrainedTokenizerFast",
+  "torch_dtype": "float32",
+  "trainable_head_params": 14325653,
+  "transformers_version": "4.48.3"
+}

configuration_sentinel.py ADDED Viewed

	@@ -0,0 +1,74 @@

+"""Configuration for self-contained Sentinel Stage A Transformers models."""
+from __future__ import annotations
+from typing import Any
+from transformers import PretrainedConfig
+class SentinelConfig(PretrainedConfig):
+  """Transformers config for an end-to-end Sentinel Stage A classifier."""
+  model_type = "sentinel_stage_a"
+  def __init__(
+    self,
+    model_key: str = "sentinel-stage-a",
+    model_version: str | None = None,
+    release_repo_id: str | None = None,
+    release_channel: str | None = None,
+    release_alias_of: str | None = None,
+    encoder_model_name: str = "",
+    encoder_revision: str | None = None,
+    encoder_code_revision: str | None = None,
+    encoder_trust_remote_code: bool = False,
+    encoder_config_overrides: dict[str, Any] | None = None,
+    encoder_config: dict[str, Any] | None = None,
+    head_type: str = "direct",
+    head_code: str | None = None,
+    head_variant: str | None = None,
+    head_dropout: float | None = None,
+    head_div: int = 1,
+    head_mul: int = 1,
+    head_skip: bool = False,
+    projection_size: int = 768,
+    classifier_dropout: float = 0.10,
+    max_length: int = 512,
+    output_heads: list[str] | None = None,
+    output_signature: dict[str, Any] | None = None,
+    thresholds: dict[str, float] | None = None,
+    dataset_signature: dict[str, Any] | None = None,
+    trainable_head_params: int | None = None,
+    **kwargs: Any,
+  ) -> None:
+    super().__init__(**kwargs)
+    self.model_key = model_key
+    self.model_version = model_version or model_key
+    self.release_repo_id = release_repo_id
+    self.release_channel = release_channel
+    self.release_alias_of = release_alias_of
+    self.encoder_model_name = encoder_model_name
+    self.encoder_revision = encoder_revision
+    self.encoder_code_revision = encoder_code_revision
+    self.encoder_trust_remote_code = bool(encoder_trust_remote_code)
+    self.encoder_config_overrides = encoder_config_overrides or {}
+    self.encoder_config = encoder_config or {}
+    self.head_type = head_type
+    self.head_code = head_code or {"direct": "d", "recombine": "r", "columnar": "c"}.get(
+      head_type,
+      head_type,
+    )
+    self.head_variant = head_variant
+    self.head_dropout = float(classifier_dropout if head_dropout is None else head_dropout)
+    self.head_div = int(head_div)
+    self.head_mul = int(head_mul)
+    self.head_skip = bool(head_skip)
+    self.projection_size = int(projection_size)
+    self.classifier_dropout = float(self.head_dropout)
+    self.max_length = int(max_length)
+    self.output_heads = output_heads or list((output_signature or {}).keys())
+    self.output_signature = output_signature or {}
+    self.thresholds = thresholds or {}
+    self.dataset_signature = dataset_signature or {}
+    self.trainable_head_params = trainable_head_params

metadata.json ADDED Viewed

	@@ -0,0 +1,589 @@

+{
+  "checkpoint_format_version": 1,
+  "created_at": "2026-04-24T13:59:13",
+  "model_key": "sentinel-mb-c-d11",
+  "encoder_model": "answerdotai/ModernBERT-base",
+  "encoder_params_millions": 149.7,
+  "head_type": "columnar",
+  "head_code": "c",
+  "head_variant": "d11",
+  "head_dropout": 0.1,
+  "head_div": 1,
+  "head_mul": 1,
+  "head_skip": true,
+  "head_architecture": "funnel",
+  "model_family": "modernbert-base",
+  "projection_size": 640,
+  "trainable_head_params": 14325653,
+  "artifact_format": "transformers_end_to_end",
+  "end_to_end_serialized": true,
+  "dataset_signature": {
+    "generator_version": "2026-04-07-final-audit-clear-v1",
+    "counts": {
+      "train": 900,
+      "dev": 150,
+      "test": 150
+    },
+    "distribution": {
+      "train": {
+        "risky": 603,
+        "clean": 297
+      },
+      "dev": {
+        "risky": 142,
+        "clean": 8
+      },
+      "test": {
+        "risky": 142,
+        "clean": 8
+      }
+    }
+  },
+  "output_signature": {
+    "violation": {
+      "type": "binary"
+    },
+    "severity": {
+      "type": "multiclass",
+      "labels": [
+        "sev_0_compliant_or_ok",
+        "sev_1_minor",
+        "sev_2_moderate",
+        "sev_3_high"
+      ]
+    },
+    "domain": {
+      "type": "multiclass",
+      "labels": [
+        "performance_claims_forecasting",
+        "investment_advice_suitability",
+        "conflicts_inducements",
+        "marketing_solicitation_advertising",
+        "selective_disclosure_fair_access",
+        "mnpi_insider_trading",
+        "recordkeeping_supervision",
+        "ai_automation_capability_claims",
+        "privacy_confidentiality",
+        "cybersecurity_internal_controls",
+        "employment_favoritism_role_conflict",
+        "aml_and_suspicious_activity",
+        "other_unknown"
+      ]
+    },
+    "subtype": {
+      "type": "multiclass",
+      "labels": [
+        "speculative_outcomes_unqualified",
+        "implicit_or_explicit_guarantee",
+        "risk_context_omitted_or_unbalanced",
+        "unregistered_personalized_investment_advice",
+        "undisclosed_economic_conflict_or_referral",
+        "pressure_or_coercion",
+        "selective_disclosure",
+        "mnpi_misuse_or_encouragement",
+        "recordkeeping_or_preapproval_evasion",
+        "ai_autonomy_or_safety_overstatement",
+        "credentials_validation_or_compliance_misrepresentation",
+        "confidential_data_leakage",
+        "internal_controls_or_exception_process_leakage",
+        "academic_commercial_role_blurring_or_quid_pro_quo",
+        "improper_solicitation_offering_pressure",
+        "excessive_trading_or_account_churning",
+        "product_switching_without_cost_benefit_analysis",
+        "dual_registrant_capacity_or_wrap_fee_conflict_confusion",
+        "elder_exploitation_or_vulnerable_client_signal",
+        "suspicious_activity_indicator_or_structuring",
+        "influencer_or_social_media_promotion_compliance_failure",
+        "crypto_asset_misrepresentation_or_inadequate_disclosure",
+        "other_unknown"
+      ]
+    },
+    "jurisdiction": {
+      "type": "multiclass",
+      "labels": [
+        "US",
+        "EU",
+        "UK",
+        "Other",
+        "Unknown"
+      ]
+    },
+    "why": {
+      "type": "multilabel",
+      "labels": [
+        "forward_looking_statement_unqualified",
+        "guarantee_or_assurance_language",
+        "omits_material_risk_or_downside",
+        "implies_downside_protection_or_no_drawdown",
+        "cherry_picks_performance_period",
+        "omits_performance_methodology_or_gross_net_context",
+        "personalized_trade_or_allocation_recommendation",
+        "timing_or_sizing_guidance",
+        "creates_implied_advisory_relationship",
+        "conflict_not_disclosed",
+        "referral_relationship_not_disclosed",
+        "omits_fees_costs_or_reasonably_available_alternatives",
+        "selective_private_performance_or_fundraising_update",
+        "off_the_record_or_not_in_writing_language",
+        "mnpi_possession_indicated",
+        "encourages_action_before_public_release",
+        "avoid_recordkeeping_channel_shift",
+        "bypasses_required_preapproval",
+        "pressure_scarcity_urgency",
+        "unsubstantiated_social_proof_or_validation",
+        "omits_testimonial_endorsement_or_rating_disclosure",
+        "obscures_required_disclosure_or_form_crs",
+        "minimizes_need_for_diligence_or_compliance",
+        "overstates_ai_capability_or_removes_human_oversight",
+        "claims_compliance_risk_eliminated",
+        "shares_sensitive_personal_or_financial_data",
+        "violates_need_to_know_data_minimization",
+        "shares_sensitive_internal_controls_or_exceptions",
+        "role_power_imbalance_or_favoritism",
+        "excessive_trading_cost_to_equity",
+        "inadequate_customer_profile_or_suitability_basis",
+        "exploits_vulnerable_or_elderly_client",
+        "aml_suspicious_activity_indicator",
+        "omits_switching_costs_and_product_comparison",
+        "conflict_language_understates_actual_relationship",
+        "omits_influencer_compensation_or_affiliation_disclosure",
+        "misrepresents_sipc_or_regulatory_protection_for_crypto",
+        "data_breach_notification_obligation_triggered",
+        "impedes_regulatory_reporting_or_whistleblower_rights"
+      ]
+    },
+    "impacted_principles": {
+      "type": "multilabel",
+      "labels": [
+        "truthful_non_misleading_communications",
+        "balanced_risk_reward_presentation",
+        "no_performance_guarantees_or_promissory_language",
+        "registration_and_scope_of_advice",
+        "duty_of_loyalty_conflict_disclosure",
+        "fair_access_to_material_information",
+        "insider_trading_and_mnpi_controls",
+        "supervision_and_books_records",
+        "privacy_confidentiality_and_secure_handling",
+        "security_control_integrity",
+        "role_separation_and_fair_access_in_academia",
+        "non_coercion_and_no_undue_influence",
+        "accurate_ai_capability_and_human_oversight",
+        "client_vulnerability_and_exploitation_prevention",
+        "aml_and_sanctions_compliance"
+      ]
+    },
+    "remediation_actions": {
+      "type": "multilabel",
+      "labels": [
+        "add_forward_looking_disclaimer",
+        "reframe_as_scenarios_not_expectations",
+        "add_balanced_risk_and_downside_section",
+        "remove_or_soften_guarantee_language",
+        "remove_personalized_recommendations",
+        "add_registered_advice_boundary_language",
+        "disclose_conflicts_and_compensation",
+        "add_fees_costs_and_alternatives_comparison",
+        "use_standardized_approved_performance_materials",
+        "add_performance_methodology_and_gross_net_context",
+        "avoid_selective_disclosure_share_broadly",
+        "escalate_mnpi_to_compliance_and_halt",
+        "keep_discussion_on_retained_channels",
+        "require_formal_preapproval_before_send",
+        "remove_pressure_scarcity_and_use_factual_timeline",
+        "substantiation_or_remove_credibility_claims",
+        "add_testimonial_endorsement_and_rating_disclosure",
+        "make_required_disclosure_clear_and_prominent",
+        "avoid_minimizing_compliance_or_diligence",
+        "clarify_ai_is_assistive_with_human_review",
+        "remove_claims_that_ai_eliminates_risk",
+        "redact_and_minimize_sensitive_data",
+        "use_secure_transfer_and_limit_access",
+        "avoid_sharing_internal_controls_or_sanitize",
+        "route_academic_opportunities_through_institution",
+        "separate_recommendation_letters_from_work",
+        "assess_cost_to_equity_against_client_profile",
+        "flag_for_elder_exploitation_review_and_hold",
+        "assess_sar_filing_obligation_and_escalate",
+        "initiate_breach_notification_review_and_timeline",
+        "remove_provisions_impeding_regulatory_communications"
+      ]
+    },
+    "content_type": {
+      "type": "multiclass",
+      "labels": [
+        "email",
+        "message"
+      ]
+    },
+    "audience_segment": {
+      "type": "multiclass",
+      "labels": [
+        "client",
+        "internal",
+        "prospect_or_investor",
+        "public",
+        "third_party"
+      ]
+    },
+    "detection_difficulty": {
+      "type": "multiclass",
+      "labels": [
+        "obvious",
+        "moderate",
+        "subtle"
+      ]
+    },
+    "aggravating_factors": {
+      "type": "multilabel",
+      "labels": [
+        "intentional",
+        "reckless",
+        "negligent",
+        "concealment_present",
+        "customer_harm_potential",
+        "financial_benefit_to_respondent",
+        "vulnerable_client",
+        "pattern_or_duration"
+      ]
+    }
+  },
+  "label_groups": {
+    "severity": [
+      "sev_0_compliant_or_ok",
+      "sev_1_minor",
+      "sev_2_moderate",
+      "sev_3_high"
+    ],
+    "domain": [
+      "performance_claims_forecasting",
+      "investment_advice_suitability",
+      "conflicts_inducements",
+      "marketing_solicitation_advertising",
+      "selective_disclosure_fair_access",
+      "mnpi_insider_trading",
+      "recordkeeping_supervision",
+      "ai_automation_capability_claims",
+      "privacy_confidentiality",
+      "cybersecurity_internal_controls",
+      "employment_favoritism_role_conflict",
+      "aml_and_suspicious_activity",
+      "other_unknown"
+    ],
+    "subtype": [
+      "speculative_outcomes_unqualified",
+      "implicit_or_explicit_guarantee",
+      "risk_context_omitted_or_unbalanced",
+      "unregistered_personalized_investment_advice",
+      "undisclosed_economic_conflict_or_referral",
+      "pressure_or_coercion",
+      "selective_disclosure",
+      "mnpi_misuse_or_encouragement",
+      "recordkeeping_or_preapproval_evasion",
+      "ai_autonomy_or_safety_overstatement",
+      "credentials_validation_or_compliance_misrepresentation",
+      "confidential_data_leakage",
+      "internal_controls_or_exception_process_leakage",
+      "academic_commercial_role_blurring_or_quid_pro_quo",
+      "improper_solicitation_offering_pressure",
+      "excessive_trading_or_account_churning",
+      "product_switching_without_cost_benefit_analysis",
+      "dual_registrant_capacity_or_wrap_fee_conflict_confusion",
+      "elder_exploitation_or_vulnerable_client_signal",
+      "suspicious_activity_indicator_or_structuring",
+      "influencer_or_social_media_promotion_compliance_failure",
+      "crypto_asset_misrepresentation_or_inadequate_disclosure",
+      "other_unknown"
+    ],
+    "jurisdiction": [
+      "US",
+      "EU",
+      "UK",
+      "Other",
+      "Unknown"
+    ],
+    "why": [
+      "forward_looking_statement_unqualified",
+      "guarantee_or_assurance_language",
+      "omits_material_risk_or_downside",
+      "implies_downside_protection_or_no_drawdown",
+      "cherry_picks_performance_period",
+      "omits_performance_methodology_or_gross_net_context",
+      "personalized_trade_or_allocation_recommendation",
+      "timing_or_sizing_guidance",
+      "creates_implied_advisory_relationship",
+      "conflict_not_disclosed",
+      "referral_relationship_not_disclosed",
+      "omits_fees_costs_or_reasonably_available_alternatives",
+      "selective_private_performance_or_fundraising_update",
+      "off_the_record_or_not_in_writing_language",
+      "mnpi_possession_indicated",
+      "encourages_action_before_public_release",
+      "avoid_recordkeeping_channel_shift",
+      "bypasses_required_preapproval",
+      "pressure_scarcity_urgency",
+      "unsubstantiated_social_proof_or_validation",
+      "omits_testimonial_endorsement_or_rating_disclosure",
+      "obscures_required_disclosure_or_form_crs",
+      "minimizes_need_for_diligence_or_compliance",
+      "overstates_ai_capability_or_removes_human_oversight",
+      "claims_compliance_risk_eliminated",
+      "shares_sensitive_personal_or_financial_data",
+      "violates_need_to_know_data_minimization",
+      "shares_sensitive_internal_controls_or_exceptions",
+      "role_power_imbalance_or_favoritism",
+      "excessive_trading_cost_to_equity",
+      "inadequate_customer_profile_or_suitability_basis",
+      "exploits_vulnerable_or_elderly_client",
+      "aml_suspicious_activity_indicator",
+      "omits_switching_costs_and_product_comparison",
+      "conflict_language_understates_actual_relationship",
+      "omits_influencer_compensation_or_affiliation_disclosure",
+      "misrepresents_sipc_or_regulatory_protection_for_crypto",
+      "data_breach_notification_obligation_triggered",
+      "impedes_regulatory_reporting_or_whistleblower_rights"
+    ],
+    "impacted_principles": [
+      "truthful_non_misleading_communications",
+      "balanced_risk_reward_presentation",
+      "no_performance_guarantees_or_promissory_language",
+      "registration_and_scope_of_advice",
+      "duty_of_loyalty_conflict_disclosure",
+      "fair_access_to_material_information",
+      "insider_trading_and_mnpi_controls",
+      "supervision_and_books_records",
+      "privacy_confidentiality_and_secure_handling",
+      "security_control_integrity",
+      "role_separation_and_fair_access_in_academia",
+      "non_coercion_and_no_undue_influence",
+      "accurate_ai_capability_and_human_oversight",
+      "client_vulnerability_and_exploitation_prevention",
+      "aml_and_sanctions_compliance"
+    ],
+    "remediation_actions": [
+      "add_forward_looking_disclaimer",
+      "reframe_as_scenarios_not_expectations",
+      "add_balanced_risk_and_downside_section",
+      "remove_or_soften_guarantee_language",
+      "remove_personalized_recommendations",
+      "add_registered_advice_boundary_language",
+      "disclose_conflicts_and_compensation",
+      "add_fees_costs_and_alternatives_comparison",
+      "use_standardized_approved_performance_materials",
+      "add_performance_methodology_and_gross_net_context",
+      "avoid_selective_disclosure_share_broadly",
+      "escalate_mnpi_to_compliance_and_halt",
+      "keep_discussion_on_retained_channels",
+      "require_formal_preapproval_before_send",
+      "remove_pressure_scarcity_and_use_factual_timeline",
+      "substantiation_or_remove_credibility_claims",
+      "add_testimonial_endorsement_and_rating_disclosure",
+      "make_required_disclosure_clear_and_prominent",
+      "avoid_minimizing_compliance_or_diligence",
+      "clarify_ai_is_assistive_with_human_review",
+      "remove_claims_that_ai_eliminates_risk",
+      "redact_and_minimize_sensitive_data",
+      "use_secure_transfer_and_limit_access",
+      "avoid_sharing_internal_controls_or_sanitize",
+      "route_academic_opportunities_through_institution",
+      "separate_recommendation_letters_from_work",
+      "assess_cost_to_equity_against_client_profile",
+      "flag_for_elder_exploitation_review_and_hold",
+      "assess_sar_filing_obligation_and_escalate",
+      "initiate_breach_notification_review_and_timeline",
+      "remove_provisions_impeding_regulatory_communications"
+    ]
+  },
+  "metadata_groups": {
+    "content_type": [
+      "email",
+      "message"
+    ],
+    "audience_segment": [
+      "client",
+      "internal",
+      "prospect_or_investor",
+      "public",
+      "third_party"
+    ],
+    "detection_difficulty": [
+      "obvious",
+      "moderate",
+      "subtle"
+    ],
+    "aggravating_factors": [
+      "intentional",
+      "reckless",
+      "negligent",
+      "concealment_present",
+      "customer_harm_potential",
+      "financial_benefit_to_respondent",
+      "vulnerable_client",
+      "pattern_or_duration"
+    ]
+  },
+  "thresholds": {
+    "violation": 0.5,
+    "why": 0.55,
+    "impacted_principles": 0.7,
+    "remediation_actions": 0.5,
+    "aggravating_factors": 0.4
+  },
+  "dev": {
+    "loss": 11.207931518554688,
+    "violation_accuracy": 0.9933333333333333,
+    "violation_precision": 1.0,
+    "violation_recall": 0.9929577464788732,
+    "violation_f1": 0.9964664310954063,
+    "severity_accuracy": 0.7133333333333334,
+    "severity_precision_macro": 0.5736714975845411,
+    "severity_recall_macro": 0.5810399159663866,
+    "severity_f1_macro": 0.577203237410072,
+    "domain_accuracy": 0.8733333333333333,
+    "domain_precision_macro": 0.9152304502304504,
+    "domain_recall_macro": 0.9037037037037038,
+    "domain_f1_macro": 0.8981829715276235,
+    "subtype_accuracy": 0.82,
+    "subtype_precision_macro": 0.8295979273252001,
+    "subtype_recall_macro": 0.8100452577725306,
+    "subtype_f1_macro": 0.8046637752590468,
+    "jurisdiction_accuracy": 0.6933333333333334,
+    "jurisdiction_precision_macro": 0.41350649350649354,
+    "jurisdiction_recall_macro": 0.4179220779220779,
+    "jurisdiction_f1_macro": 0.4076005906238464,
+    "why_precision_micro": 0.616822429906542,
+    "why_precision_macro": 0.6160081633765844,
+    "why_recall_micro": 0.752851711026616,
+    "why_recall_macro": 0.7186333609410531,
+    "why_f1_micro": 0.678082191780822,
+    "why_f1_macro": 0.6517414247029207,
+    "impacted_principles_precision_micro": 0.7631578947368421,
+    "impacted_principles_precision_macro": 0.7874420024420025,
+    "impacted_principles_recall_micro": 0.7945205479452054,
+    "impacted_principles_recall_macro": 0.7614157289194307,
+    "impacted_principles_f1_micro": 0.7785234899328859,
+    "impacted_principles_f1_macro": 0.7660467655075498,
+    "remediation_actions_precision_micro": 0.6105263157894737,
+    "remediation_actions_precision_macro": 0.5976390453783973,
+    "remediation_actions_recall_micro": 0.7733333333333333,
+    "remediation_actions_recall_macro": 0.690795299444056,
+    "remediation_actions_f1_micro": 0.6823529411764706,
+    "remediation_actions_f1_macro": 0.6264413385705756,
+    "content_type_accuracy": 1.0,
+    "content_type_precision_macro": 1.0,
+    "content_type_recall_macro": 1.0,
+    "content_type_f1_macro": 1.0,
+    "audience_segment_accuracy": 1.0,
+    "audience_segment_precision_macro": 1.0,
+    "audience_segment_recall_macro": 1.0,
+    "audience_segment_f1_macro": 1.0,
+    "detection_difficulty_accuracy": 0.41333333333333333,
+    "detection_difficulty_precision_macro": 0.4076248313090418,
+    "detection_difficulty_recall_macro": 0.4146464646464647,
+    "detection_difficulty_f1_macro": 0.41032213795594075,
+    "aggravating_factors_precision_micro": 0.6404494382022472,
+    "aggravating_factors_precision_macro": 0.6351122397339503,
+    "aggravating_factors_recall_micro": 0.7276595744680852,
+    "aggravating_factors_recall_macro": 0.7164210015443564,
+    "aggravating_factors_f1_micro": 0.6812749003984064,
+    "aggravating_factors_f1_macro": 0.6705742793431082,
+    "stage_a_selection_score": 0.7687761716662238,
+    "selection_score": 0.7690657581979315,
+    "scenario_key_count": 150,
+    "rows_per_scenario_min": 1,
+    "rows_per_scenario_median": 1.0,
+    "rows_per_scenario_max": 1,
+    "violation_accuracy_scenario_macro": 0.9933333333333333,
+    "violation_accuracy_scenario_macro_risky": 0.9929577464788732,
+    "violation_accuracy_scenario_macro_clean": 1.0,
+    "violation_accuracy_scenario_min": 0.0,
+    "violation_worst_scenario_key": "train_1371",
+    "violation_worst_scenario_label": "risky"
+  },
+  "test": {
+    "loss": 10.207207107543946,
+    "violation_accuracy": 0.9866666666666667,
+    "violation_precision": 1.0,
+    "violation_recall": 0.9859154929577465,
+    "violation_f1": 0.9929078014184397,
+    "severity_accuracy": 0.7266666666666667,
+    "severity_precision_macro": 0.7056742540613509,
+    "severity_recall_macro": 0.6917853651724619,
+    "severity_f1_macro": 0.6937461494861875,
+    "domain_accuracy": 0.82,
+    "domain_precision_macro": 0.8639371000239372,
+    "domain_recall_macro": 0.7870126705653021,
+    "domain_f1_macro": 0.8032142065328451,
+    "subtype_accuracy": 0.7733333333333333,
+    "subtype_precision_macro": 0.7708825265643447,
+    "subtype_recall_macro": 0.7368260527351436,
+    "subtype_f1_macro": 0.7383595011385061,
+    "jurisdiction_accuracy": 0.74,
+    "jurisdiction_precision_macro": 0.5511805026656511,
+    "jurisdiction_recall_macro": 0.5755799755799755,
+    "jurisdiction_f1_macro": 0.5608646466716769,
+    "why_precision_micro": 0.6408045977011494,
+    "why_precision_macro": 0.6228897802851919,
+    "why_recall_micro": 0.8228782287822878,
+    "why_recall_macro": 0.7797228098698687,
+    "why_f1_micro": 0.7205169628432957,
+    "why_f1_macro": 0.6837887640406874,
+    "impacted_principles_precision_micro": 0.7368421052631579,
+    "impacted_principles_precision_macro": 0.7691853878810401,
+    "impacted_principles_recall_micro": 0.7636363636363637,
+    "impacted_principles_recall_macro": 0.6710974322869485,
+    "impacted_principles_f1_micro": 0.7499999999999999,
+    "impacted_principles_f1_macro": 0.7030370589130892,
+    "remediation_actions_precision_micro": 0.6188811188811189,
+    "remediation_actions_precision_macro": 0.5923653065256482,
+    "remediation_actions_recall_micro": 0.7695652173913043,
+    "remediation_actions_recall_macro": 0.684497765569872,
+    "remediation_actions_f1_micro": 0.686046511627907,
+    "remediation_actions_f1_macro": 0.6175714466344578,
+    "content_type_accuracy": 1.0,
+    "content_type_precision_macro": 1.0,
+    "content_type_recall_macro": 1.0,
+    "content_type_f1_macro": 1.0,
+    "audience_segment_accuracy": 1.0,
+    "audience_segment_precision_macro": 1.0,
+    "audience_segment_recall_macro": 1.0,
+    "audience_segment_f1_macro": 1.0,
+    "detection_difficulty_accuracy": 0.47333333333333333,
+    "detection_difficulty_precision_macro": 0.46757744378508614,
+    "detection_difficulty_recall_macro": 0.471182412358883,
+    "detection_difficulty_f1_macro": 0.46490073858516184,
+    "aggravating_factors_precision_micro": 0.6641509433962264,
+    "aggravating_factors_precision_macro": 0.6283313196161129,
+    "aggravating_factors_recall_micro": 0.7333333333333333,
+    "aggravating_factors_recall_macro": 0.6949052211781471,
+    "aggravating_factors_f1_micro": 0.697029702970297,
+    "aggravating_factors_f1_macro": 0.6546016914120363,
+    "stage_a_selection_score": 0.7506931806680867,
+    "selection_score": 0.7565296660343293,
+    "scenario_key_count": 150,
+    "rows_per_scenario_min": 1,
+    "rows_per_scenario_median": 1.0,
+    "rows_per_scenario_max": 1,
+    "violation_accuracy_scenario_macro": 0.9866666666666667,
+    "violation_accuracy_scenario_macro_risky": 0.9859154929577465,
+    "violation_accuracy_scenario_macro_clean": 1.0,
+    "violation_accuracy_scenario_min": 0.0,
+    "violation_worst_scenario_key": "train_1843",
+    "violation_worst_scenario_label": "risky"
+  },
+  "model_version": "sentinel-mb-c-d11-20260424",
+  "release_repo_id": "AurelexAI/sentinel-01-pub",
+  "release_channel": "sentinel-01-pub",
+  "release_alias_of": null,
+  "source_model_key": "sentinel-mb-c-d11",
+  "encoder_revision": null,
+  "encoder_code_revision": null,
+  "encoder_trust_remote_code": false,
+  "encoder_config_overrides": {},
+  "inference_task": "sentinel-stage-a",
+  "inference_entrypoint": "transformers.pipeline",
+  "source_checkpoint": {
+    "source": "_models/stage-a-grid-v3-gpu/sentinel-mb-c-d11/260424_135913_sentinel-mb-c-d11",
+    "checkpoint_sha256": "ba46d9609b97073802fbacbbceb076fb20e943389263af179ec4affa1ad97dd0",
+    "metadata_sha256": "feda8e1183869806e91531bf87fdc1de09c2417e4821a4ec7fcf2b8404e89979"
+  }
+}

metrics.json ADDED Viewed

	@@ -0,0 +1,997 @@

+{
+  "model_key": "sentinel-mb-c-d11",
+  "encoder_model": "answerdotai/ModernBERT-base",
+  "encoder_params_millions": 149.7,
+  "head_type": "columnar",
+  "head_code": "c",
+  "head_variant": "d11",
+  "head_dropout": 0.1,
+  "head_div": 1,
+  "head_mul": 1,
+  "head_skip": true,
+  "head_architecture": "funnel",
+  "model_family": "modernbert-base",
+  "projection_size": 640,
+  "trainable_head_params": 14325653,
+  "dataset_counts": {
+    "train": 900,
+    "dev": 150,
+    "test": 150
+  },
+  "dataset_signature": {
+    "generator_version": "2026-04-07-final-audit-clear-v1",
+    "counts": {
+      "train": 900,
+      "dev": 150,
+      "test": 150
+    },
+    "distribution": {
+      "train": {
+        "risky": 603,
+        "clean": 297
+      },
+      "dev": {
+        "risky": 142,
+        "clean": 8
+      },
+      "test": {
+        "risky": 142,
+        "clean": 8
+      }
+    }
+  },
+  "label_groups": {
+    "severity": [
+      "sev_0_compliant_or_ok",
+      "sev_1_minor",
+      "sev_2_moderate",
+      "sev_3_high"
+    ],
+    "domain": [
+      "performance_claims_forecasting",
+      "investment_advice_suitability",
+      "conflicts_inducements",
+      "marketing_solicitation_advertising",
+      "selective_disclosure_fair_access",
+      "mnpi_insider_trading",
+      "recordkeeping_supervision",
+      "ai_automation_capability_claims",
+      "privacy_confidentiality",
+      "cybersecurity_internal_controls",
+      "employment_favoritism_role_conflict",
+      "aml_and_suspicious_activity",
+      "other_unknown"
+    ],
+    "subtype": [
+      "speculative_outcomes_unqualified",
+      "implicit_or_explicit_guarantee",
+      "risk_context_omitted_or_unbalanced",
+      "unregistered_personalized_investment_advice",
+      "undisclosed_economic_conflict_or_referral",
+      "pressure_or_coercion",
+      "selective_disclosure",
+      "mnpi_misuse_or_encouragement",
+      "recordkeeping_or_preapproval_evasion",
+      "ai_autonomy_or_safety_overstatement",
+      "credentials_validation_or_compliance_misrepresentation",
+      "confidential_data_leakage",
+      "internal_controls_or_exception_process_leakage",
+      "academic_commercial_role_blurring_or_quid_pro_quo",
+      "improper_solicitation_offering_pressure",
+      "excessive_trading_or_account_churning",
+      "product_switching_without_cost_benefit_analysis",
+      "dual_registrant_capacity_or_wrap_fee_conflict_confusion",
+      "elder_exploitation_or_vulnerable_client_signal",
+      "suspicious_activity_indicator_or_structuring",
+      "influencer_or_social_media_promotion_compliance_failure",
+      "crypto_asset_misrepresentation_or_inadequate_disclosure",
+      "other_unknown"
+    ],
+    "jurisdiction": [
+      "US",
+      "EU",
+      "UK",
+      "Other",
+      "Unknown"
+    ],
+    "why": [
+      "forward_looking_statement_unqualified",
+      "guarantee_or_assurance_language",
+      "omits_material_risk_or_downside",
+      "implies_downside_protection_or_no_drawdown",
+      "cherry_picks_performance_period",
+      "omits_performance_methodology_or_gross_net_context",
+      "personalized_trade_or_allocation_recommendation",
+      "timing_or_sizing_guidance",
+      "creates_implied_advisory_relationship",
+      "conflict_not_disclosed",
+      "referral_relationship_not_disclosed",
+      "omits_fees_costs_or_reasonably_available_alternatives",
+      "selective_private_performance_or_fundraising_update",
+      "off_the_record_or_not_in_writing_language",
+      "mnpi_possession_indicated",
+      "encourages_action_before_public_release",
+      "avoid_recordkeeping_channel_shift",
+      "bypasses_required_preapproval",
+      "pressure_scarcity_urgency",
+      "unsubstantiated_social_proof_or_validation",
+      "omits_testimonial_endorsement_or_rating_disclosure",
+      "obscures_required_disclosure_or_form_crs",
+      "minimizes_need_for_diligence_or_compliance",
+      "overstates_ai_capability_or_removes_human_oversight",
+      "claims_compliance_risk_eliminated",
+      "shares_sensitive_personal_or_financial_data",
+      "violates_need_to_know_data_minimization",
+      "shares_sensitive_internal_controls_or_exceptions",
+      "role_power_imbalance_or_favoritism",
+      "excessive_trading_cost_to_equity",
+      "inadequate_customer_profile_or_suitability_basis",
+      "exploits_vulnerable_or_elderly_client",
+      "aml_suspicious_activity_indicator",
+      "omits_switching_costs_and_product_comparison",
+      "conflict_language_understates_actual_relationship",
+      "omits_influencer_compensation_or_affiliation_disclosure",
+      "misrepresents_sipc_or_regulatory_protection_for_crypto",
+      "data_breach_notification_obligation_triggered",
+      "impedes_regulatory_reporting_or_whistleblower_rights"
+    ],
+    "impacted_principles": [
+      "truthful_non_misleading_communications",
+      "balanced_risk_reward_presentation",
+      "no_performance_guarantees_or_promissory_language",
+      "registration_and_scope_of_advice",
+      "duty_of_loyalty_conflict_disclosure",
+      "fair_access_to_material_information",
+      "insider_trading_and_mnpi_controls",
+      "supervision_and_books_records",
+      "privacy_confidentiality_and_secure_handling",
+      "security_control_integrity",
+      "role_separation_and_fair_access_in_academia",
+      "non_coercion_and_no_undue_influence",
+      "accurate_ai_capability_and_human_oversight",
+      "client_vulnerability_and_exploitation_prevention",
+      "aml_and_sanctions_compliance"
+    ],
+    "remediation_actions": [
+      "add_forward_looking_disclaimer",
+      "reframe_as_scenarios_not_expectations",
+      "add_balanced_risk_and_downside_section",
+      "remove_or_soften_guarantee_language",
+      "remove_personalized_recommendations",
+      "add_registered_advice_boundary_language",
+      "disclose_conflicts_and_compensation",
+      "add_fees_costs_and_alternatives_comparison",
+      "use_standardized_approved_performance_materials",
+      "add_performance_methodology_and_gross_net_context",
+      "avoid_selective_disclosure_share_broadly",
+      "escalate_mnpi_to_compliance_and_halt",
+      "keep_discussion_on_retained_channels",
+      "require_formal_preapproval_before_send",
+      "remove_pressure_scarcity_and_use_factual_timeline",
+      "substantiation_or_remove_credibility_claims",
+      "add_testimonial_endorsement_and_rating_disclosure",
+      "make_required_disclosure_clear_and_prominent",
+      "avoid_minimizing_compliance_or_diligence",
+      "clarify_ai_is_assistive_with_human_review",
+      "remove_claims_that_ai_eliminates_risk",
+      "redact_and_minimize_sensitive_data",
+      "use_secure_transfer_and_limit_access",
+      "avoid_sharing_internal_controls_or_sanitize",
+      "route_academic_opportunities_through_institution",
+      "separate_recommendation_letters_from_work",
+      "assess_cost_to_equity_against_client_profile",
+      "flag_for_elder_exploitation_review_and_hold",
+      "assess_sar_filing_obligation_and_escalate",
+      "initiate_breach_notification_review_and_timeline",
+      "remove_provisions_impeding_regulatory_communications"
+    ]
+  },
+  "metadata_groups": {
+    "content_type": [
+      "email",
+      "message"
+    ],
+    "audience_segment": [
+      "client",
+      "internal",
+      "prospect_or_investor",
+      "public",
+      "third_party"
+    ],
+    "detection_difficulty": [
+      "obvious",
+      "moderate",
+      "subtle"
+    ],
+    "aggravating_factors": [
+      "intentional",
+      "reckless",
+      "negligent",
+      "concealment_present",
+      "customer_harm_potential",
+      "financial_benefit_to_respondent",
+      "vulnerable_client",
+      "pattern_or_duration"
+    ]
+  },
+  "output_signature": {
+    "violation": {
+      "type": "binary"
+    },
+    "severity": {
+      "type": "multiclass",
+      "labels": [
+        "sev_0_compliant_or_ok",
+        "sev_1_minor",
+        "sev_2_moderate",
+        "sev_3_high"
+      ]
+    },
+    "domain": {
+      "type": "multiclass",
+      "labels": [
+        "performance_claims_forecasting",
+        "investment_advice_suitability",
+        "conflicts_inducements",
+        "marketing_solicitation_advertising",
+        "selective_disclosure_fair_access",
+        "mnpi_insider_trading",
+        "recordkeeping_supervision",
+        "ai_automation_capability_claims",
+        "privacy_confidentiality",
+        "cybersecurity_internal_controls",
+        "employment_favoritism_role_conflict",
+        "aml_and_suspicious_activity",
+        "other_unknown"
+      ]
+    },
+    "subtype": {
+      "type": "multiclass",
+      "labels": [
+        "speculative_outcomes_unqualified",
+        "implicit_or_explicit_guarantee",
+        "risk_context_omitted_or_unbalanced",
+        "unregistered_personalized_investment_advice",
+        "undisclosed_economic_conflict_or_referral",
+        "pressure_or_coercion",
+        "selective_disclosure",
+        "mnpi_misuse_or_encouragement",
+        "recordkeeping_or_preapproval_evasion",
+        "ai_autonomy_or_safety_overstatement",
+        "credentials_validation_or_compliance_misrepresentation",
+        "confidential_data_leakage",
+        "internal_controls_or_exception_process_leakage",
+        "academic_commercial_role_blurring_or_quid_pro_quo",
+        "improper_solicitation_offering_pressure",
+        "excessive_trading_or_account_churning",
+        "product_switching_without_cost_benefit_analysis",
+        "dual_registrant_capacity_or_wrap_fee_conflict_confusion",
+        "elder_exploitation_or_vulnerable_client_signal",
+        "suspicious_activity_indicator_or_structuring",
+        "influencer_or_social_media_promotion_compliance_failure",
+        "crypto_asset_misrepresentation_or_inadequate_disclosure",
+        "other_unknown"
+      ]
+    },
+    "jurisdiction": {
+      "type": "multiclass",
+      "labels": [
+        "US",
+        "EU",
+        "UK",
+        "Other",
+        "Unknown"
+      ]
+    },
+    "why": {
+      "type": "multilabel",
+      "labels": [
+        "forward_looking_statement_unqualified",
+        "guarantee_or_assurance_language",
+        "omits_material_risk_or_downside",
+        "implies_downside_protection_or_no_drawdown",
+        "cherry_picks_performance_period",
+        "omits_performance_methodology_or_gross_net_context",
+        "personalized_trade_or_allocation_recommendation",
+        "timing_or_sizing_guidance",
+        "creates_implied_advisory_relationship",
+        "conflict_not_disclosed",
+        "referral_relationship_not_disclosed",
+        "omits_fees_costs_or_reasonably_available_alternatives",
+        "selective_private_performance_or_fundraising_update",
+        "off_the_record_or_not_in_writing_language",
+        "mnpi_possession_indicated",
+        "encourages_action_before_public_release",
+        "avoid_recordkeeping_channel_shift",
+        "bypasses_required_preapproval",
+        "pressure_scarcity_urgency",
+        "unsubstantiated_social_proof_or_validation",
+        "omits_testimonial_endorsement_or_rating_disclosure",
+        "obscures_required_disclosure_or_form_crs",
+        "minimizes_need_for_diligence_or_compliance",
+        "overstates_ai_capability_or_removes_human_oversight",
+        "claims_compliance_risk_eliminated",
+        "shares_sensitive_personal_or_financial_data",
+        "violates_need_to_know_data_minimization",
+        "shares_sensitive_internal_controls_or_exceptions",
+        "role_power_imbalance_or_favoritism",
+        "excessive_trading_cost_to_equity",
+        "inadequate_customer_profile_or_suitability_basis",
+        "exploits_vulnerable_or_elderly_client",
+        "aml_suspicious_activity_indicator",
+        "omits_switching_costs_and_product_comparison",
+        "conflict_language_understates_actual_relationship",
+        "omits_influencer_compensation_or_affiliation_disclosure",
+        "misrepresents_sipc_or_regulatory_protection_for_crypto",
+        "data_breach_notification_obligation_triggered",
+        "impedes_regulatory_reporting_or_whistleblower_rights"
+      ]
+    },
+    "impacted_principles": {
+      "type": "multilabel",
+      "labels": [
+        "truthful_non_misleading_communications",
+        "balanced_risk_reward_presentation",
+        "no_performance_guarantees_or_promissory_language",
+        "registration_and_scope_of_advice",
+        "duty_of_loyalty_conflict_disclosure",
+        "fair_access_to_material_information",
+        "insider_trading_and_mnpi_controls",
+        "supervision_and_books_records",
+        "privacy_confidentiality_and_secure_handling",
+        "security_control_integrity",
+        "role_separation_and_fair_access_in_academia",
+        "non_coercion_and_no_undue_influence",
+        "accurate_ai_capability_and_human_oversight",
+        "client_vulnerability_and_exploitation_prevention",
+        "aml_and_sanctions_compliance"
+      ]
+    },
+    "remediation_actions": {
+      "type": "multilabel",
+      "labels": [
+        "add_forward_looking_disclaimer",
+        "reframe_as_scenarios_not_expectations",
+        "add_balanced_risk_and_downside_section",
+        "remove_or_soften_guarantee_language",
+        "remove_personalized_recommendations",
+        "add_registered_advice_boundary_language",
+        "disclose_conflicts_and_compensation",
+        "add_fees_costs_and_alternatives_comparison",
+        "use_standardized_approved_performance_materials",
+        "add_performance_methodology_and_gross_net_context",
+        "avoid_selective_disclosure_share_broadly",
+        "escalate_mnpi_to_compliance_and_halt",
+        "keep_discussion_on_retained_channels",
+        "require_formal_preapproval_before_send",
+        "remove_pressure_scarcity_and_use_factual_timeline",
+        "substantiation_or_remove_credibility_claims",
+        "add_testimonial_endorsement_and_rating_disclosure",
+        "make_required_disclosure_clear_and_prominent",
+        "avoid_minimizing_compliance_or_diligence",
+        "clarify_ai_is_assistive_with_human_review",
+        "remove_claims_that_ai_eliminates_risk",
+        "redact_and_minimize_sensitive_data",
+        "use_secure_transfer_and_limit_access",
+        "avoid_sharing_internal_controls_or_sanitize",
+        "route_academic_opportunities_through_institution",
+        "separate_recommendation_letters_from_work",
+        "assess_cost_to_equity_against_client_profile",
+        "flag_for_elder_exploitation_review_and_hold",
+        "assess_sar_filing_obligation_and_escalate",
+        "initiate_breach_notification_review_and_timeline",
+        "remove_provisions_impeding_regulatory_communications"
+      ]
+    },
+    "content_type": {
+      "type": "multiclass",
+      "labels": [
+        "email",
+        "message"
+      ]
+    },
+    "audience_segment": {
+      "type": "multiclass",
+      "labels": [
+        "client",
+        "internal",
+        "prospect_or_investor",
+        "public",
+        "third_party"
+      ]
+    },
+    "detection_difficulty": {
+      "type": "multiclass",
+      "labels": [
+        "obvious",
+        "moderate",
+        "subtle"
+      ]
+    },
+    "aggravating_factors": {
+      "type": "multilabel",
+      "labels": [
+        "intentional",
+        "reckless",
+        "negligent",
+        "concealment_present",
+        "customer_harm_potential",
+        "financial_benefit_to_respondent",
+        "vulnerable_client",
+        "pattern_or_duration"
+      ]
+    }
+  },
+  "device_info": {
+    "device": "cuda",
+    "torch_cuda_version": "11.8",
+    "gpu_count": 1,
+    "gpu_name": "NVIDIA GeForce RTX 2080 Ti",
+    "gpu_memory_gb": 11.0,
+    "gpu_capability": "7.5",
+    "nvidia_smi": [
+      "NVIDIA GeForce RTX 2080 Ti, 591.74, 11264 MiB"
+    ]
+  },
+  "timings": {
+    "encoding_seconds": 0.0,
+    "training_seconds": 82.25,
+    "total_seconds": 86.5
+  },
+  "cycles": [
+    {
+      "loss": 7.7748064517974855,
+      "violation_accuracy": 0.9933333333333333,
+      "violation_precision": 1.0,
+      "violation_recall": 0.9929577464788732,
+      "violation_f1": 0.9964664310954063,
+      "severity_accuracy": 0.68,
+      "severity_precision_macro": 0.6277301315037164,
+      "severity_recall_macro": 0.707563025210084,
+      "severity_f1_macro": 0.6574701673088821,
+      "domain_accuracy": 0.8466666666666667,
+      "domain_precision_macro": 0.8728019516325967,
+      "domain_recall_macro": 0.8525462962962963,
+      "domain_f1_macro": 0.8494220062066961,
+      "subtype_accuracy": 0.7733333333333333,
+      "subtype_precision_macro": 0.8113931523022433,
+      "subtype_recall_macro": 0.7490964843237571,
+      "subtype_f1_macro": 0.7508012065714375,
+      "jurisdiction_accuracy": 0.6933333333333334,
+      "jurisdiction_precision_macro": 0.39713131313131317,
+      "jurisdiction_recall_macro": 0.4161038961038961,
+      "jurisdiction_f1_macro": 0.3923395902343271,
+      "why_precision_micro": 0.5229591836734694,
+      "why_precision_macro": 0.5766391767639499,
+      "why_recall_micro": 0.779467680608365,
+      "why_recall_macro": 0.7375322683014991,
+      "why_f1_micro": 0.6259541984732825,
+      "why_f1_macro": 0.6266278969973275,
+      "impacted_principles_precision_micro": 0.714859437751004,
+      "impacted_principles_precision_macro": 0.7255202728514017,
+      "impacted_principles_recall_micro": 0.8127853881278538,
+      "impacted_principles_recall_macro": 0.7848574654881022,
+      "impacted_principles_f1_micro": 0.7606837606837606,
+      "impacted_principles_f1_macro": 0.7439683431383844,
+      "remediation_actions_precision_micro": 0.6126760563380281,
+      "remediation_actions_precision_macro": 0.5838607852720756,
+      "remediation_actions_recall_micro": 0.7733333333333333,
+      "remediation_actions_recall_macro": 0.7043368620792969,
+      "remediation_actions_f1_micro": 0.6836935166994106,
+      "remediation_actions_f1_macro": 0.6242740328903318,
+      "content_type_accuracy": 1.0,
+      "content_type_precision_macro": 1.0,
+      "content_type_recall_macro": 1.0,
+      "content_type_f1_macro": 1.0,
+      "audience_segment_accuracy": 1.0,
+      "audience_segment_precision_macro": 1.0,
+      "audience_segment_recall_macro": 1.0,
+      "audience_segment_f1_macro": 1.0,
+      "detection_difficulty_accuracy": 0.44666666666666666,
+      "detection_difficulty_precision_macro": 0.4471819645732689,
+      "detection_difficulty_recall_macro": 0.46915306915306915,
+      "detection_difficulty_f1_macro": 0.4404195664321677,
+      "aggravating_factors_precision_micro": 0.5650793650793651,
+      "aggravating_factors_precision_macro": 0.550085885667087,
+      "aggravating_factors_recall_micro": 0.7574468085106383,
+      "aggravating_factors_recall_macro": 0.7552521514727553,
+      "aggravating_factors_f1_micro": 0.6472727272727272,
+      "aggravating_factors_f1_macro": 0.6306325855261203,
+      "stage_a_selection_score": 0.7456116562791146,
+      "selection_score": 0.7500419326212061,
+      "scenario_key_count": 150,
+      "rows_per_scenario_min": 1,
+      "rows_per_scenario_median": 1.0,
+      "rows_per_scenario_max": 1,
+      "violation_accuracy_scenario_macro": 0.9933333333333333,
+      "violation_accuracy_scenario_macro_risky": 0.9929577464788732,
+      "violation_accuracy_scenario_macro_clean": 1.0,
+      "violation_accuracy_scenario_min": 0.0,
+      "violation_worst_scenario_key": "train_1371",
+      "violation_worst_scenario_label": "risky",
+      "cycle": 1,
+      "best_epoch": 15,
+      "epochs_ran": 21,
+      "lr": 0.003,
+      "head_dropout": 0.1,
+      "weight_decay": 0.01,
+      "cycle_seconds": 20.43
+    },
+    {
+      "loss": 11.207931518554688,
+      "violation_accuracy": 0.9933333333333333,
+      "violation_precision": 1.0,
+      "violation_recall": 0.9929577464788732,
+      "violation_f1": 0.9964664310954063,
+      "severity_accuracy": 0.7133333333333334,
+      "severity_precision_macro": 0.5736714975845411,
+      "severity_recall_macro": 0.5810399159663866,
+      "severity_f1_macro": 0.577203237410072,
+      "domain_accuracy": 0.8733333333333333,
+      "domain_precision_macro": 0.9152304502304504,
+      "domain_recall_macro": 0.9037037037037038,
+      "domain_f1_macro": 0.8981829715276235,
+      "subtype_accuracy": 0.82,
+      "subtype_precision_macro": 0.8295979273252001,
+      "subtype_recall_macro": 0.8100452577725306,
+      "subtype_f1_macro": 0.8046637752590468,
+      "jurisdiction_accuracy": 0.6933333333333334,
+      "jurisdiction_precision_macro": 0.41350649350649354,
+      "jurisdiction_recall_macro": 0.4179220779220779,
+      "jurisdiction_f1_macro": 0.4076005906238464,
+      "why_precision_micro": 0.6041666666666666,
+      "why_precision_macro": 0.5994839193351778,
+      "why_recall_micro": 0.7718631178707225,
+      "why_recall_macro": 0.7338144761221683,
+      "why_f1_micro": 0.67779632721202,
+      "why_f1_macro": 0.6489732285249087,
+      "impacted_principles_precision_micro": 0.7204724409448819,
+      "impacted_principles_precision_macro": 0.7509759521524227,
+      "impacted_principles_recall_micro": 0.8356164383561644,
+      "impacted_principles_recall_macro": 0.7889626527134941,
+      "impacted_principles_f1_micro": 0.773784355179704,
+      "impacted_principles_f1_macro": 0.7575593568585874,
+      "remediation_actions_precision_micro": 0.6105263157894737,
+      "remediation_actions_precision_macro": 0.5976390453783973,
+      "remediation_actions_recall_micro": 0.7733333333333333,
+      "remediation_actions_recall_macro": 0.690795299444056,
+      "remediation_actions_f1_micro": 0.6823529411764706,
+      "remediation_actions_f1_macro": 0.6264413385705756,
+      "content_type_accuracy": 1.0,
+      "content_type_precision_macro": 1.0,
+      "content_type_recall_macro": 1.0,
+      "content_type_f1_macro": 1.0,
+      "audience_segment_accuracy": 1.0,
+      "audience_segment_precision_macro": 1.0,
+      "audience_segment_recall_macro": 1.0,
+      "audience_segment_f1_macro": 1.0,
+      "detection_difficulty_accuracy": 0.41333333333333333,
+      "detection_difficulty_precision_macro": 0.4076248313090418,
+      "detection_difficulty_recall_macro": 0.4146464646464647,
+      "detection_difficulty_f1_macro": 0.41032213795594075,
+      "aggravating_factors_precision_micro": 0.6544715447154471,
+      "aggravating_factors_precision_macro": 0.6429940120546376,
+      "aggravating_factors_recall_micro": 0.6851063829787234,
+      "aggravating_factors_recall_macro": 0.6755889259203152,
+      "aggravating_factors_f1_micro": 0.6694386694386694,
+      "aggravating_factors_f1_macro": 0.6555896631040743,
+      "stage_a_selection_score": 0.767369221062852,
+      "selection_score": 0.7671909669032824,
+      "scenario_key_count": 150,
+      "rows_per_scenario_min": 1,
+      "rows_per_scenario_median": 1.0,
+      "rows_per_scenario_max": 1,
+      "violation_accuracy_scenario_macro": 0.9933333333333333,
+      "violation_accuracy_scenario_macro_risky": 0.9929577464788732,
+      "violation_accuracy_scenario_macro_clean": 1.0,
+      "violation_accuracy_scenario_min": 0.0,
+      "violation_worst_scenario_key": "train_1371",
+      "violation_worst_scenario_label": "risky",
+      "cycle": 2,
+      "best_epoch": 28,
+      "epochs_ran": 34,
+      "lr": 0.001,
+      "head_dropout": 0.1,
+      "weight_decay": 0.0,
+      "cycle_seconds": 32.74
+    },
+    {
+      "loss": 8.636670589447021,
+      "violation_accuracy": 0.9866666666666667,
+      "violation_precision": 0.9929577464788732,
+      "violation_recall": 0.9929577464788732,
+      "violation_f1": 0.9929577464788732,
+      "severity_accuracy": 0.66,
+      "severity_precision_macro": 0.4967107870333677,
+      "severity_recall_macro": 0.5516281512605042,
+      "severity_f1_macro": 0.5189861673414305,
+      "domain_accuracy": 0.8666666666666667,
+      "domain_precision_macro": 0.8598119380377445,
+      "domain_recall_macro": 0.9199074074074075,
+      "domain_f1_macro": 0.8685643227768131,
+      "subtype_accuracy": 0.7866666666666666,
+      "subtype_precision_macro": 0.8163114663114664,
+      "subtype_recall_macro": 0.775937950937951,
+      "subtype_f1_macro": 0.7646749863327403,
+      "jurisdiction_accuracy": 0.7733333333333333,
+      "jurisdiction_precision_macro": 0.5372131147540984,
+      "jurisdiction_recall_macro": 0.4397402597402597,
+      "jurisdiction_f1_macro": 0.47636711947056776,
+      "why_precision_micro": 0.4528301886792453,
+      "why_precision_macro": 0.48296837652041275,
+      "why_recall_micro": 0.8212927756653993,
+      "why_recall_macro": 0.7714144117990271,
+      "why_f1_micro": 0.5837837837837838,
+      "why_f1_macro": 0.5733734446440217,
+      "impacted_principles_precision_micro": 0.6332179930795848,
+      "impacted_principles_precision_macro": 0.6573170966740058,
+      "impacted_principles_recall_micro": 0.8356164383561644,
+      "impacted_principles_recall_macro": 0.8099590558905407,
+      "impacted_principles_f1_micro": 0.7204724409448819,
+      "impacted_principles_f1_macro": 0.7112060969947187,
+      "remediation_actions_precision_micro": 0.5207756232686981,
+      "remediation_actions_precision_macro": 0.5043151896069353,
+      "remediation_actions_recall_micro": 0.8355555555555556,
+      "remediation_actions_recall_macro": 0.7390617197643065,
+      "remediation_actions_f1_micro": 0.6416382252559728,
+      "remediation_actions_f1_macro": 0.5815208256530966,
+      "content_type_accuracy": 1.0,
+      "content_type_precision_macro": 1.0,
+      "content_type_recall_macro": 1.0,
+      "content_type_f1_macro": 1.0,
+      "audience_segment_accuracy": 1.0,
+      "audience_segment_precision_macro": 1.0,
+      "audience_segment_recall_macro": 1.0,
+      "audience_segment_f1_macro": 1.0,
+      "detection_difficulty_accuracy": 0.41333333333333333,
+      "detection_difficulty_precision_macro": 0.39879147137211657,
+      "detection_difficulty_recall_macro": 0.40982905982905987,
+      "detection_difficulty_f1_macro": 0.4012269618676941,
+      "aggravating_factors_precision_micro": 0.5627009646302251,
+      "aggravating_factors_precision_macro": 0.5604147213071698,
+      "aggravating_factors_recall_micro": 0.7446808510638298,
+      "aggravating_factors_recall_macro": 0.7464349207339351,
+      "aggravating_factors_f1_micro": 0.6410256410256411,
+      "aggravating_factors_f1_macro": 0.6206138817554251,
+      "stage_a_selection_score": 0.7407038445266995,
+      "selection_score": 0.7436551178025155,
+      "scenario_key_count": 150,
+      "rows_per_scenario_min": 1,
+      "rows_per_scenario_median": 1.0,
+      "rows_per_scenario_max": 1,
+      "violation_accuracy_scenario_macro": 0.9866666666666667,
+      "violation_accuracy_scenario_macro_risky": 0.9929577464788732,
+      "violation_accuracy_scenario_macro_clean": 0.875,
+      "violation_accuracy_scenario_min": 0.0,
+      "violation_worst_scenario_key": "train_1371",
+      "violation_worst_scenario_label": "risky",
+      "cycle": 3,
+      "best_epoch": 23,
+      "epochs_ran": 29,
+      "lr": 0.0005,
+      "head_dropout": 0.1,
+      "weight_decay": 0.02,
+      "cycle_seconds": 27.33
+    }
+  ],
+  "best_cycle": {
+    "loss": 11.207931518554688,
+    "violation_accuracy": 0.9933333333333333,
+    "violation_precision": 1.0,
+    "violation_recall": 0.9929577464788732,
+    "violation_f1": 0.9964664310954063,
+    "severity_accuracy": 0.7133333333333334,
+    "severity_precision_macro": 0.5736714975845411,
+    "severity_recall_macro": 0.5810399159663866,
+    "severity_f1_macro": 0.577203237410072,
+    "domain_accuracy": 0.8733333333333333,
+    "domain_precision_macro": 0.9152304502304504,
+    "domain_recall_macro": 0.9037037037037038,
+    "domain_f1_macro": 0.8981829715276235,
+    "subtype_accuracy": 0.82,
+    "subtype_precision_macro": 0.8295979273252001,
+    "subtype_recall_macro": 0.8100452577725306,
+    "subtype_f1_macro": 0.8046637752590468,
+    "jurisdiction_accuracy": 0.6933333333333334,
+    "jurisdiction_precision_macro": 0.41350649350649354,
+    "jurisdiction_recall_macro": 0.4179220779220779,
+    "jurisdiction_f1_macro": 0.4076005906238464,
+    "why_precision_micro": 0.6041666666666666,
+    "why_precision_macro": 0.5994839193351778,
+    "why_recall_micro": 0.7718631178707225,
+    "why_recall_macro": 0.7338144761221683,
+    "why_f1_micro": 0.67779632721202,
+    "why_f1_macro": 0.6489732285249087,
+    "impacted_principles_precision_micro": 0.7204724409448819,
+    "impacted_principles_precision_macro": 0.7509759521524227,
+    "impacted_principles_recall_micro": 0.8356164383561644,
+    "impacted_principles_recall_macro": 0.7889626527134941,
+    "impacted_principles_f1_micro": 0.773784355179704,
+    "impacted_principles_f1_macro": 0.7575593568585874,
+    "remediation_actions_precision_micro": 0.6105263157894737,
+    "remediation_actions_precision_macro": 0.5976390453783973,
+    "remediation_actions_recall_micro": 0.7733333333333333,
+    "remediation_actions_recall_macro": 0.690795299444056,
+    "remediation_actions_f1_micro": 0.6823529411764706,
+    "remediation_actions_f1_macro": 0.6264413385705756,
+    "content_type_accuracy": 1.0,
+    "content_type_precision_macro": 1.0,
+    "content_type_recall_macro": 1.0,
+    "content_type_f1_macro": 1.0,
+    "audience_segment_accuracy": 1.0,
+    "audience_segment_precision_macro": 1.0,
+    "audience_segment_recall_macro": 1.0,
+    "audience_segment_f1_macro": 1.0,
+    "detection_difficulty_accuracy": 0.41333333333333333,
+    "detection_difficulty_precision_macro": 0.4076248313090418,
+    "detection_difficulty_recall_macro": 0.4146464646464647,
+    "detection_difficulty_f1_macro": 0.41032213795594075,
+    "aggravating_factors_precision_micro": 0.6544715447154471,
+    "aggravating_factors_precision_macro": 0.6429940120546376,
+    "aggravating_factors_recall_micro": 0.6851063829787234,
+    "aggravating_factors_recall_macro": 0.6755889259203152,
+    "aggravating_factors_f1_micro": 0.6694386694386694,
+    "aggravating_factors_f1_macro": 0.6555896631040743,
+    "stage_a_selection_score": 0.767369221062852,
+    "selection_score": 0.7671909669032824,
+    "scenario_key_count": 150,
+    "rows_per_scenario_min": 1,
+    "rows_per_scenario_median": 1.0,
+    "rows_per_scenario_max": 1,
+    "violation_accuracy_scenario_macro": 0.9933333333333333,
+    "violation_accuracy_scenario_macro_risky": 0.9929577464788732,
+    "violation_accuracy_scenario_macro_clean": 1.0,
+    "violation_accuracy_scenario_min": 0.0,
+    "violation_worst_scenario_key": "train_1371",
+    "violation_worst_scenario_label": "risky",
+    "cycle": 2,
+    "best_epoch": 28,
+    "epochs_ran": 34,
+    "lr": 0.001,
+    "head_dropout": 0.1,
+    "weight_decay": 0.0,
+    "cycle_seconds": 32.74
+  },
+  "train": {
+    "loss": 0.29129520431160927,
+    "violation_accuracy": 1.0,
+    "violation_precision": 1.0,
+    "violation_recall": 1.0,
+    "violation_f1": 1.0,
+    "severity_accuracy": 0.9733333333333334,
+    "severity_precision_macro": 0.979737423027768,
+    "severity_recall_macro": 0.9795454017784588,
+    "severity_f1_macro": 0.9795522630686699,
+    "domain_accuracy": 0.9911111111111112,
+    "domain_precision_macro": 0.9922987117552334,
+    "domain_recall_macro": 0.9966329966329965,
+    "domain_f1_macro": 0.9943418090318922,
+    "subtype_accuracy": 1.0,
+    "subtype_precision_macro": 1.0,
+    "subtype_recall_macro": 1.0,
+    "subtype_f1_macro": 1.0,
+    "jurisdiction_accuracy": 0.9711111111111111,
+    "jurisdiction_precision_macro": 0.8754392733703078,
+    "jurisdiction_recall_macro": 0.9931847968545217,
+    "jurisdiction_f1_macro": 0.9279309415166559,
+    "why_precision_micro": 0.7692307692307693,
+    "why_precision_macro": 0.7629469993662027,
+    "why_recall_micro": 1.0,
+    "why_recall_macro": 0.9487179487179487,
+    "why_f1_micro": 0.8695652173913044,
+    "why_f1_macro": 0.8392609851418487,
+    "impacted_principles_precision_micro": 0.9257028112449799,
+    "impacted_principles_precision_macro": 0.8949360744911738,
+    "impacted_principles_recall_micro": 0.9913978494623656,
+    "impacted_principles_recall_macro": 0.9304394224733208,
+    "impacted_principles_f1_micro": 0.9574247144340603,
+    "impacted_principles_f1_macro": 0.9116715954228238,
+    "remediation_actions_precision_micro": 0.8031128404669261,
+    "remediation_actions_precision_macro": 0.743125500508932,
+    "remediation_actions_recall_micro": 0.9990319457889641,
+    "remediation_actions_recall_macro": 0.9029428409734013,
+    "remediation_actions_f1_micro": 0.8904227782571181,
+    "remediation_actions_f1_macro": 0.8109253028549341,
+    "content_type_accuracy": 1.0,
+    "content_type_precision_macro": 1.0,
+    "content_type_recall_macro": 1.0,
+    "content_type_f1_macro": 1.0,
+    "audience_segment_accuracy": 1.0,
+    "audience_segment_precision_macro": 1.0,
+    "audience_segment_recall_macro": 1.0,
+    "audience_segment_f1_macro": 1.0,
+    "detection_difficulty_accuracy": 0.9944444444444445,
+    "detection_difficulty_precision_macro": 0.9945552657437111,
+    "detection_difficulty_recall_macro": 0.9945552657437111,
+    "detection_difficulty_f1_macro": 0.9945552657437111,
+    "aggravating_factors_precision_micro": 0.9263862332695985,
+    "aggravating_factors_precision_macro": 0.9236474949570554,
+    "aggravating_factors_recall_micro": 0.9979402677651905,
+    "aggravating_factors_recall_macro": 0.9992537313432837,
+    "aggravating_factors_f1_micro": 0.9608329201784829,
+    "aggravating_factors_f1_macro": 0.9592327500257608,
+    "stage_a_selection_score": 0.937580517111993,
+    "selection_score": 0.947753814478068,
+    "scenario_key_count": 900,
+    "rows_per_scenario_min": 1,
+    "rows_per_scenario_median": 1.0,
+    "rows_per_scenario_max": 1,
+    "violation_accuracy_scenario_macro": 1.0,
+    "violation_accuracy_scenario_macro_risky": 1.0,
+    "violation_accuracy_scenario_macro_clean": 1.0,
+    "violation_accuracy_scenario_min": 1.0,
+    "violation_worst_scenario_key": "train_1001",
+    "violation_worst_scenario_label": "risky"
+  },
+  "dev": {
+    "loss": 11.207931518554688,
+    "violation_accuracy": 0.9933333333333333,
+    "violation_precision": 1.0,
+    "violation_recall": 0.9929577464788732,
+    "violation_f1": 0.9964664310954063,
+    "severity_accuracy": 0.7133333333333334,
+    "severity_precision_macro": 0.5736714975845411,
+    "severity_recall_macro": 0.5810399159663866,
+    "severity_f1_macro": 0.577203237410072,
+    "domain_accuracy": 0.8733333333333333,
+    "domain_precision_macro": 0.9152304502304504,
+    "domain_recall_macro": 0.9037037037037038,
+    "domain_f1_macro": 0.8981829715276235,
+    "subtype_accuracy": 0.82,
+    "subtype_precision_macro": 0.8295979273252001,
+    "subtype_recall_macro": 0.8100452577725306,
+    "subtype_f1_macro": 0.8046637752590468,
+    "jurisdiction_accuracy": 0.6933333333333334,
+    "jurisdiction_precision_macro": 0.41350649350649354,
+    "jurisdiction_recall_macro": 0.4179220779220779,
+    "jurisdiction_f1_macro": 0.4076005906238464,
+    "why_precision_micro": 0.616822429906542,
+    "why_precision_macro": 0.6160081633765844,
+    "why_recall_micro": 0.752851711026616,
+    "why_recall_macro": 0.7186333609410531,
+    "why_f1_micro": 0.678082191780822,
+    "why_f1_macro": 0.6517414247029207,
+    "impacted_principles_precision_micro": 0.7631578947368421,
+    "impacted_principles_precision_macro": 0.7874420024420025,
+    "impacted_principles_recall_micro": 0.7945205479452054,
+    "impacted_principles_recall_macro": 0.7614157289194307,
+    "impacted_principles_f1_micro": 0.7785234899328859,
+    "impacted_principles_f1_macro": 0.7660467655075498,
+    "remediation_actions_precision_micro": 0.6105263157894737,
+    "remediation_actions_precision_macro": 0.5976390453783973,
+    "remediation_actions_recall_micro": 0.7733333333333333,
+    "remediation_actions_recall_macro": 0.690795299444056,
+    "remediation_actions_f1_micro": 0.6823529411764706,
+    "remediation_actions_f1_macro": 0.6264413385705756,
+    "content_type_accuracy": 1.0,
+    "content_type_precision_macro": 1.0,
+    "content_type_recall_macro": 1.0,
+    "content_type_f1_macro": 1.0,
+    "audience_segment_accuracy": 1.0,
+    "audience_segment_precision_macro": 1.0,
+    "audience_segment_recall_macro": 1.0,
+    "audience_segment_f1_macro": 1.0,
+    "detection_difficulty_accuracy": 0.41333333333333333,
+    "detection_difficulty_precision_macro": 0.4076248313090418,
+    "detection_difficulty_recall_macro": 0.4146464646464647,
+    "detection_difficulty_f1_macro": 0.41032213795594075,
+    "aggravating_factors_precision_micro": 0.6404494382022472,
+    "aggravating_factors_precision_macro": 0.6351122397339503,
+    "aggravating_factors_recall_micro": 0.7276595744680852,
+    "aggravating_factors_recall_macro": 0.7164210015443564,
+    "aggravating_factors_f1_micro": 0.6812749003984064,
+    "aggravating_factors_f1_macro": 0.6705742793431082,
+    "stage_a_selection_score": 0.7687761716662238,
+    "selection_score": 0.7690657581979315,
+    "scenario_key_count": 150,
+    "rows_per_scenario_min": 1,
+    "rows_per_scenario_median": 1.0,
+    "rows_per_scenario_max": 1,
+    "violation_accuracy_scenario_macro": 0.9933333333333333,
+    "violation_accuracy_scenario_macro_risky": 0.9929577464788732,
+    "violation_accuracy_scenario_macro_clean": 1.0,
+    "violation_accuracy_scenario_min": 0.0,
+    "violation_worst_scenario_key": "train_1371",
+    "violation_worst_scenario_label": "risky"
+  },
+  "test": {
+    "loss": 10.207207107543946,
+    "violation_accuracy": 0.9866666666666667,
+    "violation_precision": 1.0,
+    "violation_recall": 0.9859154929577465,
+    "violation_f1": 0.9929078014184397,
+    "severity_accuracy": 0.7266666666666667,
+    "severity_precision_macro": 0.7056742540613509,
+    "severity_recall_macro": 0.6917853651724619,
+    "severity_f1_macro": 0.6937461494861875,
+    "domain_accuracy": 0.82,
+    "domain_precision_macro": 0.8639371000239372,
+    "domain_recall_macro": 0.7870126705653021,
+    "domain_f1_macro": 0.8032142065328451,
+    "subtype_accuracy": 0.7733333333333333,
+    "subtype_precision_macro": 0.7708825265643447,
+    "subtype_recall_macro": 0.7368260527351436,
+    "subtype_f1_macro": 0.7383595011385061,
+    "jurisdiction_accuracy": 0.74,
+    "jurisdiction_precision_macro": 0.5511805026656511,
+    "jurisdiction_recall_macro": 0.5755799755799755,
+    "jurisdiction_f1_macro": 0.5608646466716769,
+    "why_precision_micro": 0.6408045977011494,
+    "why_precision_macro": 0.6228897802851919,
+    "why_recall_micro": 0.8228782287822878,
+    "why_recall_macro": 0.7797228098698687,
+    "why_f1_micro": 0.7205169628432957,
+    "why_f1_macro": 0.6837887640406874,
+    "impacted_principles_precision_micro": 0.7368421052631579,
+    "impacted_principles_precision_macro": 0.7691853878810401,
+    "impacted_principles_recall_micro": 0.7636363636363637,
+    "impacted_principles_recall_macro": 0.6710974322869485,
+    "impacted_principles_f1_micro": 0.7499999999999999,
+    "impacted_principles_f1_macro": 0.7030370589130892,
+    "remediation_actions_precision_micro": 0.6188811188811189,
+    "remediation_actions_precision_macro": 0.5923653065256482,
+    "remediation_actions_recall_micro": 0.7695652173913043,
+    "remediation_actions_recall_macro": 0.684497765569872,
+    "remediation_actions_f1_micro": 0.686046511627907,
+    "remediation_actions_f1_macro": 0.6175714466344578,
+    "content_type_accuracy": 1.0,
+    "content_type_precision_macro": 1.0,
+    "content_type_recall_macro": 1.0,
+    "content_type_f1_macro": 1.0,
+    "audience_segment_accuracy": 1.0,
+    "audience_segment_precision_macro": 1.0,
+    "audience_segment_recall_macro": 1.0,
+    "audience_segment_f1_macro": 1.0,
+    "detection_difficulty_accuracy": 0.47333333333333333,
+    "detection_difficulty_precision_macro": 0.46757744378508614,
+    "detection_difficulty_recall_macro": 0.471182412358883,
+    "detection_difficulty_f1_macro": 0.46490073858516184,
+    "aggravating_factors_precision_micro": 0.6641509433962264,
+    "aggravating_factors_precision_macro": 0.6283313196161129,
+    "aggravating_factors_recall_micro": 0.7333333333333333,
+    "aggravating_factors_recall_macro": 0.6949052211781471,
+    "aggravating_factors_f1_micro": 0.697029702970297,
+    "aggravating_factors_f1_macro": 0.6546016914120363,
+    "stage_a_selection_score": 0.7506931806680867,
+    "selection_score": 0.7565296660343293,
+    "scenario_key_count": 150,
+    "rows_per_scenario_min": 1,
+    "rows_per_scenario_median": 1.0,
+    "rows_per_scenario_max": 1,
+    "violation_accuracy_scenario_macro": 0.9866666666666667,
+    "violation_accuracy_scenario_macro_risky": 0.9859154929577465,
+    "violation_accuracy_scenario_macro_clean": 1.0,
+    "violation_accuracy_scenario_min": 0.0,
+    "violation_worst_scenario_key": "train_1843",
+    "violation_worst_scenario_label": "risky"
+  },
+  "thresholds": {
+    "violation": 0.5,
+    "why": 0.55,
+    "impacted_principles": 0.7,
+    "remediation_actions": 0.5,
+    "aggravating_factors": 0.4
+  },
+  "log_path": "_cache/logs/legacy/stage-a-grid-v3-gpu/raw/260424_135746_sentinel-mb-c-d11.log",
+  "prior_poc_inflation_factors": [
+    "The previous PoC reused the same 17 synthetic families across train, dev, and test, so the model mostly learned family signatures rather than broad compliance reasoning.",
+    "Every prior observation carried extra structural cues such as source metadata, evidence snippets, and explicit jurisdiction sentences appended to the text.",
+    "A later dataset refactor silently dropped jurisdiction, impacted-principle, and remediation heads, which made the reported Stage A contract narrower than the product actually promises.",
+    "Reported micro metrics on dense negative label maps made performance look cleaner than a realistic class-by-class review would suggest."
+  ],
+  "mitigations": [
+    "The data pipeline now uses a 150-row agent-authored pilot plus a hard human-review gate before any 1000/100/100 release split is allowed to exist on disk.",
+    "The generation workflow now keeps Python limited to validation, formatting, duplicate review, and statistics while the agent authors and labels each observation directly.",
+    "The encoder default still uses a 512-token window, which comfortably covers the current 1000-character manual-authoring ceiling.",
+    "The full Stage A diagnose/prescribe contract is restored in both dataset and model outputs: jurisdiction, why, impacted principles, remediation actions, detection difficulty, and aggravating factors are all explicit.",
+    "Dataset generation now validates the mock contract keys directly and requires a human-reviewed approval hash before contract changes can pass validation.",
+    "The model factory now constructs full model bundles, while checkpoints store the trained projection and heads plus the frozen encoder reference instead of duplicating immutable backbone weights.",
+    "Evaluation artifacts now report scenario-family macro violation metrics and worst-family binary performance so repeated rows inside a narrow split cannot hide behind a flattering row-average alone.",
+    "Cross-checkpoint comparison artifacts are only kept when they are refreshed against the current dataset, preventing stale benchmark reports from masquerading as current evidence."
+  ],
+  "artifact_format": "checkpoint_only",
+  "end_to_end_serialized": false,
+  "transformers_bundle_dir": null,
+  "checkpoint_dir": "_models/stage-a-grid-v3-gpu/sentinel-mb-c-d11/260424_135913_sentinel-mb-c-d11",
+  "display_name": "sentinel-mb-c-d11@260424_135913"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6a10402332c588c7d67faa61f507aecee0b2d4004c685cb425b6e180dbfbf554
+size 653387268

modeling_sentinel.py ADDED Viewed

	@@ -0,0 +1,294 @@

+"""Self-contained Transformers model for Sentinel Stage A."""
+from __future__ import annotations
+from typing import Any
+import torch
+import torch.nn as nn
+from transformers import AutoConfig, AutoModel, PretrainedConfig, PreTrainedModel
+from .configuration_sentinel import SentinelConfig
+def _masked_mean(hidden: torch.Tensor, attention_mask: torch.Tensor) -> torch.Tensor:
+  mask = attention_mask.unsqueeze(-1)
+  summed = (hidden * mask).sum(dim=1)
+  counts = mask.sum(dim=1).clamp(min=1)
+  return summed / counts
+def _head_sizes(config: SentinelConfig) -> dict[str, int]:
+  sizes: dict[str, int] = {}
+  for head in config.output_heads:
+    head_info = config.output_signature[head]
+    if head_info.get("type") == "binary":
+      sizes[head] = 1
+    else:
+      sizes[head] = len(head_info.get("labels", []))
+  return sizes
+def _build_encoder_config(config: SentinelConfig) -> PretrainedConfig:
+  encoder_config = dict(config.encoder_config)
+  for key, value in dict(getattr(config, "encoder_config_overrides", {}) or {}).items():
+    encoder_config[key] = value
+  model_type = encoder_config.pop("model_type", None)
+  remote_error: Exception | None = None
+  if bool(getattr(config, "encoder_trust_remote_code", False)):
+    remote_kwargs: dict[str, Any] = {"trust_remote_code": True}
+    if getattr(config, "encoder_revision", None):
+      remote_kwargs["revision"] = config.encoder_revision
+    if getattr(config, "encoder_code_revision", None):
+      remote_kwargs["code_revision"] = config.encoder_code_revision
+    try:
+      trusted_config = AutoConfig.from_pretrained(
+        config.encoder_model_name,
+        **remote_kwargs,
+      )
+      for key, value in encoder_config.items():
+        setattr(trusted_config, key, value)
+      return trusted_config
+    except Exception as exc:
+      remote_error = exc
+  if not model_type:
+    raise ValueError("SentinelConfig.encoder_config must include model_type")
+  try:
+    return AutoConfig.for_model(model_type, **encoder_config)
+  except Exception as exc:
+    if remote_error is not None:
+      raise ValueError(
+        "could not build trusted remote encoder config; "
+        f"remote_error={type(remote_error).__name__}: {remote_error}"
+      ) from exc
+    raise
+class SharedProjection(nn.Module):
+  def __init__(self, input_size: int, hidden_size: int, dropout: float) -> None:
+    super().__init__()
+    self.input_norm = nn.LayerNorm(input_size)
+    self.hidden = nn.Linear(input_size, hidden_size)
+    self.activation = nn.GELU()
+    self.dropout = nn.Dropout(dropout)
+    self.residual = nn.Linear(input_size, hidden_size) if input_size != hidden_size else nn.Identity()
+    self.output_norm = nn.LayerNorm(hidden_size)
+  def forward(self, features: torch.Tensor) -> torch.Tensor:
+    projected = self.hidden(self.input_norm(features))
+    projected = self.activation(projected)
+    projected = self.dropout(projected)
+    return self.output_norm(projected + self.residual(features))
+class BaseStageAClassifier(nn.Module):
+  @staticmethod
+  def _format_outputs(logits: dict[str, torch.Tensor]) -> dict[str, torch.Tensor]:
+    logits["violation"] = logits["violation"].squeeze(-1)
+    return logits
+class DirectStageAClassifier(BaseStageAClassifier):
+  def __init__(self, input_size: int, config: SentinelConfig) -> None:
+    super().__init__()
+    projection_size = int(config.projection_size)
+    dropout = float(config.classifier_dropout)
+    sizes = _head_sizes(config)
+    self.shared = SharedProjection(input_size, projection_size, dropout)
+    self.violation = nn.Linear(projection_size, sizes["violation"])
+    self.severity = nn.Linear(projection_size, sizes["severity"])
+    self.domain = nn.Linear(projection_size, sizes["domain"])
+    self.subtype = nn.Linear(projection_size, sizes["subtype"])
+    self.jurisdiction = nn.Linear(projection_size, sizes["jurisdiction"])
+    self.why = nn.Linear(projection_size, sizes["why"])
+    self.impacted_principles = nn.Linear(projection_size, sizes["impacted_principles"])
+    self.remediation_actions = nn.Linear(projection_size, sizes["remediation_actions"])
+    self.content_type = nn.Linear(projection_size, sizes["content_type"])
+    self.audience_segment = nn.Linear(projection_size, sizes["audience_segment"])
+    self.detection_difficulty = nn.Linear(projection_size, sizes["detection_difficulty"])
+    self.aggravating_factors = nn.Linear(projection_size, sizes["aggravating_factors"])
+  def forward(self, features: torch.Tensor) -> dict[str, torch.Tensor]:
+    hidden = self.shared(features)
+    return self._format_outputs(
+      {
+        "violation": self.violation(hidden),
+        "severity": self.severity(hidden),
+        "domain": self.domain(hidden),
+        "subtype": self.subtype(hidden),
+        "jurisdiction": self.jurisdiction(hidden),
+        "why": self.why(hidden),
+        "impacted_principles": self.impacted_principles(hidden),
+        "remediation_actions": self.remediation_actions(hidden),
+        "content_type": self.content_type(hidden),
+        "audience_segment": self.audience_segment(hidden),
+        "detection_difficulty": self.detection_difficulty(hidden),
+        "aggravating_factors": self.aggravating_factors(hidden),
+      }
+    )
+def _funnel_width(size: int, divisor: int, floor: int) -> int:
+  return max(floor, size // max(1, divisor))
+class FunnelHead(nn.Module):
+  def __init__(
+    self,
+    input_size: int,
+    output_size: int,
+    dropout: float,
+    head_div: int,
+    head_mul: int,
+    head_skip: bool,
+  ) -> None:
+    super().__init__()
+    self.input_size = int(input_size)
+    self.hidden_size = _funnel_width(self.input_size, head_div, 32)
+    self.final_size = _funnel_width(self.input_size, head_div * head_mul, 16)
+    self.input_norm = nn.LayerNorm(self.input_size)
+    self.first = nn.Linear(self.input_size, self.hidden_size)
+    self.activation = nn.GELU()
+    self.dropout = nn.Dropout(dropout)
+    self.second = nn.Linear(self.hidden_size, self.final_size)
+    self.residual = (
+      nn.Linear(self.input_size, self.final_size)
+      if head_skip and self.input_size != self.final_size
+      else nn.Identity()
+      if head_skip
+      else None
+    )
+    self.output_norm = nn.LayerNorm(self.final_size)
+    self.out = nn.Linear(self.final_size, output_size)
+  def forward(self, features: torch.Tensor) -> torch.Tensor:
+    normalized = self.input_norm(features)
+    hidden = self.first(normalized)
+    hidden = self.activation(hidden)
+    hidden = self.dropout(hidden)
+    hidden = self.second(hidden)
+    hidden = self.activation(hidden)
+    hidden = self.dropout(hidden)
+    if self.residual is not None:
+      hidden = hidden + self.residual(features)
+    return self.out(self.output_norm(hidden))
+class RecombinationStageAClassifier(BaseStageAClassifier):
+  def __init__(self, input_size: int, config: SentinelConfig) -> None:
+    super().__init__()
+    projection_size = int(config.projection_size)
+    dropout = float(config.head_dropout)
+    self.shared = SharedProjection(input_size, projection_size, dropout)
+    self.heads = nn.ModuleDict(
+      {
+        head: FunnelHead(
+          projection_size,
+          size,
+          dropout,
+          int(config.head_div),
+          int(config.head_mul),
+          bool(config.head_skip),
+        )
+        for head, size in _head_sizes(config).items()
+      }
+    )
+  def forward(self, features: torch.Tensor) -> dict[str, torch.Tensor]:
+    hidden = self.shared(features)
+    return self._format_outputs({head: layer(hidden) for head, layer in self.heads.items()})
+class ColumnarStageAClassifier(BaseStageAClassifier):
+  def __init__(self, input_size: int, config: SentinelConfig) -> None:
+    super().__init__()
+    dropout = float(config.head_dropout)
+    self.heads = nn.ModuleDict(
+      {
+        head: FunnelHead(
+          int(input_size),
+          size,
+          dropout,
+          int(config.head_div),
+          int(config.head_mul),
+          bool(config.head_skip),
+        )
+        for head, size in _head_sizes(config).items()
+      }
+    )
+  def forward(self, features: torch.Tensor) -> dict[str, torch.Tensor]:
+    return self._format_outputs({head: layer(features) for head, layer in self.heads.items()})
+class SentinelStageAModel(PreTrainedModel):
+  """Frozen-encoder Sentinel classifier serialized as one Transformers model."""
+  config_class = SentinelConfig
+  base_model_prefix = "encoder"
+  main_input_name = "input_ids"
+  def __init__(self, config: SentinelConfig) -> None:
+    super().__init__(config)
+    if not config.encoder_config:
+      raise ValueError("SentinelConfig.encoder_config is required")
+    encoder_config = _build_encoder_config(config)
+    self.encoder = AutoModel.from_config(
+      encoder_config,
+      trust_remote_code=bool(getattr(config, "encoder_trust_remote_code", False)),
+    )
+    hidden_size = int(getattr(self.encoder.config, "hidden_size"))
+    if config.head_type == "direct":
+      self.classifier = DirectStageAClassifier(hidden_size, config)
+    elif config.head_type == "recombine":
+      self.classifier = RecombinationStageAClassifier(hidden_size, config)
+    elif config.head_type == "columnar":
+      self.classifier = ColumnarStageAClassifier(hidden_size, config)
+    else:
+      raise ValueError(f"unsupported Sentinel head_type={config.head_type}")
+    self.post_init()
+  def forward(
+    self,
+    input_ids: torch.Tensor | None = None,
+    attention_mask: torch.Tensor | None = None,
+    token_type_ids: torch.Tensor | None = None,
+    position_ids: torch.Tensor | None = None,
+    head_mask: torch.Tensor | None = None,
+    inputs_embeds: torch.Tensor | None = None,
+    output_attentions: bool | None = None,
+    output_hidden_states: bool | None = None,
+    return_dict: bool | None = None,
+    **kwargs: Any,
+  ) -> dict[str, dict[str, torch.Tensor]] | tuple[dict[str, torch.Tensor]]:
+    encoder_kwargs: dict[str, Any] = {
+      "input_ids": input_ids,
+      "attention_mask": attention_mask,
+      "inputs_embeds": inputs_embeds,
+      "return_dict": True,
+    }
+    if head_mask is not None:
+      encoder_kwargs["head_mask"] = head_mask
+    if token_type_ids is not None:
+      encoder_kwargs["token_type_ids"] = token_type_ids
+    if position_ids is not None:
+      encoder_kwargs["position_ids"] = position_ids
+    if output_attentions is not None:
+      encoder_kwargs["output_attentions"] = output_attentions
+    if output_hidden_states is not None:
+      encoder_kwargs["output_hidden_states"] = output_hidden_states
+    encoder_outputs = self.encoder(**encoder_kwargs, **kwargs)
+    if attention_mask is None:
+      batch_size, sequence_length = encoder_outputs.last_hidden_state.shape[:2]
+      attention_mask = torch.ones(
+        (batch_size, sequence_length),
+        dtype=encoder_outputs.last_hidden_state.dtype,
+        device=encoder_outputs.last_hidden_state.device,
+      )
+    features = _masked_mean(encoder_outputs.last_hidden_state, attention_mask)
+    logits = self.classifier(features)
+    if return_dict is False:
+      return (logits,)
+    return {"logits": logits}

pipeline_sentinel.py ADDED Viewed

	@@ -0,0 +1,103 @@

+"""Custom Transformers pipeline for Sentinel Stage A inference."""
+from __future__ import annotations
+from typing import Any
+import torch
+from transformers import Pipeline
+class SentinelStageAPipeline(Pipeline):
+  """Run Sentinel Stage A prediction and return JSON-serializable probabilities."""
+  def _sanitize_parameters(self, **kwargs: Any) -> tuple[dict[str, Any], dict[str, Any], dict[str, Any]]:
+    preprocess_kwargs: dict[str, Any] = {}
+    postprocess_kwargs: dict[str, Any] = {}
+    if "max_length" in kwargs:
+      preprocess_kwargs["max_length"] = kwargs["max_length"]
+    if "return_all_probabilities" in kwargs:
+      postprocess_kwargs["return_all_probabilities"] = kwargs["return_all_probabilities"]
+    if "threshold_overrides" in kwargs:
+      postprocess_kwargs["threshold_overrides"] = kwargs["threshold_overrides"]
+    return preprocess_kwargs, {}, postprocess_kwargs
+  def preprocess(self, inputs: str, max_length: int | None = None) -> dict[str, torch.Tensor]:
+    if not isinstance(inputs, str):
+      raise TypeError(f"SentinelStageAPipeline expects a string input, got {type(inputs).__name__}")
+    limit = int(max_length or getattr(self.model.config, "max_length", 512))
+    return self.tokenizer(
+      inputs,
+      padding=False,
+      truncation=True,
+      max_length=limit,
+      return_tensors=self.framework,
+    )
+  def _forward(self, model_inputs: dict[str, torch.Tensor]) -> Any:
+    return self.model(**model_inputs)
+  def postprocess(
+    self,
+    model_outputs: Any,
+    return_all_probabilities: bool = True,
+    threshold_overrides: dict[str, float] | None = None,
+  ) -> dict[str, Any]:
+    if isinstance(model_outputs, tuple):
+      logits = model_outputs[0]
+    elif isinstance(model_outputs, dict):
+      logits = model_outputs["logits"]
+    else:
+      logits = model_outputs.logits
+    signature = getattr(self.model.config, "output_signature", {})
+    output_heads = getattr(self.model.config, "output_heads", None) or list(signature.keys())
+    thresholds = dict(getattr(self.model.config, "thresholds", {}) or {})
+    if threshold_overrides:
+      thresholds.update(threshold_overrides)
+    result: dict[str, Any] = {}
+    for head in output_heads:
+      head_info = signature[head]
+      head_type = head_info.get("type")
+      head_logits = logits[head]
+      if head_type == "binary":
+        probability = float(torch.sigmoid(head_logits)[0].detach().cpu())
+        threshold = float(thresholds.get(head, 0.5))
+        result[head] = {
+          "label": probability >= threshold,
+          "probability": probability,
+          "threshold": threshold,
+        }
+      elif head_type == "multiclass":
+        labels = [str(label) for label in head_info.get("labels", [])]
+        probabilities = torch.softmax(head_logits, dim=-1)[0].detach().cpu()
+        index = int(torch.argmax(probabilities).item())
+        result[head] = {
+          "label": labels[index],
+          "probability": float(probabilities[index]),
+        }
+        if return_all_probabilities:
+          result[head]["probabilities"] = {
+            label: float(probabilities[position])
+            for position, label in enumerate(labels)
+          }
+      elif head_type == "multilabel":
+        labels = [str(label) for label in head_info.get("labels", [])]
+        probabilities = torch.sigmoid(head_logits)[0].detach().cpu()
+        threshold = float(thresholds.get(head, 0.5))
+        result[head] = {
+          "labels": [
+            label
+            for position, label in enumerate(labels)
+            if float(probabilities[position]) >= threshold
+          ],
+          "threshold": threshold,
+        }
+        if return_all_probabilities:
+          result[head]["probabilities"] = {
+            label: float(probabilities[position])
+            for position, label in enumerate(labels)
+          }
+      else:
+        raise ValueError(f"unsupported Sentinel head type for {head}: {head_type}")
+    return result

results.md ADDED Viewed

The diff for this file is too large to render. See raw diff

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,945 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "|||IP_ADDRESS|||",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "1": {
+      "content": "<|padding|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50254": {
+      "content": "                        ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50255": {
+      "content": "                       ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50256": {
+      "content": "                      ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50257": {
+      "content": "                     ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50258": {
+      "content": "                    ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50259": {
+      "content": "                   ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50260": {
+      "content": "                  ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50261": {
+      "content": "                 ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50262": {
+      "content": "                ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50263": {
+      "content": "               ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50264": {
+      "content": "              ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50265": {
+      "content": "             ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50266": {
+      "content": "            ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50267": {
+      "content": "           ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50268": {
+      "content": "          ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50269": {
+      "content": "         ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50270": {
+      "content": "        ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50271": {
+      "content": "       ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50272": {
+      "content": "      ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50273": {
+      "content": "     ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50274": {
+      "content": "    ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50275": {
+      "content": "   ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50276": {
+      "content": "  ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50277": {
+      "content": "|||EMAIL_ADDRESS|||",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50278": {
+      "content": "|||PHONE_NUMBER|||",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50279": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50280": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50281": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50282": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50283": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50284": {
+      "content": "[MASK]",
+      "lstrip": true,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50285": {
+      "content": "[unused0]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50286": {
+      "content": "[unused1]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50287": {
+      "content": "[unused2]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50288": {
+      "content": "[unused3]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50289": {
+      "content": "[unused4]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50290": {
+      "content": "[unused5]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50291": {
+      "content": "[unused6]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50292": {
+      "content": "[unused7]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50293": {
+      "content": "[unused8]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50294": {
+      "content": "[unused9]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50295": {
+      "content": "[unused10]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50296": {
+      "content": "[unused11]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50297": {
+      "content": "[unused12]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50298": {
+      "content": "[unused13]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50299": {
+      "content": "[unused14]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50300": {
+      "content": "[unused15]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50301": {
+      "content": "[unused16]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50302": {
+      "content": "[unused17]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50303": {
+      "content": "[unused18]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50304": {
+      "content": "[unused19]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50305": {
+      "content": "[unused20]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50306": {
+      "content": "[unused21]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50307": {
+      "content": "[unused22]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50308": {
+      "content": "[unused23]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50309": {
+      "content": "[unused24]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50310": {
+      "content": "[unused25]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50311": {
+      "content": "[unused26]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50312": {
+      "content": "[unused27]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50313": {
+      "content": "[unused28]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50314": {
+      "content": "[unused29]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50315": {
+      "content": "[unused30]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50316": {
+      "content": "[unused31]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50317": {
+      "content": "[unused32]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50318": {
+      "content": "[unused33]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50319": {
+      "content": "[unused34]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50320": {
+      "content": "[unused35]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50321": {
+      "content": "[unused36]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50322": {
+      "content": "[unused37]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50323": {
+      "content": "[unused38]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50324": {
+      "content": "[unused39]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50325": {
+      "content": "[unused40]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50326": {
+      "content": "[unused41]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50327": {
+      "content": "[unused42]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50328": {
+      "content": "[unused43]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50329": {
+      "content": "[unused44]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50330": {
+      "content": "[unused45]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50331": {
+      "content": "[unused46]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50332": {
+      "content": "[unused47]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50333": {
+      "content": "[unused48]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50334": {
+      "content": "[unused49]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50335": {
+      "content": "[unused50]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50336": {
+      "content": "[unused51]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50337": {
+      "content": "[unused52]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50338": {
+      "content": "[unused53]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50339": {
+      "content": "[unused54]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50340": {
+      "content": "[unused55]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50341": {
+      "content": "[unused56]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50342": {
+      "content": "[unused57]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50343": {
+      "content": "[unused58]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50344": {
+      "content": "[unused59]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50345": {
+      "content": "[unused60]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50346": {
+      "content": "[unused61]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50347": {
+      "content": "[unused62]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50348": {
+      "content": "[unused63]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50349": {
+      "content": "[unused64]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50350": {
+      "content": "[unused65]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50351": {
+      "content": "[unused66]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50352": {
+      "content": "[unused67]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50353": {
+      "content": "[unused68]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50354": {
+      "content": "[unused69]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50355": {
+      "content": "[unused70]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50356": {
+      "content": "[unused71]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50357": {
+      "content": "[unused72]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50358": {
+      "content": "[unused73]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50359": {
+      "content": "[unused74]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50360": {
+      "content": "[unused75]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50361": {
+      "content": "[unused76]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50362": {
+      "content": "[unused77]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50363": {
+      "content": "[unused78]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50364": {
+      "content": "[unused79]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50365": {
+      "content": "[unused80]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50366": {
+      "content": "[unused81]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50367": {
+      "content": "[unused82]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_input_names": [
+    "input_ids",
+    "attention_mask"
+  ],
+  "model_max_length": 8192,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "tokenizer_class": "PreTrainedTokenizerFast",
+  "unk_token": "[UNK]"
+}