verantyx / docs /benchmarks.md
kofdai's picture
Upload folder using huggingface_hub
6d07351 verified

AXIS Benchmark Set (Signature Questions)

このドキュメントは、AXIS の推論能力を評価するための「看板問題」を定義します。これらの問題は LLM 単体では間違えやすく、AXIS の構造推論(Lattice Cross / Rule-based Simulation)が必須となるものです。


1. 様相論理:S5フレームの推論 (Modal Logic S5)

【設問】 フレーム R が反射的 (reflexive)、推移的 (transitive)、かつユークリッド的 (euclidean) である場合、常に成り立つ式はどれか。 A. □A -> □□A B. ◊A -> □◊A C. □A -> A D. 上記すべて (S5公理系)

期待される AXIS の挙動:

  • frame:reflexive, frame:transitive, frame:euclidean を全て抽出。
  • modal_reflexive_axiomT, modal_transitive_axiom4, modal_euclidean_axiom5 が全てヒット。
  • 結論: Choice D

2. トポロジー:高次元球面の反証 (Topology Refutation)

【設問】 次の主張のうち、論理的に棄却(反証)できるものはどれか。 A. n > k のとき、π_n(S^k) は常に有限群である。 B. n < k のとき、π_n(S^k) は常に 0 である。 C. すべての n に対して、π_n(S^1) は常に Z と同型である。

期待される AXIS の挙動:

  • refute_mode: ON を検知。
  • A に対して topo_refute_n_gt_k_always_finite ルールが反証(Refutation)を生成。
  • C に対して topo_refute_s1_all_Z ルールが反証を生成。
  • 結論: Choice A & C

3. ハイブリッド論理:複雑なフレームの特性 (Hybrid Logic H1)

【設問】 Serial かつ Transitive だが、Reflexive でも Euclidean でもないフレームにおいて、Hybrid Logic の式として妥当なものはどれか。 A. @i □ p -> @i p B. @i ◊ p -> @i □ ◊ p C. @i ◊ T ∧ (@i □ p -> @i □ □ p) ∧ @i ¬@i □ i D. @i ◊ j ∧ @j ◊ k ∧ @i ¬ ◊ k

期待される AXIS の挙動:

  • logic:hybrid, frame:serial, frame:transitive, frame:not_reflexive, frame:not_euclidean を抽出。
  • hybrid_characterize_serial_trans_notrefl_noteucl ルールが発火。
  • 結論: Choice C

4. なぜ LLM ではなく AXIS なのか(LLM の失敗例)

  • 幻覚 (Hallucination): LLM は π_3(S^2) を 0 だと答えたり、有限群だと思い込む傾向がありますが、AXIS は DB の証拠に基づき「ℤ(無限群)である」という反例を保持します。
  • 混合 (Mixing): LLM は推移性とユークリッド性を混同しやすいですが、AXIS は requires 条件により、プロパティが揃わない限りルールを適用しません。
  • 説明への逃げ: 証拠がない場合に LLM は「文脈によります」と濁しますが、AXIS は WAIT (insufficient_evidence) を返し、思考の停止ポイントを明示します。