--- title: StructEval-T Analyzer emoji: 🔍 colorFrom: blue colorTo: indigo sdk: gradio sdk_version: "5.23.0" app_file: app.py pinned: false license: mit --- # 🔍 StructEval-T Analyzer 松尾研LLM講義2025 メインコンペ用の推論結果分析ツールです。 ## 概要 `inference.json` と `public_150.json` をアップロードすることで、モデル出力の構文的正確性(パース可能性)やエラーパターンを分析できます。 ## 機能 ### 📊 構文検証(Syntax Validation) 各フォーマット(JSON, YAML, TOML, XML, CSV)ごとにPythonの標準パーサーで構文を検証します。 ### ❌ エラーパターン自動分類 パースに失敗した出力に対して、以下のエラーパターンを自動検出します: | パターン | 説明 | |---------|------| | `markdown_block` | マークダウンコードブロック(\`\`\`json 等)の混入 | | `natural_language_prefix` | 先頭に自然言語("Here is..."等)が混入 | | `natural_language_suffix` | 末尾に自然言語("Note:"等)が混入 | | `truncation` | 出力の途切れ(閉じ括弧・タグの欠落) | | `empty_output` | 空の出力 | | `wrong_format` | 要求と異なるフォーマットの出力 | | `cot_leakage` | 思考過程(\等)の混入 | ### 📈 複数実験の比較 複数の `inference.json` をアップロードすることで、実験間のパース成功率を比較できます。 ## 使い方 1. `public_150.json` をアップロード 2. 1つ以上の `inference.json` をアップロード(複数ファイル対応) 3. 「分析開始」ボタンをクリック ## 注意事項 - このツールは**構文的な正確性(パース可能かどうか)のみ**を検証します - 運営側の採点基準である `raw_output_metric`(特定キーの存在チェック等)は再現できません - スコアの完全な再現を目的としたものではなく、**エラーの傾向把握**に活用してください ## ローカルでの実行 ```bash pip install gradio pandas pyyaml python app.py ``` ## ライセンス MIT License