Spaces:
Running
Running
| title: StructEval-T Analyzer | |
| emoji: 🔍 | |
| colorFrom: blue | |
| colorTo: indigo | |
| sdk: gradio | |
| sdk_version: "5.23.0" | |
| app_file: app.py | |
| pinned: false | |
| license: mit | |
| # 🔍 StructEval-T Analyzer | |
| 松尾研LLM講義2025 メインコンペ用の推論結果分析ツールです。 | |
| ## 概要 | |
| `inference.json` と `public_150.json` をアップロードすることで、モデル出力の構文的正確性(パース可能性)やエラーパターンを分析できます。 | |
| ## 機能 | |
| ### 📊 構文検証(Syntax Validation) | |
| 各フォーマット(JSON, YAML, TOML, XML, CSV)ごとにPythonの標準パーサーで構文を検証します。 | |
| ### ❌ エラーパターン自動分類 | |
| パースに失敗した出力に対して、以下のエラーパターンを自動検出します: | |
| | パターン | 説明 | | |
| |---------|------| | |
| | `markdown_block` | マークダウンコードブロック(\`\`\`json 等)の混入 | | |
| | `natural_language_prefix` | 先頭に自然言語("Here is..."等)が混入 | | |
| | `natural_language_suffix` | 末尾に自然言語("Note:"等)が混入 | | |
| | `truncation` | 出力の途切れ(閉じ括弧・タグの欠落) | | |
| | `empty_output` | 空の出力 | | |
| | `wrong_format` | 要求と異なるフォーマットの出力 | | |
| | `cot_leakage` | 思考過程(\<think\>等)の混入 | | |
| ### 📈 複数実験の比較 | |
| 複数の `inference.json` をアップロードすることで、実験間のパース成功率を比較できます。 | |
| ## 使い方 | |
| 1. `public_150.json` をアップロード | |
| 2. 1つ以上の `inference.json` をアップロード(複数ファイル対応) | |
| 3. 「分析開始」ボタンをクリック | |
| ## 注意事項 | |
| - このツールは**構文的な正確性(パース可能かどうか)のみ**を検証します | |
| - 運営側の採点基準である `raw_output_metric`(特定キーの存在チェック等)は再現できません | |
| - スコアの完全な再現を目的としたものではなく、**エラーの傾向把握**に活用してください | |
| ## ローカルでの実行 | |
| ```bash | |
| pip install gradio pandas pyyaml | |
| python app.py | |
| ``` | |
| ## ライセンス | |
| MIT License | |