Spaces:
Running
Running
A newer version of the Gradio SDK is available:
6.9.0
metadata
title: StructEval-T Analyzer
emoji: 🔍
colorFrom: blue
colorTo: indigo
sdk: gradio
sdk_version: 5.23.0
app_file: app.py
pinned: false
license: mit
🔍 StructEval-T Analyzer
松尾研LLM講義2025 メインコンペ用の推論結果分析ツールです。
概要
inference.json と public_150.json をアップロードすることで、モデル出力の構文的正確性(パース可能性)やエラーパターンを分析できます。
機能
📊 構文検証(Syntax Validation)
各フォーマット(JSON, YAML, TOML, XML, CSV)ごとにPythonの標準パーサーで構文を検証します。
❌ エラーパターン自動分類
パースに失敗した出力に対して、以下のエラーパターンを自動検出します:
| パターン | 説明 |
|---|---|
markdown_block |
マークダウンコードブロック(```json 等)の混入 |
natural_language_prefix |
先頭に自然言語("Here is..."等)が混入 |
natural_language_suffix |
末尾に自然言語("Note:"等)が混入 |
truncation |
出力の途切れ(閉じ括弧・タグの欠落) |
empty_output |
空の出力 |
wrong_format |
要求と異なるフォーマットの出力 |
cot_leakage |
思考過程(<think>等)の混入 |
📈 複数実験の比較
複数の inference.json をアップロードすることで、実験間のパース成功率を比較できます。
使い方
public_150.jsonをアップロード- 1つ以上の
inference.jsonをアップロード(複数ファイル対応) - 「分析開始」ボタンをクリック
注意事項
- このツールは構文的な正確性(パース可能かどうか)のみを検証します
- 運営側の採点基準である
raw_output_metric(特定キーの存在チェック等)は再現できません - スコアの完全な再現を目的としたものではなく、エラーの傾向把握に活用してください
ローカルでの実行
pip install gradio pandas pyyaml
python app.py
ライセンス
MIT License