Spaces:

ogwata
/

structeval-analyz

Running

App Files Files Community

structeval-analyz / README.md

ogwata's picture

sdk_version: 5.12.0->5.23.0

f614727 verified 23 days ago

|

history blame contribute delete

2.16 kB

A newer version of the Gradio SDK is available: 6.9.0

title: StructEval-T Analyzer
emoji: 🔍
colorFrom: blue
colorTo: indigo
sdk: gradio
sdk_version: 5.23.0
app_file: app.py
pinned: false
license: mit

🔍 StructEval-T Analyzer

松尾研LLM講義2025 メインコンペ用の推論結果分析ツールです。

概要

inference.json と public_150.json をアップロードすることで、モデル出力の構文的正確性（パース可能性）やエラーパターンを分析できます。

機能

📊 構文検証（Syntax Validation）

各フォーマット（JSON, YAML, TOML, XML, CSV）ごとにPythonの標準パーサーで構文を検証します。

❌ エラーパターン自動分類

パースに失敗した出力に対して、以下のエラーパターンを自動検出します：

パターン	説明
`markdown_block`	マークダウンコードブロック（```json 等）の混入
`natural_language_prefix`	先頭に自然言語（"Here is..."等）が混入
`natural_language_suffix`	末尾に自然言語（"Note:"等）が混入
`truncation`	出力の途切れ（閉じ括弧・タグの欠落）
`empty_output`	空の出力
`wrong_format`	要求と異なるフォーマットの出力
`cot_leakage`	思考過程（<think>等）の混入

📈 複数実験の比較

複数の inference.json をアップロードすることで、実験間のパース成功率を比較できます。

使い方

public_150.json をアップロード
1つ以上の inference.json をアップロード（複数ファイル対応）
「分析開始」ボタンをクリック

注意事項

このツールは構文的な正確性（パース可能かどうか）のみを検証します
運営側の採点基準である raw_output_metric（特定キーの存在チェック等）は再現できません
スコアの完全な再現を目的としたものではなく、エラーの傾向把握に活用してください

ローカルでの実行

pip install gradio pandas pyyaml
python app.py

ライセンス

MIT License