structeval-analyz / README.md
ogwata's picture
sdk_version: 5.12.0->5.23.0
f614727 verified

A newer version of the Gradio SDK is available: 6.9.0

Upgrade
metadata
title: StructEval-T Analyzer
emoji: 🔍
colorFrom: blue
colorTo: indigo
sdk: gradio
sdk_version: 5.23.0
app_file: app.py
pinned: false
license: mit

🔍 StructEval-T Analyzer

松尾研LLM講義2025 メインコンペ用の推論結果分析ツールです。

概要

inference.jsonpublic_150.json をアップロードすることで、モデル出力の構文的正確性(パース可能性)やエラーパターンを分析できます。

機能

📊 構文検証(Syntax Validation)

各フォーマット(JSON, YAML, TOML, XML, CSV)ごとにPythonの標準パーサーで構文を検証します。

❌ エラーパターン自動分類

パースに失敗した出力に対して、以下のエラーパターンを自動検出します:

パターン 説明
markdown_block マークダウンコードブロック(```json 等)の混入
natural_language_prefix 先頭に自然言語("Here is..."等)が混入
natural_language_suffix 末尾に自然言語("Note:"等)が混入
truncation 出力の途切れ(閉じ括弧・タグの欠落)
empty_output 空の出力
wrong_format 要求と異なるフォーマットの出力
cot_leakage 思考過程(<think>等)の混入

📈 複数実験の比較

複数の inference.json をアップロードすることで、実験間のパース成功率を比較できます。

使い方

  1. public_150.json をアップロード
  2. 1つ以上の inference.json をアップロード(複数ファイル対応)
  3. 「分析開始」ボタンをクリック

注意事項

  • このツールは構文的な正確性(パース可能かどうか)のみを検証します
  • 運営側の採点基準である raw_output_metric(特定キーの存在チェック等)は再現できません
  • スコアの完全な再現を目的としたものではなく、エラーの傾向把握に活用してください

ローカルでの実行

pip install gradio pandas pyyaml
python app.py

ライセンス

MIT License