Spaces:

ogwata
/

structeval-analyz

Running

App Files Files Community

structeval-analyz / README.md

ogwata

sdk_version: 5.12.0->5.23.0

f614727 verified 23 days ago

preview code

raw

history blame contribute delete

2.16 kB

	---
	title: StructEval-T Analyzer
	emoji: 🔍
	colorFrom: blue
	colorTo: indigo
	sdk: gradio
	sdk_version: "5.23.0"
	app_file: app.py
	pinned: false
	license: mit
	---

	# 🔍 StructEval-T Analyzer

	松尾研LLM講義2025 メインコンペ用の推論結果分析ツールです。

	## 概要

	`inference.json` と `public_150.json` をアップロードすることで、モデル出力の構文的正確性（パース可能性）やエラーパターンを分析できます。

	## 機能

	### 📊 構文検証（Syntax Validation）
	各フォーマット（JSON, YAML, TOML, XML, CSV）ごとにPythonの標準パーサーで構文を検証します。

	### ❌ エラーパターン自動分類
	パースに失敗した出力に対して、以下のエラーパターンを自動検出します：

	\| パターン \| 説明 \|
	\|---------\|------\|
	\| `markdown_block` \| マークダウンコードブロック（\`\`\`json 等）の混入 \|
	\| `natural_language_prefix` \| 先頭に自然言語（"Here is..."等）が混入 \|
	\| `natural_language_suffix` \| 末尾に自然言語（"Note:"等）が混入 \|
	\| `truncation` \| 出力の途切れ（閉じ括弧・タグの欠落） \|
	\| `empty_output` \| 空の出力 \|
	\| `wrong_format` \| 要求と異なるフォーマットの出力 \|
	\| `cot_leakage` \| 思考過程（\<think\>等）の混入 \|

	### 📈 複数実験の比較
	複数の `inference.json` をアップロードすることで、実験間のパース成功率を比較できます。

	## 使い方

	1. `public_150.json` をアップロード
	2. 1つ以上の `inference.json` をアップロード（複数ファイル対応）
	3. 「分析開始」ボタンをクリック

	## 注意事項

	- このツールは構文的な正確性（パース可能かどうか）のみを検証します
	- 運営側の採点基準である `raw_output_metric`（特定キーの存在チェック等）は再現できません
	- スコアの完全な再現を目的としたものではなく、エラーの傾向把握に活用してください

	## ローカルでの実行

	```bash
	pip install gradio pandas pyyaml
	python app.py
	```

	## ライセンス

	MIT License