Spaces:

matt1847
/

will

Sleeping

matt1847 Claude Opus 4.5 commited on Jan 25

Commit

fba507b

1 Parent(s): b4e822f

更新: コンセプトページをシンプルに刷新

- GPT-2固有の記述を汎用的な表現に変更
- WHAT/HOW/SPECの3セクションに整理
- 手順を4→3ステップに簡略化
- モデル一覧を動的に取得

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>

Files changed (1) hide show

src/ui/streamlit/pages/concept.py +39 -67

src/ui/streamlit/pages/concept.py CHANGED Viewed

@@ -6,6 +6,7 @@ WILLプロジェクトの概念説明を提供する
 import streamlit as st
 from ....models.registry import ModelRegistry
 def render_concept_page() -> None:
@@ -13,26 +14,22 @@ def render_concept_page() -> None:
     st.markdown('<p class="title">CONCEPT</p>', unsafe_allow_html=True)
     st.markdown('<p class="subtitle">DOCUMENTATION</p>', unsafe_allow_html=True)
-    _render_concept_section()
-    _render_process_section()
     _render_specification_section()
-def _render_concept_section() -> None:
-    """コンセプト説明セクション"""
     st.markdown(
         '''
     <div class="section">
-        <p class="section-title">CONCEPT</p>
         <p style="text-align: center; color: #666; line-height: 2.2;">
-            GPT-2は人間が書いたテキストで訓練され<br>
-            その重みに言語パターンを保持している<br><br>
-            通常はプロンプトに対して応答を生成するが<br>
-            入力をランダムノイズに置き換え<br>
-            出力にもノイズを加えることで<br>
-            学習済みの統計的偏りを破壊する<br><br>
-            人間の問いかけなしに<br>
-            モデルの構造だけが出力するものを観測する
         </p>
     </div>
     <hr class="divider">
@@ -41,109 +38,84 @@ def _render_concept_section() -> None:
     )
-def _render_process_section() -> None:
-    """プロセス説明セクション"""
     st.markdown(
         '''
     <div class="section">
-        <p class="section-title">PROCESS</p>
     </div>
     ''',
         unsafe_allow_html=True,
     )
-    # Step 1: ENTROPY SEED
     st.markdown(
         '<p style="text-align: center; color: #333; font-size: 0.65rem; '
-        'letter-spacing: 0.15em; margin-bottom: 0.5rem;">01 — ENTROPY SEED</p>',
         unsafe_allow_html=True,
     )
-    st.code("seed = time.time_ns()\ntorch.manual_seed(seed)", language="python")
     st.markdown(
         '<p style="text-align: center; font-size: 0.7rem; color: #444;">'
-        "実行瞬間のナノ秒を乱数シードとして採取</p>",
         unsafe_allow_html=True,
     )
     st.markdown("<br>", unsafe_allow_html=True)
-    # Step 2: INPUT NOISE
     st.markdown(
         '<p style="text-align: center; color: #333; font-size: 0.65rem; '
-        'letter-spacing: 0.15em; margin-bottom: 0.5rem;">02 — INPUT NOISE</p>',
         unsafe_allow_html=True,
     )
-    st.code(
-        "noise = torch.randn(1, 32, 768)\noutputs = model(inputs_embeds=noise)",
-        language="python",
-    )
     st.markdown(
         '<p style="text-align: center; font-size: 0.7rem; color: #444;">'
-        "768次元ランダムノイズをEmbedding層に直接注入</p>",
         unsafe_allow_html=True,
     )
     st.markdown("<br>", unsafe_allow_html=True)
-    # Step 3: OUTPUT NOISE
     st.markdown(
         '<p style="text-align: center; color: #333; font-size: 0.65rem; '
-        'letter-spacing: 0.15em; margin-bottom: 0.5rem;">03 — OUTPUT NOISE</p>',
         unsafe_allow_html=True,
     )
-    st.code(
-        "logits_noise = torch.randn_like(logits) * logits.std() * 10\n"
-        "corrupted_logits = logits + logits_noise",
-        language="python",
-    )
     st.markdown(
         '<p style="text-align: center; font-size: 0.7rem; color: #444;">'
-        "出力Logitsにノイズを加算し学習バイアスを破壊</p>",
-        unsafe_allow_html=True,
-    )
-    st.markdown("<br>", unsafe_allow_html=True)
-    # Step 4: RAW DECODE
-    st.markdown(
-        '<p style="text-align: center; color: #333; font-size: 0.65rem; '
-        'letter-spacing: 0.15em; margin-bottom: 0.5rem;">04 — RAW DECODE</p>',
-        unsafe_allow_html=True,
-    )
-    st.code(
-        "indices = corrupted_logits.argmax(dim=-1)\n"
-        "debris = [tokenizer.decode([i]) for i in indices]",
-        language="python",
-    )
-    st.markdown(
-        '<p style="text-align: center; font-size: 0.7rem; color: #444;">'
-        "Softmax・Temperature なしで生トークンを抽出</p>",
         unsafe_allow_html=True,
     )
 def _render_specification_section() -> None:
     """仕様セクション"""
-    # 利用可能なモデル一覧を取得して動的に表示
-    configs = ModelRegistry.get_all_configs()
-    model_list = "<br>".join(
-        [f"{cfg.name} ({cfg.embedding_dim} dim)" for cfg in configs.values()]
-    )
     st.markdown(
         f'''
     <hr class="divider">
     <div class="section">
-        <p class="section-title">SPECIFICATION</p>
         <table class="spec-table">
-            <tr><td>Models</td><td>GPT-2 / GPT-Neo / OPT</td></tr>
-            <tr><td>Parameters</td><td>125M - 350M</td></tr>
-            <tr><td>Embedding</td><td>768 - 1024 dim</td></tr>
-            <tr><td>Vocabulary</td><td>50,257+ tokens</td></tr>
             <tr><td>Sequence</td><td>32 tokens</td></tr>
-            <tr><td>Input Noise</td><td>N(0, 1)</td></tr>
-            <tr><td>Logits Noise</td><td>N(0, σ×10)</td></tr>
-            <tr><td>Decoding</td><td>argmax</td></tr>
         </table>
     </div>
     ''',

 import streamlit as st
 from ....models.registry import ModelRegistry
+from ..components import GPU_REQUIRED_MODELS
 def render_concept_page() -> None:
     st.markdown('<p class="title">CONCEPT</p>', unsafe_allow_html=True)
     st.markdown('<p class="subtitle">DOCUMENTATION</p>', unsafe_allow_html=True)
+    _render_what_section()
+    _render_how_section()
     _render_specification_section()
+def _render_what_section() -> None:
+    """WHAT セクション"""
     st.markdown(
         '''
     <div class="section">
+        <p class="section-title">WHAT</p>
         <p style="text-align: center; color: #666; line-height: 2.2;">
+            言語モデルにランダムノイズを入力し<br>
+            出力にもノイズを加えて学習バイアスを破壊する<br><br>
+            <strong>人間の問いかけなしに<br>
+            モデルの構造だけが出力するものを観測する</strong>
         </p>
     </div>
     <hr class="divider">
     )
+def _render_how_section() -> None:
+    """HOW セクション"""
     st.markdown(
         '''
     <div class="section">
+        <p class="section-title">HOW</p>
     </div>
     ''',
         unsafe_allow_html=True,
     )
+    # Step 1
     st.markdown(
         '<p style="text-align: center; color: #333; font-size: 0.65rem; '
+        'letter-spacing: 0.15em; margin-bottom: 0.5rem;">01 — INPUT</p>',
         unsafe_allow_html=True,
     )
+    st.code("noise = torch.randn(1, seq_len, embedding_dim)", language="python")
     st.markdown(
         '<p style="text-align: center; font-size: 0.7rem; color: #444;">'
+        "ランダムノイズをEmbedding層に直接注入</p>",
         unsafe_allow_html=True,
     )
     st.markdown("<br>", unsafe_allow_html=True)
+    # Step 2
     st.markdown(
         '<p style="text-align: center; color: #333; font-size: 0.65rem; '
+        'letter-spacing: 0.15em; margin-bottom: 0.5rem;">02 — CORRUPT</p>',
         unsafe_allow_html=True,
     )
+    st.code("corrupted = logits + randn_like(logits) * logits.std() * 10", language="python")
     st.markdown(
         '<p style="text-align: center; font-size: 0.7rem; color: #444;">'
+        "出力にノイズを加算し学習バイアスを破壊</p>",
         unsafe_allow_html=True,
     )
     st.markdown("<br>", unsafe_allow_html=True)
+    # Step 3
     st.markdown(
         '<p style="text-align: center; color: #333; font-size: 0.65rem; '
+        'letter-spacing: 0.15em; margin-bottom: 0.5rem;">03 — DECODE</p>',
         unsafe_allow_html=True,
     )
+    st.code("tokens = corrupted.argmax(dim=-1)", language="python")
     st.markdown(
         '<p style="text-align: center; font-size: 0.7rem; color: #444;">'
+        "Softmaxなしで生トークンを抽出</p>",
         unsafe_allow_html=True,
     )
 def _render_specification_section() -> None:
     """仕様セクション"""
+    # 利用可能なモデル一覧を動的に取得
+    all_configs = ModelRegistry.get_all_configs()
+    available_configs = {k: v for k, v in all_configs.items() if k not in GPU_REQUIRED_MODELS}
+    model_names = [cfg.name for cfg in available_configs.values()]
+    model_list_str = " / ".join(model_names[:5]) + " ..."
+    # パラメータ範囲を計算
+    params_info = "125M - 1.5B"
     st.markdown(
         f'''
     <hr class="divider">
     <div class="section">
+        <p class="section-title">SPEC</p>
         <table class="spec-table">
+            <tr><td>Models</td><td>{model_list_str}</td></tr>
             <tr><td>Sequence</td><td>32 tokens</td></tr>
+            <tr><td>Input</td><td>N(0, 1)</td></tr>
+            <tr><td>Corruption</td><td>N(0, σ×10)</td></tr>
+            <tr><td>Decode</td><td>argmax</td></tr>
         </table>
     </div>
     ''',