Spaces:

DResearchTeam
/

Reading_Exercise

Sleeping

App Files Files Community

Toya0421 commited on Jan 2

Commit

243ef17

verified ·

1 Parent(s): 0176aba

Update app.py

Browse files

Files changed (1) hide show

app.py +78 -104

app.py CHANGED Viewed

@@ -29,14 +29,10 @@ REWRITE_CONCURRENCY = int(os.getenv("REWRITE_CONCURRENCY", "3"))  # 5,6人想定
 _rewrite_sem = threading.Semaphore(REWRITE_CONCURRENCY)
 # ======================================================
-#  (①) ログ：毎アクションはFiles(/data/log.csv)へ追記のみ（csv 1行追記）
-#      + 5分ごとに「新規ログがある時だけ」dataset.push_to_hub（dirtyフラグ）
 # ======================================================
 _log_lock = threading.Lock()
-PUSH_INTERVAL_SEC = int(os.getenv("PUSH_INTERVAL_SEC", "600"))  # 5分
-# ★追加：dirtyフラグ（ログが増えたか）
-_log_dirty = False
 # ★CSVの列順を固定（headerもこの順で出す）
 LOG_COLUMNS = [
@@ -50,90 +46,51 @@ LOG_COLUMNS = [
     "page_text",
 ]
 def save_log(entry):
     """
-    毎アクション：log.csv に1行追記（軽量）
     """
-    global _log_dirty
-    dirpath = os.path.dirname(LOG_FILE)
-    if dirpath:
-        os.makedirs(dirpath, exist_ok=True)
-    # 列順を固定して欠損は空に
     row = {k: entry.get(k, "") for k in LOG_COLUMNS}
     with _log_lock:
-        file_exists = os.path.exists(LOG_FILE)
-        with open(LOG_FILE, "a", encoding="utf-8", newline="") as f:
-            writer = csv.DictWriter(f, fieldnames=LOG_COLUMNS)
-            if not file_exists:
-                writer.writeheader()
-            writer.writerow(row)
-        _log_dirty = True  # ★追加：新規ログが追加された
-def _push_logs_to_hub_once():
     """
-    5分ごと：/data/log.csv を読み込み、parquet化して Dataset として Hub にpush
-    ただし dirty のときだけ実行
     """
-    global _log_dirty
-    if not HF_TOKEN:
-        print("[WARN] HF_TOKEN is not set. Skip push.")
-        return
-    if not os.path.exists(LOG_FILE):
-        return
-    # ★dirtyでないなら何もしない
-    with _log_lock:
-        if not _log_dirty:
-            return
-        # dirtyを先に落としておく（push失敗時は戻す）
-        _log_dirty = False
-    try:
-        # CSV追記と競合しないようロックして読む
-        with _log_lock:
-            all_logs = pd.read_csv(LOG_FILE)
-        tmp_dir = tempfile.mkdtemp()
-        tmp_path = os.path.join(tmp_dir, "data.parquet")
-        all_logs.to_parquet(tmp_path)
-        dataset = Dataset.from_parquet(tmp_path)
-        dataset.push_to_hub(DATASET_REPO, token=HF_TOKEN)
-    except Exception as e:
-        # push失敗時は dirty を戻して次回再試行
-        with _log_lock:
-            _log_dirty = True
-        raise e
-def _start_periodic_push_thread():
     """
-    アプリ起動時に1回だけ呼ぶ。以後はdaemonスレッドで5分ごとpush。
     """
-    def _worker():
-        while True:
-            time.sleep(PUSH_INTERVAL_SEC)
-            try:
-                _push_logs_to_hub_once()
-            except Exception as e:
-                # push失敗しても全体を落とさない
-                print(f"[WARN] periodic push failed: {e}")
-    t = threading.Thread(target=_worker, daemon=True)
-    t.start()
-# 起動（1回だけ）
-_start_periodic_push_thread()
 # ======================================================
 #  新しい教材管理：passages フォルダからランダム選択
 #  ※ used_passages は session_state に保持（グローバル禁止）
 # ======================================================
 def load_passage_file(text_id):
@@ -158,11 +115,18 @@ def get_title_from_excel(text_id):
         return None
     return str(title)
-def get_new_passage_random(used_passages_set):
     """
     passages フォルダからランダムに教材���選び（pg◯.txt）、
     passage_information.xlsx の Text# の flesch_score を original_level として返す。
     """
     files = glob.glob("passages/pg*.txt")
     if not files:
         return None, None, None, None, used_passages_set
@@ -174,10 +138,28 @@ def get_new_passage_random(used_passages_set):
         if num.isdigit():
             all_ids.append(int(num))
-    available = [pid for pid in all_ids if pid not in used_passages_set]
     if not available:
         used_passages_set = set()
-        available = list(all_ids)
     text_id = random.choice(available)
     used_passages_set.add(text_id)
@@ -241,7 +223,6 @@ def extract_main_body(text: str) -> str:
         kept.append(ln)
     # 先頭の「短いタイトル行」っぽいものを数行だけ落とす（本文が始まるまで）
-    # 例：短い1行、ピリオド無し、単語数少ない、など
     def is_title_like(s: str) -> bool:
         t = s.strip()
         if not t:
@@ -252,7 +233,6 @@ def extract_main_body(text: str) -> str:
         return False
     i = 0
-    # 空行・タイトルらしい行を最大3行までスキップ
     skipped = 0
     while i < len(kept) and skipped < 3 and is_title_like(kept[i]):
         i += 1
@@ -260,11 +240,9 @@ def extract_main_body(text: str) -> str:
     body_lines = kept[i:]
-    # 末尾の空行を整理
     while body_lines and body_lines[-1].strip() == "":
         body_lines.pop()
-    # 連続空行を最大1つに圧縮（章見出しの区切りは残る）
     out = []
     blank = False
     for ln in body_lines:
@@ -305,7 +283,6 @@ excluding the title, author name, source information, chapter number, annotation
 {text}
 """
-    # (③) rewrite API 同時実行制限
     with _rewrite_sem:
         resp = client.chat.completions.create(
             model="google/gemini-2.5-flash",
@@ -316,11 +293,6 @@ excluding the title, author name, source information, chapter number, annotation
     return resp.choices[0].message.content.strip()
 def split_pages(text, max_words=300):
-    """
-    文単位でページを分割する。
-    - 文の途中でページを分割しない
-    - max_words の上限を超えないようにする
-    """
     sentences = re.split(r'(?<=[.!?])\s+', text.strip())
     pages = []
     current_page = []
@@ -352,7 +324,6 @@ def start_test(student_id, level_input, group_input, session_state):
     action = "start_pushed"
     now = (datetime.utcnow() + timedelta(hours=9)).isoformat()
-    # student_id 未入力でも「押した」ログは残す（元意図に近い）
     if not student_id or str(student_id).strip() == "":
         entry = {
             "user_id": None,
@@ -366,7 +337,6 @@ def start_test(student_id, level_input, group_input, session_state):
         }
         save_log(entry)
-        # ★修正：出力個数を「UIのoutputs（13個）」に揃える
         return (
             "",                          # title_display
             "",                          # text_display
@@ -378,7 +348,7 @@ def start_test(student_id, level_input, group_input, session_state):
             "",                          # hidden_orig_lev
             None,                        # hidden_assigned_lev（level）
             gr.update(interactive=False, visible=False),  # prev_btn
-            gr.update(interactive=False, visible=True),   # next_btn（元の意図踏襲）
             gr.update(interactive=False, visible=False),  # finish_btn
             session_state
         )
@@ -387,7 +357,6 @@ def start_test(student_id, level_input, group_input, session_state):
     level = int(level_input)
     group = int(group_input)
-    # startでリセット（元コード踏襲）
     used_passages_set = set()
     entry = {
@@ -402,7 +371,8 @@ def start_test(student_id, level_input, group_input, session_state):
     }
     save_log(entry)
-    pid, text, orig_lev, title, used_passages_set = get_new_passage_random(used_passages_set)
     if text is None:
         return (
             "",                          # title_display
@@ -420,11 +390,10 @@ def start_test(student_id, level_input, group_input, session_state):
             session_state
         )
-    # ★追加：グループ分岐
     if group == 1:
-        processed = extract_main_body(text)  # 書き換えなし、本文抽出のみ
     else:
-        processed = rewrite_level(text, level)  # 今のプロンプトで書き換え
     pages = split_pages(processed)
     total = len(pages)
@@ -453,7 +422,6 @@ def start_test(student_id, level_input, group_input, session_state):
     }
     save_log(entry2)
-    # session_state 更新（★groupを保持）
     session_state = {
         "user_id": user_id,
         "level": level,
@@ -605,7 +573,7 @@ def prev_page(pages_json, current_page, total_pages, pid, orig_lev, session_stat
 def finish_or_retire(pages_json, current_page, pid, orig_lev, action, session_state):
     user_id = session_state.get("user_id")
     level = session_state.get("level")
-    group = session_state.get("group")  # ★追加：グループ保持（未設定なら2扱い）
     used_passages_set = set(session_state.get("used_passages", []))
     pages = json.loads(pages_json)
@@ -623,7 +591,8 @@ def finish_or_retire(pages_json, current_page, pid, orig_lev, action, session_st
     }
     save_log(entry)
-    new_pid, new_text, new_orig_lev, title, used_passages_set = get_new_passage_random(used_passages_set)
     if new_text is None:
         return (
             "", "教材がありません", "", json.dumps([]), 0, "",
@@ -634,7 +603,6 @@ def finish_or_retire(pages_json, current_page, pid, orig_lev, action, session_st
             session_state
         )
-    # ★追加：グループ分岐
     if group == 1:
         processed = extract_main_body(new_text)
     else:
@@ -690,6 +658,7 @@ def finish_or_retire(pages_json, current_page, pid, orig_lev, action, session_st
 # ======================================================
 #  UI（タイトル表示を追加。それ以外は変更しない）
 # ======================================================
 custom_css = """
 /* ===============================
@@ -734,7 +703,6 @@ custom_css = """
         background-color: #1e1e1e !important;
         color: #e6e6e6 !important;
     }
-    /* 教材の背景は黒すぎると読みにくいのでやや明るめのチャコール */
     .reading-area {
         background-color: #2a2a2a !important;
         color: #f2f2f2 !important;
@@ -745,7 +713,6 @@ custom_css = """
         color: #f0f0f0 !important;
         border: 1px solid #555 !important;
     }
-    /* ボタンを見やすく */
     button {
         background-color: #3a3a3a !important;
         color: #f0f0f0 !important;
@@ -764,12 +731,10 @@ custom_css = """
 with gr.Blocks(css=custom_css) as demo:
     gr.Markdown("# 📚 Reading Exercise")
-    # セッションごとの状態（グローバル禁止）
     session_state = gr.State({"user_id": None, "level": None, "group": 2, "used_passages": []})
     student_id_input = gr.Textbox(label="学生番号（必須）")
-    # ★追加：グループ選択（1:本文抽出のみ, 2:書き換え）
     group_input = gr.Radio(
         choices=[("Group 1", 1), ("Group 2", 2)],
         label="実験グループを選択",
@@ -784,7 +749,6 @@ with gr.Blocks(css=custom_css) as demo:
     start_btn = gr.Button("スタート")
-    # ★追加：タイトル表示（教材の上）
     title_display = gr.Markdown("**Title:** ", elem_classes=["title-card"])
     text_display = gr.Textbox(
@@ -885,7 +849,17 @@ with gr.Blocks(css=custom_css) as demo:
         ]
     )
-# Gradio側のキューもON（HF環境差分で壊れにくい設定に寄せる）
-demo.queue(max_size=64)
 demo.launch()

 _rewrite_sem = threading.Semaphore(REWRITE_CONCURRENCY)
 # ======================================================
+#  (①) ログ：DatasetにもFilesにも保存しない
+#      → メモリ上に保持し、パスワード付きでCSVダウンロード
 # ======================================================
 _log_lock = threading.Lock()
 # ★CSVの列順を固定（headerもこの順で出す）
 LOG_COLUMNS = [
     "page_text",
 ]
+# ★追加：メモリログ（Filesに保存しない）
+_LOG_ROWS: list[dict] = []
+# ★追加：ダウンロード用パスワード（環境変数推奨）
+LOG_DOWNLOAD_PASSWORD = os.getenv("LOG_DOWNLOAD_PASSWORD", "0421")
 def save_log(entry):
     """
+    毎アクション：メモリに追記のみ（FilesにもDatasetにも保存しない）
     """
     row = {k: entry.get(k, "") for k in LOG_COLUMNS}
     with _log_lock:
+        _LOG_ROWS.append(row)
+def export_logs_to_csv_file() -> str:
     """
+    現在のメモリログを一時CSVにしてパスを返す
     """
+    with _log_lock:
+        rows = list(_LOG_ROWS)
+    tmp_dir = tempfile.mkdtemp()
+    path = os.path.join(tmp_dir, "log.csv")
+    with open(path, "w", encoding="utf-8", newline="") as f:
+        w = csv.DictWriter(f, fieldnames=LOG_COLUMNS)
+        w.writeheader()
+        w.writerows(rows)
+    return path
+def download_log_csv(password: str) -> str:
     """
+    パスワードが一致した場合のみCSVを生成して返す
     """
+    if (password or "").strip() != LOG_DOWNLOAD_PASSWORD:
+        raise gr.Error("パスワードが違います。")
+    return export_logs_to_csv_file()
 # ======================================================
 #  新しい教材管理：passages フォルダからランダム選択
 #  ※ used_passages は session_state に保持（グローバル禁止）
+#  ★変更：target level よりスコアが低い教材から選ぶ（excelのflesch_score）
 # ======================================================
 def load_passage_file(text_id):
         return None
     return str(title)
+def get_new_passage_random(used_passages_set, target_level):
     """
     passages フォルダからランダムに教材���選び（pg◯.txt）、
     passage_information.xlsx の Text# の flesch_score を original_level として返す。
+    ★変更点：
+    - ユーザーの target_level に対応する目標FREよりも低い（=難しい）教材のみから選ぶ
+      ※ flesch_score は passage_information.xlsx から取得
     """
+    level_to_flesch = {1: 90, 2: 75, 3: 65, 4: 55, 5: 40}
+    target_flesch = float(level_to_flesch[int(target_level)])
     files = glob.glob("passages/pg*.txt")
     if not files:
         return None, None, None, None, used_passages_set
         if num.isdigit():
             all_ids.append(int(num))
+    # ★追加：excelのflesch_scoreでフィルタ（target_fleschより低いものだけ）
+    # passage_information.xlsx に該当行がないものは除外（スコア不明だと条件判定できないため）
+    eligible_ids = []
+    for pid in all_ids:
+        row = passage_info_df[passage_info_df["Text#"] == pid]
+        if len(row) == 0:
+            continue
+        fs = row.iloc[0].get("flesch_score", None)
+        try:
+            fs = float(fs)
+        except Exception:
+            continue
+        if fs < target_flesch:
+            eligible_ids.append(pid)
+    if not eligible_ids:
+        return None, None, None, None, used_passages_set
+    available = [pid for pid in eligible_ids if pid not in used_passages_set]
     if not available:
         used_passages_set = set()
+        available = list(eligible_ids)
     text_id = random.choice(available)
     used_passages_set.add(text_id)
         kept.append(ln)
     # 先頭の「短いタイトル行」っぽいものを数行だけ落とす（本文が始まるまで）
     def is_title_like(s: str) -> bool:
         t = s.strip()
         if not t:
         return False
     i = 0
     skipped = 0
     while i < len(kept) and skipped < 3 and is_title_like(kept[i]):
         i += 1
     body_lines = kept[i:]
     while body_lines and body_lines[-1].strip() == "":
         body_lines.pop()
     out = []
     blank = False
     for ln in body_lines:
 {text}
 """
     with _rewrite_sem:
         resp = client.chat.completions.create(
             model="google/gemini-2.5-flash",
     return resp.choices[0].message.content.strip()
 def split_pages(text, max_words=300):
     sentences = re.split(r'(?<=[.!?])\s+', text.strip())
     pages = []
     current_page = []
     action = "start_pushed"
     now = (datetime.utcnow() + timedelta(hours=9)).isoformat()
     if not student_id or str(student_id).strip() == "":
         entry = {
             "user_id": None,
         }
         save_log(entry)
         return (
             "",                          # title_display
             "",                          # text_display
             "",                          # hidden_orig_lev
             None,                        # hidden_assigned_lev（level）
             gr.update(interactive=False, visible=False),  # prev_btn
+            gr.update(interactive=False, visible=True),   # next_btn
             gr.update(interactive=False, visible=False),  # finish_btn
             session_state
         )
     level = int(level_input)
     group = int(group_input)
     used_passages_set = set()
     entry = {
     }
     save_log(entry)
+    # ★変更：target level を渡して「難しい教材のみ」から選ぶ
+    pid, text, orig_lev, title, used_passages_set = get_new_passage_random(used_passages_set, level)
     if text is None:
         return (
             "",                          # title_display
             session_state
         )
     if group == 1:
+        processed = extract_main_body(text)
     else:
+        processed = rewrite_level(text, level)
     pages = split_pages(processed)
     total = len(pages)
     }
     save_log(entry2)
     session_state = {
         "user_id": user_id,
         "level": level,
 def finish_or_retire(pages_json, current_page, pid, orig_lev, action, session_state):
     user_id = session_state.get("user_id")
     level = session_state.get("level")
+    group = session_state.get("group")
     used_passages_set = set(session_state.get("used_passages", []))
     pages = json.loads(pages_json)
     }
     save_log(entry)
+    # ★変更：target level を渡して「難しい教材のみ」から選ぶ
+    new_pid, new_text, new_orig_lev, title, used_passages_set = get_new_passage_random(used_passages_set, level)
     if new_text is None:
         return (
             "", "教材がありません", "", json.dumps([]), 0, "",
             session_state
         )
     if group == 1:
         processed = extract_main_body(new_text)
     else:
 # ======================================================
 #  UI（タイトル表示を追加。それ以外は変更しない）
+#  ★追加：パスワード付きログCSVダウンロード
 # ======================================================
 custom_css = """
 /* ===============================
         background-color: #1e1e1e !important;
         color: #e6e6e6 !important;
     }
     .reading-area {
         background-color: #2a2a2a !important;
         color: #f2f2f2 !important;
         color: #f0f0f0 !important;
         border: 1px solid #555 !important;
     }
     button {
         background-color: #3a3a3a !important;
         color: #f0f0f0 !important;
 with gr.Blocks(css=custom_css) as demo:
     gr.Markdown("# 📚 Reading Exercise")
     session_state = gr.State({"user_id": None, "level": None, "group": 2, "used_passages": []})
     student_id_input = gr.Textbox(label="学生番号（必須）")
     group_input = gr.Radio(
         choices=[("Group 1", 1), ("Group 2", 2)],
         label="実験グループを選択",
     start_btn = gr.Button("スタート")
     title_display = gr.Markdown("**Title:** ", elem_classes=["title-card"])
     text_display = gr.Textbox(
         ]
     )
+    # ★追加：ログCSVダウンロード（パスワード必須）
+    gr.Markdown("## 🔐 管理者用：ログCSVダウンロード（パスワード必須）")
+    admin_password = gr.Textbox(label="Password", type="password")
+    download_btn = gr.Button("ログCSVを生成してダウンロード")
+    download_file = gr.File(label="Download log.csv")
+    download_btn.click(
+        fn=download_log_csv,
+        inputs=[admin_password],
+        outputs=[download_file]
+    )
+demo.queue(max_size=64)
 demo.launch()