Spaces:

minoD
/

JURAN

Sleeping

App Files Files Community

minoD commited on Oct 20, 2025

Commit

560c76a

verified ·

1 Parent(s): 68622cd

Update app.py

Browse files

Files changed (1) hide show

app.py +34 -9

app.py CHANGED Viewed

@@ -4,21 +4,22 @@ from transformers import AutoModelForCausalLM, AutoTokenizer
 import spaces
 import os
-# bitsandbytesを無効化
 os.environ["BITSANDBYTES_NOWELCOME"] = "1"
 model_name = "minoD/JURAN"
-# モデルのロード（CPUで、bitsandbytesを使わない）
 model = AutoModelForCausalLM.from_pretrained(
     model_name,
     device_map="cpu",
     torch_dtype=torch.float16,
-    low_cpu_mem_usage=True,  # メモリ効率を改善
 )
 tokenizer = AutoTokenizer.from_pretrained(model_name, use_fast=False)
-# プロンプトテンプレートの準備
 def generate_prompt(F):
     result = f"""### 指示:
 あなたは企業の面接官です。以下の就活生のエントリーシート内容を読んで、深掘りする質問を1つ考えてください。
@@ -30,10 +31,38 @@ def generate_prompt(F):
     result = result.replace('\n', '<NL>')
     return result
-# テキスト生成関数の定義
 @spaces.GPU(duration=60)
 def generate2(F=None, maxTokens=256):
     try:
         model.to("cuda")
         prompt = generate_prompt(F)
@@ -56,17 +85,14 @@ def generate2(F=None, maxTokens=256):
         outputs = outputs[0].tolist()
         decoded = tokenizer.decode(outputs)
-        # EOSトークンにヒットしたらデコード完了
         if tokenizer.eos_token_id in outputs:
             eos_index = outputs.index(tokenizer.eos_token_id)
             decoded = tokenizer.decode(outputs[:eos_index])
-        # レスポンス内容のみ抽出（修正）
         sentinel = "### 面接官の質問:"
         sentinelLoc = decoded.find(sentinel)
         if sentinelLoc >= 0:
             result = decoded[sentinelLoc + len(sentinel):]
-            # 最初の改行までを取得（1つの質問だけ）
             result = result.split('\n')[0] if '\n' in result else result
             return result.replace("<NL>", "\n").strip()
         else:
@@ -78,7 +104,6 @@ def generate2(F=None, maxTokens=256):
 def inference(input_text):
     return generate2(input_text)
-# Gradioインターフェース
 iface = gr.Interface(
     fn=inference,
     inputs=gr.Textbox(lines=5, label="学生時代に打ち込んだこと、研究、ESを入力", placeholder="半導体の研究に打ち込んだ"),

 import spaces
 import os
 os.environ["BITSANDBYTES_NOWELCOME"] = "1"
 model_name = "minoD/JURAN"
+# モデルのロード
 model = AutoModelForCausalLM.from_pretrained(
     model_name,
     device_map="cpu",
     torch_dtype=torch.float16,
+    low_cpu_mem_usage=True,
 )
 tokenizer = AutoTokenizer.from_pretrained(model_name, use_fast=False)
+# ウォームアップフラグ
+warmup_done = False
 def generate_prompt(F):
     result = f"""### 指示:
 あなたは企業の面接官です。以下の就活生のエントリーシート内容を読んで、深掘りする質問を1つ考えてください。
     result = result.replace('\n', '<NL>')
     return result
+@spaces.GPU(duration=60)
+def warmup_model():
+    """モデルのウォームアップ処理"""
+    global warmup_done
+    if not warmup_done:
+        print("ウォームアップ中...")
+        model.to("cuda")
+        # ダミー推論を実行
+        dummy_input = tokenizer("テスト", return_tensors="pt").input_ids.to("cuda")
+        with torch.no_grad():
+            _ = model.generate(
+                dummy_input,
+                max_new_tokens=10,
+                do_sample=False
+            )
+        model.to("cpu")
+        torch.cuda.empty_cache()
+        warmup_done = True
+        print("ウォームアップ完了")
 @spaces.GPU(duration=60)
 def generate2(F=None, maxTokens=256):
     try:
+        # ウォームアップ（初回のみ）
+        if not warmup_done:
+            warmup_model()
+        # 乱数シードを固定（オプション）
+        torch.manual_seed(42)
         model.to("cuda")
         prompt = generate_prompt(F)
         outputs = outputs[0].tolist()
         decoded = tokenizer.decode(outputs)
         if tokenizer.eos_token_id in outputs:
             eos_index = outputs.index(tokenizer.eos_token_id)
             decoded = tokenizer.decode(outputs[:eos_index])
         sentinel = "### 面接官の質問:"
         sentinelLoc = decoded.find(sentinel)
         if sentinelLoc >= 0:
             result = decoded[sentinelLoc + len(sentinel):]
             result = result.split('\n')[0] if '\n' in result else result
             return result.replace("<NL>", "\n").strip()
         else:
 def inference(input_text):
     return generate2(input_text)
 iface = gr.Interface(
     fn=inference,
     inputs=gr.Textbox(lines=5, label="学生時代に打ち込んだこと、研究、ESを入力", placeholder="半導体の研究に打ち込んだ"),