Spaces:

DLPO
/

api_light_hf

Sleeping

App Files Files Community

Renecto commited on 18 days ago

Commit

e732c2f

1 Parent(s): 962f426

deploy api_light_hf (2026-03-19 13:12:47)

Browse files

Files changed (4) hide show

apis/base64img2component.py +133 -133
apis/baseimg2fvinfo_with_design.py +58 -45
apis/url2meta.py +33 -33
apis/url2speed.py +197 -197

apis/base64img2component.py CHANGED Viewed

@@ -1,134 +1,134 @@
-from openai import os
-from src.clients.llm_client import LLMClient
-import json
-import pandas as pd
-from pydantic import BaseModel
-from enum import Enum
-import base64
-from io import BytesIO
-from PIL import Image
-from functools import cache
-from datetime import datetime
-import pytz
-from src.utils.tracer import customtracer
-def _ask_raw_hf(messages, model, response_format=None):
-    """Compatibility wrapper: routes OpenAI-style messages through HF LLMClient."""
-    from src.clients.llm_client import LLMClient
-    import json, re
-    client = LLMClient()
-    # Extract system prompt and user content from messages list
-    system_prompt = None
-    user_text = ""
-    images = []
-    for msg in messages:
-        role = msg.get("role", "")
-        c = msg.get("content", "")
-        if role == "system":
-            if isinstance(c, str):
-                system_prompt = c
-        elif role == "user":
-            if isinstance(c, str):
-                user_text = c
-            elif isinstance(c, list):
-                for part in c:
-                    if isinstance(part, dict):
-                        if part.get("type") == "text":
-                            user_text += part.get("text", "")
-                        elif part.get("type") == "image_url":
-                            url = part.get("image_url", {}).get("url", "")
-                            if url.startswith("data:"):
-                                images.append(url.split(",", 1)[1] if "," in url else url)
-                            else:
-                                images.append(url)
-    if response_format is not None and hasattr(response_format, "model_json_schema"):
-        result = client.call(
-            prompt=user_text,
-            schema=response_format,
-            model=model,
-            system_prompt=system_prompt,
-            images=images if images else None,
-            temperature=0,
-        )
-        import json
-        return json.dumps(result.model_dump(), ensure_ascii=False)
-    else:
-        return client.call_raw(
-            prompt=user_text,
-            model=model,
-            system_prompt=system_prompt,
-            images=images if images else None,
-        )
-class UIoption(str, Enum):
-    element1 = "バナー/動画"
-    element2 = "CTA"
-    element3 = "チE��スチE
-    element4 = "フォーム"
-class Component(BaseModel):
-    component_large: str
-    component_middle: str
-    component_small: list[str]
-    UIelement: UIoption
-class Components(BaseModel):
-    components: list[Component]
-def ask_raw(messages):
-    client = LLMClient()
-    # HF: beta.parse not available; use _ask_raw_hf instead
-    response = client.chat.completions.create(
-        model='meta-llama/Llama-3.3-70B-Instruct',
-        messages=messages,
-        top_p=1,
-        frequency_penalty=0,
-        presence_penalty=0,
-        response_format=Components,
-        temperature=0
-    )
-    return response.choices[0].message.content
-@customtracer
-def base64img2component(p, image64, openai_key=os.environ.get('OPENAI_KEY')):
-    """
-    input1 (text): 13: ※金融犯罪にご注愁E手口はこちら、E38: ▼ご利用条件はこちら、E77: ピンチ�E時�E、E133: アコム一抁E409: WEB完結カードを作らぁE415: ご契紁E�E翌日から最大30日間��利0冁E421: 借りられめE0刁E�� 644: 今すぐお申し込み 722: 実質年玁E3.0%~18.0%ご融賁E��E1丁E�E~800丁E�E 760: 以前ご利用があっぁE761: ご増額をご希望のお客さまはこちめE784: お客さまはこちめE819: *お申し込み時間めE��査によりご希望に沿えなぁE��合がござぁE��す、E868: お借�E可能かすぐに刁E��めE秒スピ�Eド診断 977: 侁E22 1055: ご年叁E税込) 1067: 侁E250 1146: 他社お借�E顁E1249: 診断開姁E1323: ※クレジチE��カードでのショチE��ング、E��行でのお借�E(銀行カードローン、住宁E��ーン、�E動車ローンなど)を除ぁE��、キャチE��ングめE��ードローンのお借�E状況をご�E力ください、E1498: 借りるなめE1558: アコム一抁E1710: 20刁E��借りられめE1835: アコムなら最短20刁E��お借�Eが可能!※すぐにお��が忁E��とぁE��時�E、本ペ�Eジの申込ボタンから早速お申し込みくだ 1960: ※お申し込み時間めE��査によりご希望に添えなぁE��合がござぁE��す、E2045: カードを作らずWEB完絁E2165: お申し込み〜お借�EまでWEBだけで完結できます。ご希望ぁE��だければカードレスでご契紁E��ただけます、E2354: |30日間��利ぁE冁E2356: 契紁E�E翌日から 2470: はじめてご利用のお客さまは、契紁E�E翌日から最大30日間��利ぁE冁E 2663: たっぁEスチE��チE!(最短20刁E 2757: 申し込みから借りるまでの流れ※お申し込み時間めE��査によりご希望に添えなぁE��合がござぁE��す、E2937: お申し込み・1忁E��書類提出(審査)お申し込みぁE��だぁE��後、忁E��書類���提�EしてぁE��だき審査に進みます、E3131: 2ご契紁E�Eお借�E 3194: 審査結果の冁E��にご同意いただけましたら、契紁E��続きは完亁E��なります。契紁E���E、すぐにお借�EぁE��だけます。ご希望ぁE��だければカードレスでご契紁E��ただけます、E3335: 忁E��書類とは? 3405: 本人確認書顁E免許証など) 3455: (該当する方のみ)+収�E証明書 3488: ※「当社のご利用において50丁E�Eを趁E��るご契紁E��行うお客さま」と「他社を含めたお借�E総額が100丁E�Eを趁E��るお客「さま」につぁE��は、収入証明書も忁E��で 3633: アコムの 3664: よくある質啁E3777: 申し込み編 3892: Q勤務�Eに在籍確認�E電話がかかってきま 3961: 原則、実施しません。※原則、E��話での在籍確認�Eせずに書面めE��申告�E容での確認を実施します。もし実施が忁E��となる場合でも、お客さまの同意を得ずに実施することはありませんので、ご安忁E��ださい、E4135: Q契紁E��ると、忁E��カードが自宁E��郵送さ 4159: れるんですか? 4205: ぁE��え。カードレスでご契紁E��続きぁE��だくことも可能です、E4296: 自宁E��勤務�Eに何か書類が送られてくる 4320: ことはありますか? 4366: 原則、E��付しません、E郵送契紁E��選択された場合や、書面の郵送受け取りを選 4418: んだ場合等を除ぁE 5914: は、ご返済シミュレーションをご利用ぁE5943: ださい、E5992: ペ�Eジ上部に戻る▲ 7671: ご増額をご希望のお客さまはこちめE7671: 以前ご利用があったお客さまはこちめE8033: 今すぐお申し込み
-    input2 (text): スクショ
-    input3 (text): default
-    output1 (json): 頁E��
-    """
-    print(datetime.now(pytz.timezone('Asia/Tokyo')).strftime("%Y-%m-%d %H:%M:%S"), f"base64img2component:", image64[0:30])
-    if openai_key == "default":
-        os.environ['OPENAI_API_KEY'] = os.environ.get('OPENAI_KEY')
-    else:
-        os.environ['OPENAI_API_KEY'] = openai_key
-    messages=[
-        {
-        "role": "system",
-        "content": """
-■構�E要素名�Eアウト�EチE��サンプル
-[
-{"component_large":"啁E��/サービスの特徴","component_middle":"アコム", "component_small":[], "UIelement":"チE��スチE},
-{"component_large":"FAQ/よくある質啁E,"component_middle":"よくあるご質啁E, "component_small":["自宁E��勤務�Eに何か書類が送られてくることはありますか�E�E,"家族割などの割引�Eありますか�E�E], "UIelement":"表絁E��"}
-]
-"""
-        },
-        {
-        "role": "user",
-        "content":  [{"type": "text", "text":p}]
-        },
-    ]
-    messages[1]["content"].insert(0, {"type": "image_url", "image_url": {"url":"data:image/png;base64,"+image64}})
-    # OpenAI 側の認証エラーなどを�E示皁E��メチE��ージとして上位に伝搬させめE
-    try:
-        return ask_raw(messages)
-    except openai.AuthenticationError as e:
-        # API キー / 絁E��設定�E問題を含むエラー冁E��をラチE�Eして投げ直ぁE
-        # 呼び出し�E�E�EE Origin 側など�E�でこ�EメチE��ージをキャチE��してユーザに表示できる
         raise RuntimeError(f"[base64img2component] OpenAI AuthenticationError: {e}") from e

+from openai import os
+from src.clients.llm_client import LLMClient
+import json
+import pandas as pd
+from pydantic import BaseModel
+from enum import Enum
+import base64
+from io import BytesIO
+from PIL import Image
+from functools import cache
+from datetime import datetime
+import pytz
+from src.utils.tracer import customtracer
+def _ask_raw_hf(messages, model, response_format=None):
+    """Compatibility wrapper: routes OpenAI-style messages through HF LLMClient."""
+    from src.clients.llm_client import LLMClient
+    import json, re
+    client = LLMClient()
+    # Extract system prompt and user content from messages list
+    system_prompt = None
+    user_text = ""
+    images = []
+    for msg in messages:
+        role = msg.get("role", "")
+        c = msg.get("content", "")
+        if role == "system":
+            if isinstance(c, str):
+                system_prompt = c
+        elif role == "user":
+            if isinstance(c, str):
+                user_text = c
+            elif isinstance(c, list):
+                for part in c:
+                    if isinstance(part, dict):
+                        if part.get("type") == "text":
+                            user_text += part.get("text", "")
+                        elif part.get("type") == "image_url":
+                            url = part.get("image_url", {}).get("url", "")
+                            if url.startswith("data:"):
+                                images.append(url.split(",", 1)[1] if "," in url else url)
+                            else:
+                                images.append(url)
+    if response_format is not None and hasattr(response_format, "model_json_schema"):
+        result = client.call(
+            prompt=user_text,
+            schema=response_format,
+            model=model,
+            system_prompt=system_prompt,
+            images=images if images else None,
+            temperature=0,
+        )
+        import json
+        return json.dumps(result.model_dump(), ensure_ascii=False)
+    else:
+        return client.call_raw(
+            prompt=user_text,
+            model=model,
+            system_prompt=system_prompt,
+            images=images if images else None,
+        )
+class UIoption(str, Enum):
+    element1 = "バナー/動画"
+    element2 = "CTA"
+    element3 = "テキスト"
+    element4 = "フォーム"
+class Component(BaseModel):
+    component_large: str
+    component_middle: str
+    component_small: list[str]
+    UIelement: UIoption
+class Components(BaseModel):
+    components: list[Component]
+def ask_raw(messages):
+    client = LLMClient()
+    # HF: beta.parse not available; use _ask_raw_hf instead
+    response = client.chat.completions.create(
+        model='meta-llama/Llama-3.3-70B-Instruct',
+        messages=messages,
+        top_p=1,
+        frequency_penalty=0,
+        presence_penalty=0,
+        response_format=Components,
+        temperature=0
+    )
+    return response.choices[0].message.content
+@customtracer
+def base64img2component(p, image64, openai_key=os.environ.get('OPENAI_KEY')):
+    """
+    input1 (text): OCR text extracted from LP screenshot (long string)
+    input2 (text): スクショ
+    input3 (text): default
+    output1 (json): components list
+    """
+    print(datetime.now(pytz.timezone('Asia/Tokyo')).strftime("%Y-%m-%d %H:%M:%S"), f"base64img2component:", image64[0:30])
+    if openai_key == "default":
+        os.environ['OPENAI_API_KEY'] = os.environ.get('OPENAI_KEY')
+    else:
+        os.environ['OPENAI_API_KEY'] = openai_key
+    messages=[
+        {
+        "role": "system",
+        "content": """
+■ コンポーネント要素のアウトプットのサンプル
+[
+{"component_large":"商品/サービスの特徴","component_middle":"アンカー", "component_small":[], "UIelement":"テキスト"},
+{"component_large":"FAQ/よくある質問","component_middle":"よくある質問", "component_small":["自宅外出ずに何か書類が届くことはありますか？","家族割などの割引はありますか？"], "UIelement":"表組み"}
+]
+"""
+        },
+        {
+        "role": "user",
+        "content":  [{"type": "text", "text":p}]
+        },
+    ]
+    messages[1]["content"].insert(0, {"type": "image_url", "image_url": {"url":"data:image/png;base64,"+image64}})
+    # Propagate OpenAI auth errors explicitly so caller can display message.
+    try:
+        return ask_raw(messages)
+    except openai.AuthenticationError as e:
+        # Raise RuntimeError with clear message for API key / auth issues.
+        # Caller (BE_Origin side) can catch and display this message to user.
         raise RuntimeError(f"[base64img2component] OpenAI AuthenticationError: {e}") from e

apis/baseimg2fvinfo_with_design.py CHANGED Viewed

@@ -1,6 +1,6 @@
 import os
 from src.clients.llm_client import LLMClient
-import json
 import base64
 from io import BytesIO
 from PIL import Image
@@ -12,6 +12,7 @@ from enum import Enum
 from src.utils.tracer import customtracer
 def _ask_raw_hf(messages, model, response_format=None):
     """Compatibility wrapper: routes OpenAI-style messages through HF LLMClient."""
     from src.clients.llm_client import LLMClient
@@ -62,119 +63,131 @@ def _ask_raw_hf(messages, model, response_format=None):
 class Meta(BaseModel):
-    会社吁E str
-    業畁E str
-    ブランチE str
     サービス: str
-    啁E��: str
     タイトル: str
-    訴求テーチE list[str]
 class Design(BaseModel):
-    重要なフレーズの斁E��色を赤めE��レンジめE��ンクめE��E��などFV上で目立つ色に着色: float
-    背景を画像�E主要な配色と変えて目立たせる: float
-    四角や丸など図形で囲ぁE��認性を上げめE float
-    アイコンを使用して視認性を上げめE float
-    チE��スト�E重要なフレーズの下に水平なアクセント線が引かれてぁE��: float
 class sCopy(BaseModel):
     text: str
     design: Design
 class EvsF(str, Enum):
-    EMOTIONAL = "惁E��E
-    FUNCTIONAL = "機�E"
 class EFitems(BaseModel):
     item: str
     judge: EvsF
 class PvsS(str, Enum):
     PROBLEM = "問題提起"
     SOLUTION = "課題解決"
 class PSitems(BaseModel):
     item: str
     judge: PvsS
 class mCopy(BaseModel):
     text: str
-    appeal_mode : list[EFitems]
-    forcus_stage : list[PSitems]
 class CatchCopy(BaseModel):
     main_copy: list[mCopy]
     sub_copy: list[sCopy]
 class FvInfo(BaseModel):
     非LP: bool
     メタ: Meta
-    キャチE��コピ�E: CatchCopy
     権威付け: list[str]
     ビジュアル: list[str]
     CTAボタン: list[str]
 def ask_raw(messages, model):
     client = LLMClient()
-    # パラメータの準備
     params = {
         "top_p": 1,
         "frequency_penalty": 0,
         "presence_penalty": 0,
         "response_format": FvInfo,
     }
-    # gpt-5系はtemperatureを渡さなぁE��環墁E��よって0が弾かれるためE��E
     model_lower = (model or "").lower()
     if not model_lower.startswith("gpt-5"):
         params["temperature"] = 0
-    response = _ask_raw_hf([{"role":"user","content":p}], model,
         model=model,
         messages=messages,
-        **params
     )
     return response
 @customtracer
 def baseimg2fvinfo_with_design(base64img, openai_key=os.environ.get('OPENAI_KEY'), p="", model="meta-llama/Llama-3.3-70B-Instruct"):
     """
-    input1 (text):
     input2 (text): default
-    input3 (text):
     input4 (text): gpt-4o
     output1 (json): fvinfo
     """
-    print(f"baseimg2fvinfo_with_design {model} openai_key:",openai_key[-4:])
     if openai_key == "default":
         os.environ['OPENAI_API_KEY'] = os.environ.get('OPENAI_KEY')
     else:
         os.environ['OPENAI_API_KEY'] = openai_key
     messages = [
         {
-        "role": "system",
-        "content": "あなた�E優れたWEBマ�Eケターで、ランチE��ングペ�Eジの要素を見�Eけることに長けてぁE��す。また�EーケチE��ングの達人なので訴求テーマを言語化するのが上手です、E
         },
         {
-        "role": "user",
-        "content":[
-            {"type": "text", "text":"""LPのファーストビューの画像を解析します、E
-・何も書かれてぁE��ぁE��像�E場合�E、空の値を返し、E��LP=Trueとしてください、E
-・CTAボタンが存在する場合、�Eタン冁E�E記載�E容を�E列で教えて下さぁE��アンカーリンクのあるチE��ストもCTAとしてください、E
-・画像�Eに書かれてぁE��斁E��・コピ�Eを読み取り、LPに掲載されてぁE��頁E��に並べてください。大きい目立つ斁E��で書かれてぁE��冁E��を「main_copy」とぁE��キーで1つ抽出し、情緒�E機�Eのどちらに訴えてぁE��かなどを記載、E
-・main_copy以外を「sub_copy」とぁE��キーで、読み取ったテキストをtext、それぞれ�Eサブコピ�Eの裁E��タイプ�E適用度合いをdesignに0~1のfloatで記述
-・画像�Eに写ってぁE��イメージ(写真めE��ラスチEにつぁE��、どんなも�Eが起用されてぁE��か教えて下さぁE��E
-・画像�Eに該当�E値がなければ[]のように空の配�Eを回答し、画像になぁE��とは回答しなぁE��ください。特に黒一色めE�E色一色の場合に注意し、E��LP=Trueを返してください、E
-・これら�E抽出惁E��を総合して、メタの吁E��E��を記載してください。訴求要素は、情報かOCRがある限り�E20斁E��で6種類提案してください。情報がなければ空にしてください、E
 """ + p}
-        ]
         },
     ]
     messages[1]["content"].insert(0, {"type": "image_url", "image_url": {"url": f"data:image/png;base64,{base64img}"}})
     r = ask_raw(messages, model)
-    return r

 import os
 from src.clients.llm_client import LLMClient
+import json
 import base64
 from io import BytesIO
 from PIL import Image
 from src.utils.tracer import customtracer
 def _ask_raw_hf(messages, model, response_format=None):
     """Compatibility wrapper: routes OpenAI-style messages through HF LLMClient."""
     from src.clients.llm_client import LLMClient
 class Meta(BaseModel):
+    会社名: str
+    業種: str
+    ブランド: str
     サービス: str
+    啓発: str
     タイトル: str
+    訴求テーマ: list[str]
 class Design(BaseModel):
+    重要なフレーズの装飾色を赤やオレンジやピンクなどFV上で目立つ色に着色: float
+    背景を画像の主要な配色と変えて目立たせる: float
+    四角や丸など図形で囲い視認性を上げる: float
+    アイコンを使用して視認性を上げる: float
+    テキストの重要なフレーズの下に水平なアクセント線が引かれている: float
 class sCopy(BaseModel):
     text: str
     design: Design
 class EvsF(str, Enum):
+    EMOTIONAL = "情緒"
+    FUNCTIONAL = "機能"
 class EFitems(BaseModel):
     item: str
     judge: EvsF
 class PvsS(str, Enum):
     PROBLEM = "問題提起"
     SOLUTION = "課題解決"
 class PSitems(BaseModel):
     item: str
     judge: PvsS
 class mCopy(BaseModel):
     text: str
+    appeal_mode: list[EFitems]
+    forcus_stage: list[PSitems]
 class CatchCopy(BaseModel):
     main_copy: list[mCopy]
     sub_copy: list[sCopy]
 class FvInfo(BaseModel):
     非LP: bool
     メタ: Meta
+    キャッチコピー: CatchCopy
     権威付け: list[str]
     ビジュアル: list[str]
     CTAボタン: list[str]
 def ask_raw(messages, model):
     client = LLMClient()
     params = {
         "top_p": 1,
         "frequency_penalty": 0,
         "presence_penalty": 0,
         "response_format": FvInfo,
     }
+    # gpt-5 series: skip temperature=0 to avoid rejection in some environments.
     model_lower = (model or "").lower()
     if not model_lower.startswith("gpt-5"):
         params["temperature"] = 0
+    response = _ask_raw_hf(
+        [{"role": "user", "content": p}],
+        model,
         model=model,
         messages=messages,
+        **params,
     )
     return response
 @customtracer
 def baseimg2fvinfo_with_design(base64img, openai_key=os.environ.get('OPENAI_KEY'), p="", model="meta-llama/Llama-3.3-70B-Instruct"):
     """
+    input1 (text):
     input2 (text): default
+    input3 (text):
     input4 (text): gpt-4o
     output1 (json): fvinfo
     """
+    print(f"baseimg2fvinfo_with_design {model} openai_key:", openai_key[-4:])
     if openai_key == "default":
         os.environ['OPENAI_API_KEY'] = os.environ.get('OPENAI_KEY')
     else:
         os.environ['OPENAI_API_KEY'] = openai_key
     messages = [
         {
+            "role": "system",
+            "content": "あなたは優れたWEBマーケターで、ランディングページの要素を見つけることに長けています。またマーケティングの達人なので訴求テーマを言語化するのが上手です。",
         },
         {
+            "role": "user",
+            "content": [
+                {"type": "text", "text": """LPのファーストビューの画像を解析します。
+・何も書かれていない画像の場合は、空の値を返し、非LP=Trueとしてください。
+・CTAボタンが存在する場合、ボタン内の記載内容を配列で教えてください。アンカーリンクのあるテキストもCTAとしてください。
+・画像内に書かれているテキスト・コピーを読み取り、LPに掲載されている順番に並べてください。大きい目立つ文字で書かれている内容を「main_copy」というキーで1つ抽出し、情緒か機能のどちらに訴えているかなどを記載。
+・main_copy以外を「sub_copy」というキーで、読み取ったテキストをtext、それぞれのサブコピーの装飾タイプの適用度合いをdesignに0~1のfloatで記述
+・画像内に写っているイメージ(写真やイラスト)について、どんなものが起用されているか教えてください。
+・画像内に該当の値がなければ[]のように空の配列を回答し、画像にないとは回答しないでください。特に黒一色や白一色の場合に注意し、非LP=Trueを返してください。
+・これらの抽出情報を総合して、メタの啓発の内容を記載してください。訴求要素は、情報かOCRがある限り20文字で6種類提案してください。情報がなければ空にしてください。
 """ + p}
+            ],
         },
     ]
     messages[1]["content"].insert(0, {"type": "image_url", "image_url": {"url": f"data:image/png;base64,{base64img}"}})
     r = ask_raw(messages, model)
+    return r

apis/url2meta.py CHANGED Viewed

@@ -1,34 +1,34 @@
-import requests
-from bs4 import BeautifulSoup
-import re
-import json
-from datetime import datetime
-import pytz
-import psutil
-from src.utils.tracer import customtracer
-def get_charset_from_header(headers):
-    content_type = headers.get('Content-Type')
-    charset = 'utf-8'  # チE��ォルト値
-    if content_type and 'charset=' in content_type:
-        charset = content_type.split('charset=')[-1]
-@customtracer
-def url2meta(url):
-    """
-    input1 (text): https://yahoo.co.jp
-    output1 (title): title
-    output2 (description): description
-    """
-    try:
-        response = requests.get(url, timeout=10)
-        response.raise_for_status()
-        response.encoding =  get_charset_from_header(response.headers)
-        soup = BeautifulSoup(response.text, 'html.parser')
-        title = soup.find('title').text if soup.find('title') else ''
-        description = next((meta.get('content') for meta in soup.find_all('meta', attrs={"name": "description"})), '')
-    except requests.RequestException as e:
-        title = ""
-        description = ""
     return title, description

+import requests
+from bs4 import BeautifulSoup
+import re
+import json
+from datetime import datetime
+import pytz
+import psutil
+from src.utils.tracer import customtracer
+def get_charset_from_header(headers):
+    content_type = headers.get('Content-Type')
+    charset = 'utf-8'  # fallback charset
+    if content_type and 'charset=' in content_type:
+        charset = content_type.split('charset=')[-1]
+@customtracer
+def url2meta(url):
+    """
+    input1 (text): https://yahoo.co.jp
+    output1 (title): title
+    output2 (description): description
+    """
+    try:
+        response = requests.get(url, timeout=10)
+        response.raise_for_status()
+        response.encoding =  get_charset_from_header(response.headers)
+        soup = BeautifulSoup(response.text, 'html.parser')
+        title = soup.find('title').text if soup.find('title') else ''
+        description = next((meta.get('content') for meta in soup.find_all('meta', attrs={"name": "description"})), '')
+    except requests.RequestException as e:
+        title = ""
+        description = ""
     return title, description

apis/url2speed.py CHANGED Viewed

@@ -1,198 +1,198 @@
-import os
-import requests
-from functools import cache
-from decimal import Decimal, ROUND_HALF_UP
-import pandas as pd
-from PIL import Image
-import io
-import base64
-from datetime import datetime
-import pytz
-import json
-from src.utils.tracer import customtracer
-def remove_distributions(data):
-    result = {}
-    for key, value in data.items():
-        result[key] = {k: v for k, v in value.items() if k != 'distributions'}
-    return result
-def devide_s(metrics, division=1000, decimal=1):
-    if isinstance(metrics, dict) and 'percentile' in metrics:
-        metrics['percentile'] = round(metrics['percentile']/division, decimal)
-    return metrics
-def get_metric_with_fallback(loading_experience, origin_loading_experience, metric_key, default_error={'percentile': -1}):
-    """
-    loadingExperienceからメトリクスを取得し、percentileぁEまた�E無効な場合�E
-    originLoadingExperienceからフォールバックとして取得すめE
-    違い�E�E
-    - loadingExperience: 特定�EURL�E�侁E https://povo.jp/�E�に対する実際のユーザーチE�Eタ
-                        ↁEそ�Eペ�Eジに十�EなチE�EタがなぁE��合、percentileぁEになることがあめE
-    - originLoadingExperience: オリジン全体（侁E https://povo.jp�E��E雁E��データ
-                              ↁEドメイン全体�Eパフォーマンス傾向を示す、より安定したデータ
-    """
-    metric = loading_experience.get(metric_key, default_error)
-    # percentileが有効な値�E�E0�E��E場合�Eそ�Eまま返す
-    if metric.get('percentile', -1) > 0:
-        return metric
-    # percentileぁEまた�E無効な場合、originLoadingExperienceから取得を試みめE
-    origin_metric = origin_loading_experience.get(metric_key, default_error)
-    if origin_metric.get('percentile', -1) > 0:
-        # categoryも含めてコピ�E
-        result = origin_metric.copy()
-        return result
-    # 両方とめEまた�E無効な場合�E-1を返す
-    return default_error
-def set_category(index):
-    if index >= 5.8:
-        return "SLOW"
-    elif index >= 3.4:
-        return "AVERAGE"
-    elif index >= 0:
-        return "FAST"
-    else:
-        return "ERR"
-def set_p_category(index):
-    if index >= 90:
-        return "FAST"
-    elif index >= 50:
-        return "AVERAGE"
-    elif index >= 0:
-        return "SLOW"
-    else:
-        return "ERR"
-def extract_metrics(data):
-    loading_experience = data.get('loadingExperience', {}).get('metrics', {})
-    origin_loading_experience = data.get('originLoadingExperience', {}).get('metrics', {})
-    metrics = {}
-    iferror = {'percentile': -1}
-    # 吁E��トリクスを取得し、フォールバックロジチE��を適用
-    lcp_metric = get_metric_with_fallback(
-        loading_experience, origin_loading_experience, 'LARGEST_CONTENTFUL_PAINT_MS', iferror
-    )
-    metrics['LCP'] = devide_s(lcp_metric.copy()) #MillSec -> Sec
-    inp_metric = get_metric_with_fallback(
-        loading_experience, origin_loading_experience, 'INTERACTION_TO_NEXT_PAINT', iferror
-    )
-    metrics['INP'] = inp_metric.copy()
-    cls_metric = get_metric_with_fallback(
-        loading_experience, origin_loading_experience, 'CUMULATIVE_LAYOUT_SHIFT_SCORE', iferror
-    )
-    metrics['CLS'] = devide_s(cls_metric.copy(), 100, 2) #パ�EセンチE-> �E�桁少数点
-    fcp_metric = get_metric_with_fallback(
-        loading_experience, origin_loading_experience, 'FIRST_CONTENTFUL_PAINT_MS', iferror
-    )
-    metrics['FCP'] = devide_s(fcp_metric.copy()) #MillSec -> Sec
-    fid_metric = get_metric_with_fallback(
-        loading_experience, origin_loading_experience, 'FIRST_INPUT_DELAY_MS', iferror
-    )
-    metrics['FID'] = fid_metric.copy()
-    ttfb_metric = get_metric_with_fallback(
-        loading_experience, origin_loading_experience, 'EXPERIMENTAL_TIME_TO_FIRST_BYTE', iferror
-    )
-    metrics['TTFB'] = devide_s(ttfb_metric.copy()) #MillSec -> Sec
-    r = remove_distributions(metrics)
-    # categoryが存在する場合�Eそれを使用、存在しなぁE��合�E独自計箁E
-    for key in ['LCP', 'INP', 'CLS', 'FCP', 'FID', 'TTFB']:
-        if key in r:
-            # 允E��E�Ecategoryを優先的に使用
-            original_metric = metrics[key]
-            if 'category' in original_metric:
-                r[key]['category'] = original_metric['category']
-            else:
-                # categoryが存在しなぁE��合�Eみ独自計算（通常は発生しなぁE��E
-                r[key]['category'] = 'ERR'
-    lighthouseResult = data.get("lighthouseResult", {})
-    try:
-        # パスに従ってチE�Eタにアクセス
-        speed_index = lighthouseResult['audits']['metrics']['details']['items'][0]['speedIndex']/1000
-        ospeed_index= lighthouseResult['audits']['metrics']['details']['items'][0]['observedSpeedIndex']/1000
-        performance_score = lighthouseResult['categories']['performance']['score'] * 100
-    except (IndexError, KeyError, TypeError):
-        # エラーが発生した場合�E-1を返す
-        speed_index = -1
-        ospeed_index= -1
-        performance_score = -1
-    r['speedIndex'] = {
-        'percentile': speed_index,
-        'category': set_category(speed_index)
-    }
-    r['observedSpeedIndex'] = {
-        'percentile': ospeed_index,
-        'category': set_category(ospeed_index)
-    }
-    r['performance_score'] = {
-        'percentile': performance_score,
-        'category': set_p_category(performance_score)
-    }
-    return r
-def get_screenshots_from_mobile_response(mobile_response):
-    header, base64_image = mobile_response['lighthouseResult']['fullPageScreenshot']['screenshot']['data'].split(",", 1)
-    full_image =  Image.open(io.BytesIO(base64.b64decode(base64_image)))
-    width, height = full_image.size
-    left,top,right = 0, 0, width
-    bottom = min(height, 3*width)  #first viewの定義�E�E*widthピクセル未満の場合�E画像�E高さまで
-    image_fv = full_image.crop((left, top, right, bottom))
-    return full_image,image_fv,base64_image
-def fetch_mobile_response(url):
-    endpoint = "https://www.googleapis.com/pagespeedonline/v5/runPagespeed"
-    try:
-        response = requests.get(endpoint, params={
-            "url": url,
-            "strategy": "mobile",
-            "key": os.environ.get('PAGESPEED_KEY')
-        })
-        # スチE�Eタスコードが200以外�E場合�EHTTPError発甁E
-        response.raise_for_status()
-        return response.json()  # JSONをパースして返す
-    except requests.exceptions.RequestException as e:
-        print(f"Request failed with status {e.response.status_code}: {e.response.text}")
-        raise e
-    except json.JSONDecodeError as e:
-        raise json.JSONDecodeError(f"JSONチE��ードエラー: {e.msg}, doc: {e.doc}, pos: {e.pos}")
-    except Exception as e:
-        raise RuntimeError(f"予期せぬエラーが発生しました: {e}")
-    return None  # エラーが発生した場合�ENoneを返す
-@customtracer
-def url2speed(url):
-    """
-    input1 (text): https://yahoo.co.jp
-    output1 (json): サイト評価
-    output2 (text): base64形式�E画僁E
-    """
-    print(datetime.now(pytz.timezone('Asia/Tokyo')).strftime("%Y-%m-%d %H:%M:%S"),  "url2speed", url)
-    try:
-        mobile_response = fetch_mobile_response(url)
-        data = extract_metrics(mobile_response)
-        full_image,image_fv,base64_image = get_screenshots_from_mobile_response(mobile_response)
-        return data,base64_image
-    except Exception as e:
-        print(f"{url} An error occurred: {e}")
         raise

+import os
+import requests
+from functools import cache
+from decimal import Decimal, ROUND_HALF_UP
+import pandas as pd
+from PIL import Image
+import io
+import base64
+from datetime import datetime
+import pytz
+import json
+from src.utils.tracer import customtracer
+def remove_distributions(data):
+    result = {}
+    for key, value in data.items():
+        result[key] = {k: v for k, v in value.items() if k != 'distributions'}
+    return result
+def devide_s(metrics, division=1000, decimal=1):
+    if isinstance(metrics, dict) and 'percentile' in metrics:
+        metrics['percentile'] = round(metrics['percentile']/division, decimal)
+    return metrics
+def get_metric_with_fallback(loading_experience, origin_loading_experience, metric_key, default_error={'percentile': -1}):
+    """
+    loadingExperience metrics: get percentile, fallback to originLoadingExperience if invalid.
+    originLoadingExperienceからフォールバックとして取得すめE
+    Args:
+    - loadingExperience: metrics for specific URL (e.g. https://povo.jp/). percentile may be 0 if insufficient data.
+                        If percentile is 0, fallback to originLoadingExperience.
+    - originLoadingExperience: origin-wide data (e.g. https://povo.jp). Shows domain-level performance trend.
+                              More stable data representing overall domain performance.
+    """
+    metric = loading_experience.get(metric_key, default_error)
+    # If percentile is valid (> 0), return as-is.
+    if metric.get('percentile', -1) > 0:
+        return metric
+    # If percentile is invalid, try to get from originLoadingExperience.
+    origin_metric = origin_loading_experience.get(metric_key, default_error)
+    if origin_metric.get('percentile', -1) > 0:
+        # Include category field.
+        result = origin_metric.copy()
+        return result
+    # Both invalid: return -1.
+    return default_error
+def set_category(index):
+    if index >= 5.8:
+        return "SLOW"
+    elif index >= 3.4:
+        return "AVERAGE"
+    elif index >= 0:
+        return "FAST"
+    else:
+        return "ERR"
+def set_p_category(index):
+    if index >= 90:
+        return "FAST"
+    elif index >= 50:
+        return "AVERAGE"
+    elif index >= 0:
+        return "SLOW"
+    else:
+        return "ERR"
+def extract_metrics(data):
+    loading_experience = data.get('loadingExperience', {}).get('metrics', {})
+    origin_loading_experience = data.get('originLoadingExperience', {}).get('metrics', {})
+    metrics = {}
+    iferror = {'percentile': -1}
+    # Get each metric with fallback logic.
+    lcp_metric = get_metric_with_fallback(
+        loading_experience, origin_loading_experience, 'LARGEST_CONTENTFUL_PAINT_MS', iferror
+    )
+    metrics['LCP'] = devide_s(lcp_metric.copy()) #MillSec -> Sec
+    inp_metric = get_metric_with_fallback(
+        loading_experience, origin_loading_experience, 'INTERACTION_TO_NEXT_PAINT', iferror
+    )
+    metrics['INP'] = inp_metric.copy()
+    cls_metric = get_metric_with_fallback(
+        loading_experience, origin_loading_experience, 'CUMULATIVE_LAYOUT_SHIFT_SCORE', iferror
+    )
+    metrics['CLS'] = devide_s(cls_metric.copy(), 100, 2)  # scale: raw -> score
+    fcp_metric = get_metric_with_fallback(
+        loading_experience, origin_loading_experience, 'FIRST_CONTENTFUL_PAINT_MS', iferror
+    )
+    metrics['FCP'] = devide_s(fcp_metric.copy()) #MillSec -> Sec
+    fid_metric = get_metric_with_fallback(
+        loading_experience, origin_loading_experience, 'FIRST_INPUT_DELAY_MS', iferror
+    )
+    metrics['FID'] = fid_metric.copy()
+    ttfb_metric = get_metric_with_fallback(
+        loading_experience, origin_loading_experience, 'EXPERIMENTAL_TIME_TO_FIRST_BYTE', iferror
+    )
+    metrics['TTFB'] = devide_s(ttfb_metric.copy()) #MillSec -> Sec
+    r = remove_distributions(metrics)
+    # Restore category field that was removed by remove_distributions.
+    for key in ['LCP', 'INP', 'CLS', 'FCP', 'FID', 'TTFB']:
+        if key in r:
+            # Restore category from original metric.
+            original_metric = metrics[key]
+            if 'category' in original_metric:
+                r[key]['category'] = original_metric['category']
+            else:
+                # category not found, set ERR.
+                r[key]['category'] = 'ERR'
+    lighthouseResult = data.get("lighthouseResult", {})
+    try:
+        # Fetch speed metrics from PageSpeed API.
+        speed_index = lighthouseResult['audits']['metrics']['details']['items'][0]['speedIndex']/1000
+        ospeed_index= lighthouseResult['audits']['metrics']['details']['items'][0]['observedSpeedIndex']/1000
+        performance_score = lighthouseResult['categories']['performance']['score'] * 100
+    except (IndexError, KeyError, TypeError):
+        # On error, set -1.
+        speed_index = -1
+        ospeed_index= -1
+        performance_score = -1
+    r['speedIndex'] = {
+        'percentile': speed_index,
+        'category': set_category(speed_index)
+    }
+    r['observedSpeedIndex'] = {
+        'percentile': ospeed_index,
+        'category': set_category(ospeed_index)
+    }
+    r['performance_score'] = {
+        'percentile': performance_score,
+        'category': set_p_category(performance_score)
+    }
+    return r
+def get_screenshots_from_mobile_response(mobile_response):
+    header, base64_image = mobile_response['lighthouseResult']['fullPageScreenshot']['screenshot']['data'].split(",", 1)
+    full_image =  Image.open(io.BytesIO(base64.b64decode(base64_image)))
+    width, height = full_image.size
+    left,top,right = 0, 0, width
+    bottom = min(height, 3*width)  # first view estimate: 3*width px
+    image_fv = full_image.crop((left, top, right, bottom))
+    return full_image,image_fv,base64_image
+def fetch_mobile_response(url):
+    endpoint = "https://www.googleapis.com/pagespeedonline/v5/runPagespeed"
+    try:
+        response = requests.get(endpoint, params={
+            "url": url,
+            "strategy": "mobile",
+            "key": os.environ.get('PAGESPEED_KEY')
+        })
+        # Raise HTTPError if status is not 200.
+        response.raise_for_status()
+        return response.json()  # JSONをパースして返す
+    except requests.exceptions.RequestException as e:
+        print(f"Request failed with status {e.response.status_code}: {e.response.text}")
+        raise e
+    except json.JSONDecodeError as e:
+        raise json.JSONDecodeError(f"JSON parse error: {e.msg}, doc: {e.doc}, pos: {e.pos}")
+    except Exception as e:
+        raise RuntimeError(f"予期せぬエラーが発生しました: {e}")
+    return None  # return None on unexpected error
+@customtracer
+def url2speed(url):
+    """
+    input1 (text): https://yahoo.co.jp
+    output1 (json): サイト評価
+    output2 (text): base64 encoded image (full page screenshot)
+    """
+    print(datetime.now(pytz.timezone('Asia/Tokyo')).strftime("%Y-%m-%d %H:%M:%S"),  "url2speed", url)
+    try:
+        mobile_response = fetch_mobile_response(url)
+        data = extract_metrics(mobile_response)
+        full_image,image_fv,base64_image = get_screenshots_from_mobile_response(mobile_response)
+        return data,base64_image
+    except Exception as e:
+        print(f"{url} An error occurred: {e}")
         raise