Spaces:

OzoneAsai
/

gallary2

Sleeping

App Files Files Community

OzoneAsai commited on Sep 29, 2024

Commit

b4b645c

verified ·

1 Parent(s): c62c328

Upload 7 files

Browse files

Files changed (7) hide show

app.py +219 -0
app_log.txt +4 -0
error_log.txt +60 -0
indexer.py +92 -0
nsfw_classification_results.parquet +3 -0
scrape_images_worker.py +171 -0
wsServer.py +45 -0

app.py ADDED Viewed

	@@ -0,0 +1,219 @@

+import os
+import re
+import streamlit as st
+import subprocess
+from zipfile import ZipFile
+from PIL import Image, ImageFilter, UnidentifiedImageError
+import pandas as pd
+import io
+# プレフィックスとParquetファイルのパス
+sth = "https___nhentai_net_g_"  # 任意のプレフィックス
+parquet_file = "nsfw_classification_results.parquet"  # Parquetファイルのパス
+log_file = "app_log.txt"  # ログファイルのパス
+# ページ番号に基づいてファイル名をソートする関数
+def sort_files_by_page_number(file_list):
+    def extract_page_number(filename):
+        match = re.search(r'page_(\d+)\.(jpg|png)', filename)
+        if match:
+            return int(match.group(1))
+        return 0
+    return sorted(file_list, key=extract_page_number)
+# 画像フォルダを取得する関数（更新時間順にソート）
+def get_image_folders(base_folder='scraped_images'):
+    if not os.path.exists(base_folder):
+        os.makedirs(base_folder)
+    folder_paths = [os.path.join(base_folder, f) for f in os.listdir(base_folder) if os.path.isdir(os.path.join(base_folder, f))]
+    # フォルダの更新時間を取得し、タプルのリストを作成
+    folder_info = []
+    for folder_path in folder_paths:
+        mtime = os.path.getmtime(folder_path)
+        folder_name = os.path.basename(folder_path)
+        # プレフィックスを取り除く
+        if folder_name.startswith(sth):
+            folder_name = folder_name.replace(sth, "")
+        folder_info.append((folder_name, mtime, folder_path))
+    # 更新時間でソート（新しい順）
+    folder_info.sort(key=lambda x: x[1], reverse=True)
+    # フォルダ名のリストを返す
+    sorted_folders = [info[0] for info in folder_info]
+    return sorted_folders
+# フォルダをZIP化する関数
+def create_zip_of_folder(folder_path, zip_name):
+    with ZipFile(zip_name, 'w') as zipf:
+        for root, dirs, files in os.walk(folder_path):
+            for file in files:
+                zipf.write(os.path.join(root, file), os.path.relpath(os.path.join(root, file), folder_path))
+# サブプロセスを実行し、ログをファイルから読み取る関数
+def run_subprocess(command):
+    with open(log_file, 'a', encoding='shift_jis') as log_f:
+        process = subprocess.Popen(
+            command,
+            stdout=log_f,
+            stderr=log_f,
+            text=True
+        )
+        process.wait()
+#
+# Parquetファイルをロードする関数
+def load_parquet_data(parquet_file):
+    if os.path.exists(parquet_file):
+        return pd.read_parquet(parquet_file)
+    else:
+        st.error(f"{parquet_file} が見つかりません。スクレイピング後にインデックスが作成される必要があります。")
+        return None
+# Unsafe画像にブラーを適用する関数
+def apply_gaussian_blur_if_unsafe(image, label, show_unsafe):
+    label = label.lower()
+    if label == "unsafe" and not show_unsafe:
+        blurred_image = image.filter(ImageFilter.GaussianBlur(18))
+        img_byte_arr = io.BytesIO()
+        blurred_image.save(img_byte_arr, format='PNG')
+        img_byte_arr = img_byte_arr.getvalue()
+        return img_byte_arr
+    else:
+        img_byte_arr = io.BytesIO()
+        image.save(img_byte_arr, format='PNG')
+        img_byte_arr = img_byte_arr.getvalue()
+        return img_byte_arr
+# コールバック関数: フォルダを選択し、ビューを切り替える
+def open_folder(folder):
+    st.session_state['selected_folder'] = folder
+    st.session_state['current_view'] = 'Selected Folder'
+# StreamlitのUI
+st.title('画像ギャラリーとダウンロード')
+# show_unsafeのチェックボックスを作成し、その値をst.session_stateに保存
+if 'show_unsafe' not in st.session_state:
+    st.session_state['show_unsafe'] = False
+st.session_state['show_unsafe'] = st.checkbox('Unsafe画像をブラーなしで表示', value=st.session_state['show_unsafe'])
+# Parquetファイルからデータをロード
+df = load_parquet_data(parquet_file)
+# URL入力
+url = st.text_input('スクレイピングするURLを入力してください', '')
+# ラジオボタンでビューを切り替える
+views = ["Gallery", "Logs", "Selected Folder"]
+# 初期ビュー設定
+if 'current_view' not in st.session_state:
+    st.session_state['current_view'] = 'Gallery'
+# ラジオボタンを使用してビューを選択
+selected_view = st.radio("ビューを選択", views, index=views.index(st.session_state['current_view']))
+# ビューの更新
+if selected_view != st.session_state['current_view']:
+    st.session_state['current_view'] = selected_view
+# "Gallery"ビュー
+if st.session_state['current_view'] == "Gallery":
+    st.header("ギャラリー")
+    if st.button('スクレイピングを開始'):
+        if url:
+            # ログファイルをクリア
+            open(log_file, 'w').close()
+            # スクレイピングとインデックス作成を順次実行
+            run_subprocess(["python", "scrape_images_worker.py", url])
+            run_subprocess(["python", "indexer.py"])
+            st.success("スクレイピングとインデックス作成が完了しました。")
+    # フォルダからギャラリーを表示
+    folders = get_image_folders()
+    if folders:
+        col1, col2 = st.columns(2)
+        if 'selected_folder' not in st.session_state:
+            st.session_state['selected_folder'] = None
+        for i, folder in enumerate(folders):
+            if "http" in folder:
+                folder_path = os.path.join('scraped_images', folder)
+            else:
+                folder_path = os.path.join('scraped_images', sth + folder)
+            image_files = [f for f in os.listdir(folder_path) if f.endswith(('jpg', 'png'))]
+            image_files = sort_files_by_page_number(image_files)
+            if image_files:
+                if i % 2 == 0:
+                    with col1:
+                        st.image(os.path.join(folder_path, image_files[0]), caption=f"{folder} - 1ページ目", use_column_width=True)
+                        st.button(f'{folder} を開く', key=f"open_{folder}_1", on_click=open_folder, args=(folder,))
+                else:
+                    with col2:
+                        st.image(os.path.join(folder_path, image_files[0]), caption=f"{folder} - 1ページ目", use_column_width=True)
+                        st.button(f'{folder} を開く', key=f"open_{folder}_2", on_click=open_folder, args=(folder,))
+    else:
+        st.write('画像フォルダが見つかりません。')
+# "Logs"ビュー
+elif st.session_state['current_view'] == "Logs":
+    st.header("ログ")
+    if os.path.exists(log_file):
+        with open(log_file, 'r', encoding='shift_jis') as f:
+            log_text = f.read()
+        st.text_area("ログ", value=log_text, height=400)
+    else:
+        st.write("ログがありません。スクレイピングを開始してください。")
+# "Selected Folder"ビュー
+elif st.session_state['current_view'] == "Selected Folder":
+    st.header("選択されたフォルダ")
+    if 'selected_folder' in st.session_state and st.session_state['selected_folder']:
+        selected_folder = st.session_state['selected_folder']
+        if "http" in selected_folder:
+            folder_path = os.path.join('scraped_images', selected_folder)
+        else:
+            folder_path = os.path.join('scraped_images', sth + selected_folder)
+        st.subheader(f"フォルダ: {selected_folder} の画像一覧")
+        if df is not None:
+            image_files = [f for f in os.listdir(folder_path) if f.endswith(('jpg', 'png'))]
+            image_files = sort_files_by_page_number(image_files)
+            if image_files:
+                for image_file in image_files:
+                    image_path = os.path.join(folder_path, image_file)
+                    label_row = df[df['file_path'] == image_path]
+                    if not label_row.empty:
+                        label = label_row['label'].values[0]
+                    else:
+                        label = "Unknown"
+                    try:
+                        image = Image.open(image_path)
+                        img_byte_arr = apply_gaussian_blur_if_unsafe(image, label, st.session_state['show_unsafe'])
+                        st.image(img_byte_arr, caption=f"{image_file} - {label}", use_column_width=True)
+                    except UnidentifiedImageError:
+                        st.error(f"🚫 画像ファイルを識別できません: {image_file}")
+                        continue
+            else:
+                st.warning("選択されたフォルダに画像が存在しません。")
+        zip_name = f'{selected_folder}.zip'
+        if st.button('画像をダウンロード'):
+            create_zip_of_folder(folder_path, zip_name)
+            with open(zip_name, 'rb') as f:
+                st.download_button('ダウンロード', f, file_name=zip_name)
+    else:
+        st.write('画像フォルダが選択されていません。Galleryビューでフォルダを選択してください。')

app_log.txt ADDED Viewed

	@@ -0,0 +1,4 @@

+2024-09-29 22:23:25.498183: I tensorflow/core/util/port.cc:153] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.
+2024-09-29 22:23:27.651496: I tensorflow/core/util/port.cc:153] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.
+C:\Users\asada\anaconda3\Lib\site-packages\huggingface_hub\file_download.py:1132: FutureWarning: `resume_download` is deprecated and will be removed in version 1.0.0. Downloads always resume when possible. If you want to force a new download, use `force_download=True`.
+  warnings.warn(

error_log.txt ADDED Viewed

	@@ -0,0 +1,60 @@

+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_10.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_12.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_14.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_15.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_4.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_7.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_10.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_12.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_14.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_15.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_4.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_7.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_10.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_12.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_14.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_15.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_4.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_7.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_10.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_12.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_14.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_15.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_4.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_7.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_10.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_12.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_14.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_15.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_4.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_7.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_10.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_12.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_14.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_15.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_4.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_7.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_10.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_12.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_14.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_15.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_4.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_7.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_10.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_12.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_14.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_15.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_4.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_7.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_10.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_12.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_14.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_15.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_4.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_7.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_10.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_12.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_14.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_15.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_4.jpg. Skipping...
+Unidentified image file: scraped_images\https___nhentai_net_g_528984_\page_7.jpg. Skipping...

indexer.py ADDED Viewed

	@@ -0,0 +1,92 @@

+import os
+import pandas as pd
+from PIL import Image, UnidentifiedImageError
+import torch
+from torchvision import transforms
+from transformers import AutoProcessor, FocalNetForImageClassification
+import pyarrow as pa
+import pyarrow.parquet as pq
+# 画像フォルダとモデルのパスを指定
+image_folder = "scraped_images"  # 画像フォルダのパス
+model_path = "MichalMlodawski/nsfw-image-detection-large"  # NSFWモデルのパス
+# サブフォルダを含めてjpgファイルを再帰的に取得
+jpg_files = []
+for root, dirs, files in os.walk(image_folder):
+    for file in files:
+        if file.lower().endswith(".jpg"):
+            jpg_files.append(os.path.join(root, file))
+# jpgファイルが存在するか確認
+if not jpg_files:
+    print("No jpg files found in folder:", image_folder)
+    exit()
+# モデルとプロセッサの読み込み
+feature_extractor = AutoProcessor.from_pretrained(model_path)
+model = FocalNetForImageClassification.from_pretrained(model_path)
+model.eval()
+# 画像の変換処理
+transform = transforms.Compose([
+    transforms.Resize((512, 512)),
+    transforms.ToTensor(),
+    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
+])
+# ラベルとNSFWカテゴリのマッピング
+label_to_category = {
+    "LABEL_0": "Safe",
+    "LABEL_1": "Questionable",
+    "LABEL_2": "Unsafe"
+}
+# 結果を保存するためのリスト
+results = []
+# ログファイルを作成（破損画像ファイルを記録）
+error_log = "error_log.txt"
+# 各画像に対して分類処理を行い、結果を取得
+for jpg_file in jpg_files:
+    try:
+        # 画像を開く
+        image = Image.open(jpg_file).convert("RGB")
+    except UnidentifiedImageError:
+        # 画像を識別できない場合のエラーハンドリング
+        with open(error_log, "a", encoding="utf-8") as log_file:
+            log_file.write(f"Unidentified image file: {jpg_file}. Skipping...\n")
+        print(f"Unidentified image file: {jpg_file}. Skipping...")
+        continue
+    image_tensor = transform(image).unsqueeze(0)
+    # モデルでの推論
+    inputs = feature_extractor(images=image, return_tensors="pt")
+    with torch.no_grad():
+        outputs = model(**inputs)
+        probabilities = torch.nn.functional.softmax(outputs.logits, dim=-1)
+        confidence, predicted = torch.max(probabilities, 1)
+    # ラベルを取得
+    label = model.config.id2label[predicted.item()]
+    category = label_to_category.get(label, "Unknown")
+    # 結果をリストに追加
+    results.append({
+        "file_path": jpg_file,
+        "label": label,
+        "category": category,
+        "confidence": confidence.item() * 100
+    })
+# 結果をDataFrameに変換
+df = pd.DataFrame(results)
+# Parquet形式で保存
+parquet_file = "nsfw_classification_results.parquet"
+table = pa.Table.from_pandas(df)
+pq.write_table(table, parquet_file)
+print(f"Classification completed and saved to {parquet_file}!")

nsfw_classification_results.parquet ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3f85291a8d87eee60eeec7c184794f3bd23928d7abf61f8765d877d59da7c02a
+size 65590

scrape_images_worker.py ADDED Viewed

	@@ -0,0 +1,171 @@

+import os
+import re
+from playwright.sync_api import sync_playwright
+import requests
+import sys
+from PIL import Image, UnidentifiedImageError
+from io import BytesIO
+log_file = "app_log.txt"  # ログファイルのパス
+# ログフォーマットの定義
+log_format = '%(asctime)s - %(levelname)s - %(message)s'
+import logging
+file_handler = logging.FileHandler(log_file, encoding='utf-8')
+# ログの設定
+logging.basicConfig(
+    level=logging.INFO,  # ログレベルをINFOに設定
+    format='%(asctime)s - %(levelname)s - %(message)s',  # ログのフォーマットを指定
+    handlers=[
+        logging.StreamHandler(sys.stdout),  # 標準出力にログを出力
+        file_handler,
+    ]
+)
+logger = logging.getLogger(__name__)
+# 安全なフォルダ名を生成する関数
+def generate_safe_folder_name(url):
+    # URLから安全なフォルダ名を生成（ファイル名に使えない文字を除去）
+    safe_name = re.sub(r'[^a-zA-Z0-9_\-]', '_', url)
+    return safe_name
+# 画像を保存する関数 (JPG 80%の品質で保存)
+def save_image_as_jpg(image_url, save_folder, image_name):
+    if not os.path.exists(save_folder):
+        os.makedirs(save_folder)
+        logger.info(f"フォルダを作成しました: {save_folder}")
+    try:
+        response = requests.get(image_url, timeout=10)
+        response.raise_for_status()  # HTTPエラーが発生した場合例外を投げる
+    except requests.exceptions.RequestException as e:
+        logger.error(f"画像のダウンロード中にエラーが発生しました: {e}")
+        return
+    try:
+        image = Image.open(BytesIO(response.content))
+    except UnidentifiedImageError:
+        logger.warning(f"未識別の画像ファイル: {image_url}. スキップします。")
+        return
+    except Exception as e:
+        logger.error(f"画像のオープン中にエラーが発生しました: {e}")
+        return
+    # 保存時に JPG に変換し、品質80%で保存
+    image_path = os.path.join(save_folder, image_name)
+    try:
+        image.convert("RGB").save(image_path, "JPEG", quality=80)
+        logger.info(f"画像を保存しました: {image_path}")
+    except Exception as e:
+        logger.error(f"画像の保存中にエラーが発生しました: {e}")
+# 画像の再帰的取得
+def scrape_images_by_page(url, folder_name='scraped_images'):
+    # URLが"/"で終わっている場合、スラッシュを削除
+    original_url = url
+    url = url.rstrip('/')
+    logger.info(f"処理するURL: {url}")
+    with sync_playwright() as p:
+        browser = p.chromium.launch(headless=False)  # ブラウザを表示して操作
+        page = browser.new_page()
+        # 初期ページにアクセス
+        page.goto(url)
+        logger.info(f"ページにアクセスしました: {url}")
+        # ページが完全に読み込まれるまで待機
+        page.wait_for_load_state('networkidle')
+        logger.info("ページの読み込みが完了しました。")
+        # lazy-loading属性を無効にするためのJavaScriptを挿入
+        try:
+            page.evaluate("""
+                document.querySelectorAll('img[loading="lazy"]').forEach(img => {
+                    img.setAttribute('loading', 'eager');
+                    img.src = img.src;  // 画像を強制的にリロード
+                });
+            """)
+            logger.info("lazy-loadingを無効化しました。")
+        except Exception as eval_error:
+            logger.warning(f"JavaScriptの評価中にエラーが発生しました: {eval_error}")
+        # フォルダ名を生成
+        safe_folder_name = generate_safe_folder_name(url)
+        folder_path = os.path.join(folder_name, safe_folder_name)
+        logger.info(f"保存先フォルダ: {folder_path}")
+        # ページ数を取得
+        try:
+            # ページ数が格納されているセレクタからテキストを取得
+            page_count_selector = 'div.tag-container:nth-child(8) > span:nth-child(1) > a:nth-child(1) > span:nth-child(1)'
+            page_count_text = page.locator(page_count_selector).text_content().strip()
+            num_pages = int(re.search(r'\d+', page_count_text).group())
+            logger.info(f"セレクタ '{page_count_selector}' からページ数を取得: {num_pages}")
+        except Exception as e:
+            logger.warning(f"セレクタ '{page_count_selector}' からページ数を取得できませんでした: {e}")
+            # セレクタが見つからない場合のフォールバック
+            try:
+                fallback_selector = 'section.reader-bar:nth-child(2) > div:nth-child(2) > button:nth-child(3) > span:nth-child(3)'
+                page.wait_for_selector(fallback_selector, timeout=5000)
+                num_pages_text = page.locator(fallback_selector).text_content().strip()
+                num_pages = int(re.search(r'\d+', num_pages_text).group())
+                logger.info(f"セレクタ '{fallback_selector}' からページ数を取得: {num_pages}")
+            except Exception as e2:
+                logger.error(f"ページ数の取得に失敗しました: {e2}")
+                num_pages = 1  # デフォルトで1ページとする
+        logger.info(f"総ページ数: {num_pages}")
+        # 各ページにアクセスして画像を取得
+        for i in range(1, num_pages + 1):
+            page_url = f"{url}/{i}"
+            page.goto(page_url)
+            logger.info(f"ページにアクセスしました: {page_url}")
+            # ページが完全に読み込まれるまで待機
+            page.wait_for_load_state('networkidle')
+            logger.info(f"ページ {i} の読み込みが完了しました。")
+            try:
+                # 画像を取得するセレクタ
+                img_selector = '#image-container > a > img'
+                img_elements = page.locator(img_selector)
+                img_count = img_elements.count()
+                logger.info(f"ページ {i} の画像数: {img_count}")
+                if img_count == 0:
+                    logger.warning(f"ページ {i} に画像が見つかりません。")
+                    continue
+                for j in range(img_count):
+                    try:
+                        image_element = img_elements.nth(j)
+                        image_url = image_element.get_attribute('src')
+                        if not image_url:
+                            # data-srcなどに画像URLが格納されている場合
+                            image_url = image_element.get_attribute('data-src')
+                        logger.info(f"取得した画像URL (ページ {i}, 画像 {j + 1}): {image_url}")
+                        if image_url:
+                            # ファイル名にページ番号と画像番号を含め、位取りを適用
+                            image_name = f'page_{str(i).zfill(5)}_img_{str(j + 1).zfill(5)}.jpg'
+                            save_image_as_jpg(image_url, folder_path, image_name)
+                    except Exception as e:
+                        logger.error(f"ページ {i}, 画像 {j + 1} の処理中にエラーが発生しました: {e}")
+                        continue
+            except Exception as e:
+                logger.error(f"ページ {i} の画像取得中にエラーが発生しました: {e}")
+                continue
+        browser.close()
+        logger.info("ブラウザを閉じました。")
+if __name__ == "__main__":
+    if len(sys.argv) < 2:
+        logger.error("使用方法: python scrape_images_worker.py <URL>")
+        sys.exit(1)
+    url = sys.argv[1]  # コマンドライン引数でURLを受け取る
+    folder_name = 'scraped_images'  # デフォルトのフォルダ名
+    scrape_images_by_page(url, folder_name)

wsServer.py ADDED Viewed

	@@ -0,0 +1,45 @@

+import asyncio
+import websockets
+import json
+import time
+# データの共有辞書
+shared_data = {
+    "latest_sensor_data": None,
+    "last_message_time": None
+}
+# クライアントからのデータを処理し、共有データを更新
+async def handle_client(websocket, path):
+    global shared_data
+    while True:
+        try:
+            # クライアントからのメッセージを受信
+            message = await websocket.recv()
+            print(f"受信したメッセージ: {message}")
+            # "ping"の場合、"pong"で応答
+            if message == "ping":
+                await websocket.send("pong")
+                continue
+            # JSON形式のセンサーデータを受信した場合
+            sensor_data = json.loads(message)
+            shared_data["latest_sensor_data"] = sensor_data
+            shared_data["last_message_time"] = time.time()
+            # 受信データをサーバー側に出力
+            print(f"最新センサーデータ: {shared_data['latest_sensor_data']}")
+        except websockets.ConnectionClosed:
+            print("クライアントとの接続が切断されました")
+            break
+# WebSocketサーバーを起動
+async def main():
+    async with websockets.serve(handle_client, "localhost", 8765):
+        print("WebSocketサーバーが起動しました。")
+        await asyncio.Future()  # 無限に実行
+# メイン関数の実行
+if __name__ == "__main__":
+    asyncio.run(main())