Spaces:

limitedonly41
/

Url_Categorize_Manual

Runtime error

App Files Files Community

limitedonly41 commited on Oct 11, 2025

Commit

07440db

verified ·

1 Parent(s): 0dea594

Update app.py

Browse files

Files changed (1) hide show

app.py +146 -66

app.py CHANGED Viewed

@@ -30,95 +30,112 @@ class WebsiteCategorizerApp:
             logger.error(f"Ошибка конвертации URL: {e}")
             return ""
-    # def connect_to_sheet(self, sheet_url: str) -> Tuple[str, str]:
-    #     try:
-    #         if not sheet_url:
-    #             return "❌ Ошибка: Введите URL Google таблицы", ""
-    #         csv_url = self.convert_google_sheet_url(sheet_url)
-    #         if not csv_url:
-    #             return "❌ Ошибка: Неверный формат URL", ""
-    #         df = pd.read_csv(csv_url)
-    #         if df.empty:
-    #             return "❌ Ошибка: Таблица пуста", ""
-    #         if len(df.columns) < 2:
-    #             return "❌ Ошибка: Нужно минимум 2 столбца (URL и категория)", ""
-    #         self.sheet_data = []
-    #         self.results_data = []
-    #         url_column = df.columns[0]
-    #         category_column = df.columns[1]
-    #         for index, row in df.iterrows():
-    #             url = str(row[url_column]).strip() if pd.notna(row[url_column]) else ""
-    #             category = str(row[category_column]).strip() if pd.notna(row[category_column]) else ""
-    #             if url and url.lower() not in ['url', 'nan']:
-    #                 self.sheet_data.append({
-    #                     "index": index,
-    #                     "url": url,
-    #                     "category": category if category.lower() != 'nan' else ""
-    #                 })
-    #                 self.results_data.append({
-    #                     "url": url,
-    #                     "category": category if category.lower() != 'nan' else ""
-    #                 })
-    #         if not self.sheet_data:
-    #             return "❌ Ошибка: Не найдены валидные URL", ""
-    #         self.current_index = 0
-    #         self.sheet_url = sheet_url
-    #         return f"✅ Подключено успешно! Найдено {len(self.sheet_data)} записей", self.get_current_url_for_display()
-    #     except Exception as e:
-    #         logger.error(f"Ошибка подключения к таблице: {e}")
-    #         return f"❌ Ошибка: {str(e)}\n\nУбедитесь что таблица публичная и URL корректный", ""
     def connect_to_sheet(self, sheet_url: str) -> Tuple[str, str]:
         try:
             if not sheet_url:
                 return "❌ Ошибка: Введите URL Google таблицы", ""
             csv_url = self.convert_google_sheet_url(sheet_url)
             if not csv_url:
                 return "❌ Ошибка: Неверный формат URL", ""
             df = pd.read_csv(csv_url)
             if df.empty or df.shape[1] < 1:
                 return "❌ Ошибка: Таблица пуста или нет данных", ""
             # Always use column A for URL/title
             url_column = df.columns[0]
             # Find category column (case-insensitive match for 'category')
             category_col_candidates = [c for c in df.columns if str(c).strip().lower() == "category"]
             category_column = category_col_candidates[0] if category_col_candidates else None
             self.sheet_data = []
             self.results_data = []
             for index, row in df.iterrows():
                 raw_value = str(row[url_column]).strip() if pd.notna(row[url_column]) else ""
                 if not raw_value:
                     continue
                 # Detect if it's URL or title
                 if raw_value.lower().startswith("http"):
                     url = raw_value
                 else:
                     # treat as title → skip until we find an actual URL? (optional)
                     url = ""
                 # Category (if exists)
                 category = ""
                 if category_column and pd.notna(row[category_column]):
                     category = str(row[category_column]).strip()
                 # Only add if URL is valid
                 if url:
                     self.sheet_data.append({
@@ -130,19 +147,18 @@ class WebsiteCategorizerApp:
                         "url": url,
                         "category": category
                     })
             if not self.sheet_data:
                 return "❌ Ошибка: Не найдены валидные URL", ""
             self.current_index = 0
             self.sheet_url = sheet_url
             return f"✅ Подключено успешно! Найдено {len(self.sheet_data)} записей", self.get_current_url_for_display()
         except Exception as e:
             logger.error(f"Ошибка подключения к таблице: {e}")
             return f"❌ Ошибка: {str(e)}", ""
     def get_current_url_for_display(self) -> str:
         if not self.sheet_data or self.current_index >= len(self.sheet_data):
             return ""
@@ -203,13 +219,36 @@ app = WebsiteCategorizerApp()
 with gr.Blocks(title="Категоризатор сайтов", theme=gr.themes.Soft()) as demo:
     gr.HTML("<h2 style='text-align:center;'>🌐 Категоризатор сайтов</h2>")
     with gr.Tabs():
         with gr.TabItem("Категоризация"):
             with gr.Row():
                 with gr.Column(scale=1):
-                    sheet_url_input = gr.Textbox(label="URL Google таблицы", lines=2)
-                    connect_btn = gr.Button("🔗 Подключить", variant="primary")
                     connection_status = gr.HTML("")
                     with gr.Row():
                         prev_btn = gr.Button("⬅️", elem_id="prev-btn")
                         next_btn = gr.Button("➡️", elem_id="next-btn")
@@ -219,10 +258,11 @@ with gr.Blocks(title="Категоризатор сайтов", theme=gr.themes.
                     save_status = gr.HTML("")
                     export_btn = gr.Button("📥 Скачать CSV")
                     export_file = gr.File(visible=False)
                 with gr.Column(scale=5):
                     website_viewer = gr.HTML("""
                         <div style='height:900px;display:flex;align-items:center;justify-content:center;background:#eee;border-radius:8px;'>
-                            <p>Подключите Google таблицу</p>
                         </div>
                     """)
@@ -237,27 +277,55 @@ with gr.Blocks(title="Категоризатор сайтов", theme=gr.themes.
     csv_data = gr.State("")
-    # def handle_connect(url):
-    #     status, iframe_url = app.connect_to_sheet(url)
-    #     if "✅" in status:
-    #         url_display, category, info = app.get_current_info()
-    #         iframe_html = f'<iframe src="{iframe_url}" width="100%" height="900px" style="border-radius:8px;"></iframe>'
-    #         return status, iframe_html, url_display, category, info
-    #     else:
-    #         return status, website_viewer.value, "", "", ""
     def handle_connect(url):
         status, iframe_url = app.connect_to_sheet(url)
         if "✅" in status:
             url_display, category, info = app.get_current_info()
             # dynamically merge categories from data
             all_categories = list(set(app.categories + [
                 c for c in (row["category"] for row in app.results_data) if c
             ]))
             iframe_html = f'<iframe src="{iframe_url}" width="100%" height="900px" style="border-radius:8px;"></iframe>'
             return (
                 status,
                 iframe_html,
@@ -274,7 +342,6 @@ with gr.Blocks(title="Категоризатор сайтов", theme=gr.themes.
                 ""
             )
     def handle_navigation(direction):
         if direction == "next":
             url_display, category, info, iframe_url = app.next_record()
@@ -298,12 +365,25 @@ with gr.Blocks(title="Категоризатор сайтов", theme=gr.themes.
     def refresh_table():
         return pd.DataFrame(app.results_data)
     connect_btn.click(
         handle_connect,
         inputs=[sheet_url_input],
         outputs=[connection_status, website_viewer, current_url_display, category_dropdown, record_info]
     )
     next_btn.click(lambda: handle_navigation("next"),
                    outputs=[website_viewer, current_url_display, category_dropdown, record_info])
     prev_btn.click(lambda: handle_navigation("previous"),
@@ -329,4 +409,4 @@ with gr.Blocks(title="Категоризатор сайтов", theme=gr.themes.
     """)
 if __name__ == "__main__":
-    demo.launch()

             logger.error(f"Ошибка конвертации URL: {e}")
             return ""
+    def load_file_data(self, file_path: str) -> Tuple[str, str]:
+        """Load data from uploaded CSV or Excel file"""
+        try:
+            if not file_path:
+                return "❌ Ошибка: Файл не выбран", ""
+            # Determine file type and read accordingly
+            if file_path.lower().endswith('.csv'):
+                df = pd.read_csv(file_path, encoding='utf-8')
+            elif file_path.lower().endswith(('.xlsx', '.xls')):
+                df = pd.read_excel(file_path)
+            else:
+                return "❌ Ошибка: Поддерживаются только CSV и Excel файлы", ""
+            if df.empty or df.shape[1] < 1:
+                return "❌ Ошибка: Файл пуст или нет данных", ""
+            # Always use column A for URL/title
+            url_column = df.columns[0]
+            # Find category column (case-insensitive match for 'category')
+            category_col_candidates = [c for c in df.columns if str(c).strip().lower() == "category"]
+            category_column = category_col_candidates[0] if category_col_candidates else None
+            self.sheet_data = []
+            self.results_data = []
+            for index, row in df.iterrows():
+                raw_value = str(row[url_column]).strip() if pd.notna(row[url_column]) else ""
+                if not raw_value:
+                    continue
+                # Detect if it's URL or title
+                if raw_value.lower().startswith("http"):
+                    url = raw_value
+                else:
+                    # treat as title → skip until we find an actual URL? (optional)
+                    url = ""
+                # Category (if exists)
+                category = ""
+                if category_column and pd.notna(row[category_column]):
+                    category = str(row[category_column]).strip()
+                # Only add if URL is valid
+                if url:
+                    self.sheet_data.append({
+                        "index": index,
+                        "url": url,
+                        "category": category
+                    })
+                    self.results_data.append({
+                        "url": url,
+                        "category": category
+                    })
+            if not self.sheet_data:
+                return "❌ Ошибка: Не найдены валидные URL", ""
+            self.current_index = 0
+            return f"✅ Файл загружен успешно! Найдено {len(self.sheet_data)} записей", self.get_current_url_for_display()
+        except Exception as e:
+            logger.error(f"Ошибка загрузки файла: {e}")
+            return f"❌ Ошибка: {str(e)}", ""
     def connect_to_sheet(self, sheet_url: str) -> Tuple[str, str]:
         try:
             if not sheet_url:
                 return "❌ Ошибка: Введите URL Google таблицы", ""
             csv_url = self.convert_google_sheet_url(sheet_url)
             if not csv_url:
                 return "❌ Ошибка: Неверный формат URL", ""
             df = pd.read_csv(csv_url)
             if df.empty or df.shape[1] < 1:
                 return "❌ Ошибка: Таблица пуста или нет данных", ""
             # Always use column A for URL/title
             url_column = df.columns[0]
             # Find category column (case-insensitive match for 'category')
             category_col_candidates = [c for c in df.columns if str(c).strip().lower() == "category"]
             category_column = category_col_candidates[0] if category_col_candidates else None
             self.sheet_data = []
             self.results_data = []
             for index, row in df.iterrows():
                 raw_value = str(row[url_column]).strip() if pd.notna(row[url_column]) else ""
                 if not raw_value:
                     continue
                 # Detect if it's URL or title
                 if raw_value.lower().startswith("http"):
                     url = raw_value
                 else:
                     # treat as title → skip until we find an actual URL? (optional)
                     url = ""
                 # Category (if exists)
                 category = ""
                 if category_column and pd.notna(row[category_column]):
                     category = str(row[category_column]).strip()
                 # Only add if URL is valid
                 if url:
                     self.sheet_data.append({
                         "url": url,
                         "category": category
                     })
             if not self.sheet_data:
                 return "❌ Ошибка: Не найдены валидные URL", ""
             self.current_index = 0
             self.sheet_url = sheet_url
             return f"✅ Подключено успешно! Найдено {len(self.sheet_data)} записей", self.get_current_url_for_display()
         except Exception as e:
             logger.error(f"Ошибка подключения к таблице: {e}")
             return f"❌ Ошибка: {str(e)}", ""
     def get_current_url_for_display(self) -> str:
         if not self.sheet_data or self.current_index >= len(self.sheet_data):
             return ""
 with gr.Blocks(title="Категоризатор сайтов", theme=gr.themes.Soft()) as demo:
     gr.HTML("<h2 style='text-align:center;'>🌐 Категоризатор сайтов</h2>")
     with gr.Tabs():
         with gr.TabItem("Категоризация"):
             with gr.Row():
                 with gr.Column(scale=1):
+                    # Data source selection
+                    gr.Markdown("### 📊 Источник данных")
+                    data_source = gr.Radio(
+                        choices=["Google Sheets", "Файл CSV/Excel"],
+                        value="Google Sheets",
+                        label="Выберите источник данных"
+                    )
+                    # Google Sheets section
+                    with gr.Group(visible=True) as google_sheets_group:
+                        sheet_url_input = gr.Textbox(label="URL Google таблицы", lines=2)
+                        connect_btn = gr.Button("🔗 Подключить", variant="primary")
+                    # File upload section
+                    with gr.Group(visible=False) as file_upload_group:
+                        file_input = gr.File(
+                            label="Загрузить файл CSV или Excel",
+                            file_types=[".csv", ".xlsx", ".xls"],
+                            file_count="single"
+                        )
+                        load_file_btn = gr.Button("📁 Загрузить файл", variant="primary")
                     connection_status = gr.HTML("")
+                    # Navigation controls
                     with gr.Row():
                         prev_btn = gr.Button("⬅️", elem_id="prev-btn")
                         next_btn = gr.Button("➡️", elem_id="next-btn")
                     save_status = gr.HTML("")
                     export_btn = gr.Button("📥 Скачать CSV")
                     export_file = gr.File(visible=False)
                 with gr.Column(scale=5):
                     website_viewer = gr.HTML("""
                         <div style='height:900px;display:flex;align-items:center;justify-content:center;background:#eee;border-radius:8px;'>
+                            <p>Подключите источник данных</p>
                         </div>
                     """)
     csv_data = gr.State("")
+    def toggle_data_source(source):
+        if source == "Google Sheets":
+            return gr.update(visible=True), gr.update(visible=False)
+        else:
+            return gr.update(visible=False), gr.update(visible=True)
     def handle_connect(url):
         status, iframe_url = app.connect_to_sheet(url)
         if "✅" in status:
             url_display, category, info = app.get_current_info()
+            # dynamically merge categories from data
+            all_categories = list(set(app.categories + [
+                c for c in (row["category"] for row in app.results_data) if c
+            ]))
+            iframe_html = f'<iframe src="{iframe_url}" width="100%" height="900px" style="border-radius:8px;"></iframe>'
+            return (
+                status,
+                iframe_html,
+                url_display,
+                gr.update(choices=all_categories, value=category),
+                info
+            )
+        else:
+            return (
+                status,
+                website_viewer.value,
+                "",
+                gr.update(choices=app.categories, value=None),
+                ""
+            )
+    def handle_file_upload(file):
+        if file is None:
+            return "❌ Ошибка: Файл не выбран", "", "", gr.update(choices=app.categories, value=None), ""
+        status, iframe_url = app.load_file_data(file.name)
+        if "✅" in status:
+            url_display, category, info = app.get_current_info()
             # dynamically merge categories from data
             all_categories = list(set(app.categories + [
                 c for c in (row["category"] for row in app.results_data) if c
             ]))
             iframe_html = f'<iframe src="{iframe_url}" width="100%" height="900px" style="border-radius:8px;"></iframe>'
             return (
                 status,
                 iframe_html,
                 ""
             )
     def handle_navigation(direction):
         if direction == "next":
             url_display, category, info, iframe_url = app.next_record()
     def refresh_table():
         return pd.DataFrame(app.results_data)
+    # Event handlers
+    data_source.change(
+        toggle_data_source,
+        inputs=[data_source],
+        outputs=[google_sheets_group, file_upload_group]
+    )
     connect_btn.click(
         handle_connect,
         inputs=[sheet_url_input],
         outputs=[connection_status, website_viewer, current_url_display, category_dropdown, record_info]
     )
+    load_file_btn.click(
+        handle_file_upload,
+        inputs=[file_input],
+        outputs=[connection_status, website_viewer, current_url_display, category_dropdown, record_info]
+    )
     next_btn.click(lambda: handle_navigation("next"),
                    outputs=[website_viewer, current_url_display, category_dropdown, record_info])
     prev_btn.click(lambda: handle_navigation("previous"),
     """)
 if __name__ == "__main__":
+    demo.launch()