Spaces:

Ed5
/

Checklist-Generator

Sleeping

App Files Files Community

Ed5 commited on Jan 26

Commit

d1c3f7f

verified ·

1 Parent(s): 6761181

Update app.py

Browse files

Files changed (1) hide show

app.py +46 -30

app.py CHANGED Viewed

@@ -21,7 +21,6 @@ class KDChecker:
     def load_excel_db(self, excel_path):
         print(f"--- Загрузка Excel: {excel_path} ---")
         if excel_path is None:
-            # Возвращаем: Сообщение, Пустой список авторов, Пустой список шкафов
             return "Файл не выбран", gr.update(choices=[], value=None), gr.update(choices=[], value=None)
         all_data = []
@@ -52,7 +51,6 @@ class KDChecker:
                     df = pd.read_excel(excel_path, sheet_name=sheet_name, header=header_row_index)
                     df_subset = df.iloc[:, [cab_col_idx, rem_col_idx]]
                     df_subset.columns = ["Cabinet", "Remark"]
-                    # Добавляем колонку с именем листа (Автором)
                     df_subset["Author"] = sheet_name
                     df_subset["Cabinet"] = df_subset["Cabinet"].ffill()
@@ -67,14 +65,11 @@ class KDChecker:
                 return "❌ Ошибка: Не найдены заголовки 'Шкаф' и 'Примечание'.", gr.update(choices=[]), gr.update(choices=[])
             self.excel_db = pd.concat(all_data, ignore_index=True)
-            # Получаем список уникальных авторов (листов)
             authors_list = sorted(self.excel_db["Author"].unique().tolist())
             print(f"Excel загружен. Всего строк: {len(self.excel_db)}")
             msg = f"✅ База загружена!\nЗаписей: {len(self.excel_db)}\nАвторы: {', '.join(sheets_log)}"
-            # Возвращаем: Статус, Список авторов, Очищаем список шкафов
             return msg, gr.update(choices=authors_list, value=None, interactive=True), gr.update(choices=[], value=None)
         except Exception as e:
@@ -82,11 +77,8 @@ class KDChecker:
             return f"❌ Ошибка: {e}", gr.update(choices=[]), gr.update(choices=[])
     def get_cabinets_by_author(self, author_name):
-        """Фильтрует шкафы по выбранному автору"""
         if self.excel_db.empty or not author_name:
             return gr.update(choices=[], value=None)
-        # Фильтруем базу по автору
         filtered_cabs = self.excel_db[self.excel_db["Author"] == author_name]["Cabinet"].unique().tolist()
         return gr.update(choices=sorted(filtered_cabs), value=None, interactive=True)
@@ -94,7 +86,6 @@ class KDChecker:
         text = ""
         try:
             with pdfplumber.open(pdf_path) as pdf:
-                # Читаем первые 5 страниц для скорости поиска номера
                 for page in pdf.pages[:5]:
                     text += (page.extract_text() or "") + "\n"
         except Exception as e:
@@ -102,12 +93,28 @@ class KDChecker:
         return text
     def find_all_decimal_numbers(self, text):
-        pattern = r"(РЛТ|ЛДАР|ВНАР|ШТМ)[\s\.]*\d{1}[\s\.]*\d{3}[\s\.]*[А-ЯA-Z]{1,4}[\s\.]*\d{3}(-[\d]+)?"
         matches = []
-        for match in re.finditer(pattern, text):
             clean_num = match.group(0).replace(" ", "").replace("\n", "")
             if clean_num not in matches:
                 matches.append(clean_num)
         return matches
     def determine_doc_type(self, filename):
@@ -179,23 +186,43 @@ class KDChecker:
             found_by_method = "manual"
             is_manual = True
         else:
-            # === ОПТИМИЗАЦИЯ ===
             db_clean_keys = set(self.excel_db["Cabinet_Clean"].tolist())
             for file_path in progress.tqdm(files, desc="Поиск номера шкафа"):
-                text = self.extract_text(file_path)
-                pdf_numbers = self.find_all_decimal_numbers(text)
                 for cand in pdf_numbers:
                     if cand in db_clean_keys:
                         detected_cabinet = cand
                         found_by_method = "number"
-                        break
                 if found_by_method == "number":
-                    print(f"✅ Шкаф найден в файле: {os.path.basename(file_path)}")
                     break
         print(f"Определен шкаф: {detected_cabinet}")
         if detected_cabinet == "Не определен":
@@ -240,7 +267,6 @@ class KDChecker:
         form = c.acroForm
         width, height = A4
-        # --- ШРИФТЫ ---
         font_name = 'Helvetica'
         local_font = "arial.ttf"
@@ -335,28 +361,18 @@ def create_app():
         gr.Markdown("## ✅ Генератор чек-листов КД")
         with gr.Row():
-            # --- ЛЕВАЯ КОЛОНКА: БАЗА ---
             with gr.Column(scale=1):
                 gr.Markdown("### 1. База знаний")
                 db_in = gr.File(label="Excel (.xlsx)", type="filepath", elem_classes="compact_file")
-                # Группа ручного выбора
                 with gr.Group():
-                    gr.Markdown("#### Ручной выбор (если автопоиск не сработал):")
-                    # Сначала выбираем автора
-                    author_dd = gr.Dropdown(label="1. Автор (Лист Excel)", choices=[], interactive=True)
-                    # Затем шкаф (зависит от автора)
-                    cabinet_dd = gr.Dropdown(label="2. Выберите шкаф", choices=[], interactive=True)
                     db_out = gr.Textbox(label="Статус базы", lines=2, max_lines=3, interactive=False)
-                # Событие загрузки Excel: обновляет статус и список авторов
                 db_in.upload(checker.load_excel_db, inputs=[db_in], outputs=[db_out, author_dd, cabinet_dd])
-                # Событие выбора автора: фильтрует список шкафов
                 author_dd.change(checker.get_cabinets_by_author, inputs=[author_dd], outputs=[cabinet_dd])
-            # --- ПРАВАЯ КОЛОНКА: ЧЕРТЕЖИ ---
             with gr.Column(scale=1):
                 gr.Markdown("### 2. Документация")
                 files_in = gr.File(label="Чертежи (PDF)", file_count="multiple", type="filepath", elem_classes="compact_file")

     def load_excel_db(self, excel_path):
         print(f"--- Загрузка Excel: {excel_path} ---")
         if excel_path is None:
             return "Файл не выбран", gr.update(choices=[], value=None), gr.update(choices=[], value=None)
         all_data = []
                     df = pd.read_excel(excel_path, sheet_name=sheet_name, header=header_row_index)
                     df_subset = df.iloc[:, [cab_col_idx, rem_col_idx]]
                     df_subset.columns = ["Cabinet", "Remark"]
                     df_subset["Author"] = sheet_name
                     df_subset["Cabinet"] = df_subset["Cabinet"].ffill()
                 return "❌ Ошибка: Не найдены заголовки 'Шкаф' и 'Примечание'.", gr.update(choices=[]), gr.update(choices=[])
             self.excel_db = pd.concat(all_data, ignore_index=True)
             authors_list = sorted(self.excel_db["Author"].unique().tolist())
             print(f"Excel загружен. Всего строк: {len(self.excel_db)}")
             msg = f"✅ База загружена!\nЗаписей: {len(self.excel_db)}\nАвторы: {', '.join(sheets_log)}"
             return msg, gr.update(choices=authors_list, value=None, interactive=True), gr.update(choices=[], value=None)
         except Exception as e:
             return f"❌ Ошибка: {e}", gr.update(choices=[]), gr.update(choices=[])
     def get_cabinets_by_author(self, author_name):
         if self.excel_db.empty or not author_name:
             return gr.update(choices=[], value=None)
         filtered_cabs = self.excel_db[self.excel_db["Author"] == author_name]["Cabinet"].unique().tolist()
         return gr.update(choices=sorted(filtered_cabs), value=None, interactive=True)
         text = ""
         try:
             with pdfplumber.open(pdf_path) as pdf:
                 for page in pdf.pages[:5]:
                     text += (page.extract_text() or "") + "\n"
         except Exception as e:
         return text
     def find_all_decimal_numbers(self, text):
         matches = []
+        # Шаблон 1: Специфичный (РЛТ.1.006.ША.030)
+        # Ищет: Префикс + цифра + 3 цифры + буквы + 3 цифры
+        pattern_custom = r"(РЛТ|ЛДАР|ВНАР|ШТМ)[\s\.]*\d{1}[\s\.]*\d{3}[\s\.]*[А-ЯA-Z]{1,4}[\s\.]*\d{3}(-[\d]+)?"
+        # Шаблон 2: Стандартный ГОСТ (ЛДАР.421246.337)
+        # Ищет: Префикс + точка + 6 цифр + точка + 3 цифры (допускаются пробелы вместо точек)
+        pattern_gost = r"(РЛТ|ЛДАР|ВНАР|ШТМ)[\s\.]*\d{6}[\s\.]*\d{3}"
+        # Ищем по первому шаблону
+        for match in re.finditer(pattern_custom, text):
             clean_num = match.group(0).replace(" ", "").replace("\n", "")
             if clean_num not in matches:
                 matches.append(clean_num)
+        # Ищем по второму шаблону
+        for match in re.finditer(pattern_gost, text):
+            clean_num = match.group(0).replace(" ", "").replace("\n", "")
+            if clean_num not in matches:
+                matches.append(clean_num)
         return matches
     def determine_doc_type(self, filename):
             found_by_method = "manual"
             is_manual = True
         else:
             db_clean_keys = set(self.excel_db["Cabinet_Clean"].tolist())
             for file_path in progress.tqdm(files, desc="Поиск номера шкафа"):
+                raw_text = self.extract_text(file_path)
+                # --- ПОИСК ПО НОМЕРУ (2 ШАБЛОНА) ---
+                pdf_numbers = self.find_all_decimal_numbers(raw_text)
                 for cand in pdf_numbers:
                     if cand in db_clean_keys:
                         detected_cabinet = cand
                         found_by_method = "number"
+                        break
                 if found_by_method == "number":
+                    print(f"✅ Шкаф найден по номеру: {detected_cabinet}")
                     break
+                # --- ПОИСК ПО ИМЕНИ (УЛУЧШЕННЫЙ) ---
+                # Убираем переносы строк, чтобы "Шкаф\nСАУ" стало "Шкаф САУ"
+                flat_text = raw_text.replace("\n", " ").replace("  ", " ").lower()
+                unique_cabinets = self.excel_db["Cabinet"].unique()
+                for cab_name in unique_cabinets:
+                    # Ищем только если это похоже на название, а не на код
+                    if "ЛДАР" in cab_name or "РЛТ" in cab_name: continue
+                    # Проверяем точное вхождение названия
+                    clean_name = cab_name.lower().strip()
+                    if len(clean_name) > 5 and clean_name in flat_text:
+                        detected_cabinet = cab_name
+                        found_by_method = "name"
+                        print(f"✅ Шкаф найден по имени: {cab_name}")
+                        break
+                if found_by_method == "name":
+                    break
         print(f"Определен шкаф: {detected_cabinet}")
         if detected_cabinet == "Не определен":
         form = c.acroForm
         width, height = A4
         font_name = 'Helvetica'
         local_font = "arial.ttf"
         gr.Markdown("## ✅ Генератор чек-листов КД")
         with gr.Row():
             with gr.Column(scale=1):
                 gr.Markdown("### 1. База знаний")
                 db_in = gr.File(label="Excel (.xlsx)", type="filepath", elem_classes="compact_file")
                 with gr.Group():
+                    gr.Markdown("#### Ручной выбор:")
+                    author_dd = gr.Dropdown(label="1. Автор", choices=[], interactive=True)
+                    cabinet_dd = gr.Dropdown(label="2. Шкаф", choices=[], interactive=True)
                     db_out = gr.Textbox(label="Статус базы", lines=2, max_lines=3, interactive=False)
                 db_in.upload(checker.load_excel_db, inputs=[db_in], outputs=[db_out, author_dd, cabinet_dd])
                 author_dd.change(checker.get_cabinets_by_author, inputs=[author_dd], outputs=[cabinet_dd])
             with gr.Column(scale=1):
                 gr.Markdown("### 2. Документация")
                 files_in = gr.File(label="Чертежи (PDF)", file_count="multiple", type="filepath", elem_classes="compact_file")