Spaces:

Ed5
/

Checklist-Generator

Sleeping

App Files Files Community

Ed5 commited on 20 days ago

Commit

4512ed0

verified ·

1 Parent(s): 9a5caff

Update app.py

Browse files

Files changed (1) hide show

app.py +65 -60

app.py CHANGED Viewed

@@ -11,10 +11,6 @@ from reportlab.pdfbase import pdfmetrics
 from reportlab.pdfbase.ttfonts import TTFont
 from reportlab.lib import colors
-# --- ОТЛАДОЧНАЯ ПЕЧАТЬ ---
-def debug_log(message):
-    print(f"[{datetime.now().strftime('%H:%M:%S')}] {message}")
 class KDChecker:
     def __init__(self):
         self.excel_db = pd.DataFrame()
@@ -22,7 +18,6 @@ class KDChecker:
         self.known_docs = ["Э3", "В4", "ПЭ3", "ВО", "ТЭ5", "СБ", "С5", "ОЛ", "Э1", "Э4", "Э7", "Д3", "Э6"]
     def load_excel_db(self, excel_path):
-        debug_log(f"Начало загрузки Excel: {excel_path}")
         if excel_path is None:
             return "Файл не выбран", gr.update(choices=[], value=None)
@@ -30,8 +25,8 @@ class KDChecker:
         sheets_log = []
         try:
-            xls = pd.read_excel(excel_path, sheet_name=None, header=None)
-            debug_log(f"Excel прочитан, листов: {len(xls)}")
             for sheet_name, df_raw in xls.items():
                 header_row_index = -1
@@ -52,7 +47,7 @@ class KDChecker:
                         break
                 if header_row_index != -1:
-                    df = pd.read_excel(excel_path, sheet_name=sheet_name, header=header_row_index)
                     df_subset = df.iloc[:, [cab_col_idx, rem_col_idx]]
                     df_subset.columns = ["Cabinet", "Remark"]
@@ -69,19 +64,17 @@ class KDChecker:
                     sheets_log.append(f"Лист '{sheet_name}': заголовки не найдены")
             if not all_data:
-                debug_log("Ошибка: данные не найдены")
                 return "❌ Ошибка: Не найдены заголовки 'Шкаф' и 'Примечание'.", gr.update(choices=[], value=None)
             self.excel_db = pd.concat(all_data, ignore_index=True)
             self.cabinet_list = sorted(self.excel_db["Cabinet"].unique().tolist())
-            debug_log(f"Успех. Всего строк: {len(self.excel_db)}")
             msg = f"✅ База знаний загружена успешно!\nВсего записей: {len(self.excel_db)}\nОбработаны листы: {', '.join(sheets_log)}"
             return msg, gr.update(choices=self.cabinet_list, value=None, interactive=True)
         except Exception as e:
-            debug_log(f"Exception Excel: {e}")
-            return f"❌ Ошибка чтения Excel: {e}", gr.update(choices=[], value=None)
     def extract_text(self, pdf_path):
         try:
@@ -90,8 +83,7 @@ class KDChecker:
                 for page in pdf.pages:
                     full_text += (page.extract_text() or "") + "\n"
             return full_text
-        except Exception as e:
-            debug_log(f"Ошибка чтения PDF {pdf_path}: {e}")
             return ""
     def find_all_decimal_numbers(self, text):
@@ -122,6 +114,7 @@ class KDChecker:
     def get_remarks(self, cabinet_key, is_clean_key=True):
         if self.excel_db.empty: return {}
         if is_clean_key:
             target = cabinet_key.replace(" ", "")
             mask = self.excel_db['Cabinet_Clean'].str.contains(re.escape(target), case=False, na=False)
@@ -130,35 +123,46 @@ class KDChecker:
         rows = self.excel_db[mask]
         if rows.empty: return {}
         parsed = {}
         for remark_cell in rows['Remark']:
             cell_text = str(remark_cell)
             cell_text = re.sub(r'(\d+)\.([А-ЯA-Z])', r'\1. \2', cell_text)
             items = re.split(r'(?:^|\n)\s*(?=\d+[\.\)])', cell_text)
             for item in items:
                 if len(item) < 3: continue
                 clean_item = item.strip()
                 clean_item_no_num = re.sub(r'^\d+[\.\)]\s*', '', clean_item)
                 doc_pattern = r'^(?:Документ\s+|В\s+)?([А-ЯA-Z0-9\s,\(\)\-]+?)(?:[\.\:\-]|\s+)(.*)'
                 match = re.match(doc_pattern, clean_item_no_num, re.IGNORECASE | re.DOTALL)
                 detected_docs = []
                 final_text = clean_item
                 if match:
                     potential_docs_str = match.group(1).upper()
                     cleaned_codes = potential_docs_str.replace("(", " ").replace(")", " ").replace(",", " ")
                     parts = cleaned_codes.split()
                     valid_parts = [p for p in parts if p in self.known_docs]
                     if valid_parts:
                         detected_docs = valid_parts
                         final_text = match.group(2).strip()
-                if not detected_docs: detected_docs = ["ALL"]
                 for doc in detected_docs:
                     if doc not in parsed: parsed[doc] = []
                     parsed[doc].append(final_text)
         return parsed
     def check_files(self, files, manual_cabinet):
-        debug_log("Начало проверки файлов")
         if not files: return "Файлы не загружены", None
         if self.excel_db.empty: return "Сначала загрузите Excel базу!", None
@@ -171,13 +175,10 @@ class KDChecker:
             detected_cabinet = manual_cabinet
             found_by_method = "manual"
             is_manual = True
-            debug_log(f"Выбран ручной шкаф: {detected_cabinet}")
         else:
             all_pdf_text = ""
             for file_path in files:
                 all_pdf_text += self.extract_text(file_path) + "\n"
-            debug_log(f"Текст извлечен, длина: {len(all_pdf_text)}")
             pdf_numbers = self.find_all_decimal_numbers(all_pdf_text)
             db_clean_keys = set(self.excel_db["Cabinet_Clean"].tolist())
@@ -187,7 +188,7 @@ class KDChecker:
                     detected_cabinet = cand
                     found_by_method = "number"
                     break
             if detected_cabinet == "Не определен":
                 unique_cabinets = self.excel_db["Cabinet"].unique()
                 for cab_name in unique_cabinets:
@@ -213,9 +214,11 @@ class KDChecker:
         for file_path in files:
             fname = os.path.basename(file_path)
             dtype = self.determine_doc_type(fname)
             tasks = []
             if dtype in remarks: tasks.extend(remarks[dtype])
             if "ALL" in remarks and dtype != "С2": tasks.extend(remarks["ALL"])
             if tasks:
                 checklist[fname] = list(dict.fromkeys(tasks))
             processed_count += 1
@@ -223,16 +226,15 @@ class KDChecker:
         pdf_title = detected_cabinet
         if is_manual: pdf_title += " (Выбор вручную)"
-        debug_log("Формирование PDF...")
         try:
             pdf = self.create_pdf(pdf_title, checklist)
-            debug_log("PDF успешно создан")
         except Exception as e:
-            debug_log(f"ОШИБКА создания PDF: {e}")
-            return f"❌ Ошибка создания PDF (возможно, нет шрифта arial.ttf?): {e}", None
         total = sum(len(v) for v in checklist.values())
-        method_str = "Ручной выбор" if is_manual else ("По децимальному номеру" if is_clean_search else "По наименованию")
         return f"✅ Готово!\n\n📂 Шкаф: {detected_cabinet}\n🔍 Метод: {method_str}\n📄 Обработано файлов: {processed_count}\n🚩 Всего замечаний: {total}", pdf
@@ -243,50 +245,41 @@ class KDChecker:
         form = c.acroForm
         width, height = A4
-        # --- ПОИСК ШРИФТА ---
-        font_name = 'Helvetica' # По умолчанию (но не умеет кириллицу)
-        font_path = "arial.ttf" # Ищем в текущей папке
         if os.path.exists(font_path):
             try:
                 pdfmetrics.registerFont(TTFont('Arial', font_path))
                 font_name = 'Arial'
-            except Exception as e:
-                debug_log(f"Ошибка регистрации шрифта: {e}")
-        else:
-            debug_log("⚠️ Файл arial.ttf не найден! Кирилица может сломаться.")
-            # Попытаемся найти системный, если локального нет (на HF не сработает, но для локалки полезно)
-            possible_paths = ["/usr/share/fonts/truetype/msttcorefonts/Arial.ttf"]
-            for p in possible_paths:
-                if os.path.exists(p):
-                    try:
-                        pdfmetrics.registerFont(TTFont('Arial', p))
-                        font_name = 'Arial'
-                        break
-                    except: continue
         y = height - 50
-        # Если шрифт не Arial, кириллица вызовет ошибку. Пробуем перехватить.
         try:
-            c.setFont(font_name, 16)
             c.drawString(50, y, f"ЧЕК-ЛИСТ ПРОВЕРКИ КД")
         except:
-            # Если упало на кириллице, пишем транслитом
-            c.setFont("Helvetica", 16)
-            c.drawString(50, y, "CHECK-LIST PROVERKI KD (Font Missing)")
         y -= 25
         c.setFont(font_name, 12)
         disp_cab = cabinet[:60] + "..." if len(cabinet) > 60 else cabinet
-        # Безопасный вывод текста
         try:
             c.drawString(50, y, f"Шкаф: {disp_cab}")
         except:
-            c.setFont("Helvetica", 12)
-            c.drawString(50, y, f"Cabinet: {disp_cab} (Cyrillic Error)")
-            c.setFont(font_name, 12) # Возвращаем
         c.drawString(400, y, f"Дата: {datetime.now().strftime('%d.%m.%Y')}")
         y -= 20
@@ -307,9 +300,9 @@ class KDChecker:
             try:
                 c.drawString(50, y, f"Файл: {filename}")
             except:
-                c.setFont("Helvetica", 11)
-                c.drawString(50, y, f"File: {filename}")
-                c.setFont(font_name, 11)
             c.setFillColor(colors.black)
             y -= 15
@@ -317,12 +310,16 @@ class KDChecker:
             for task in tasks:
                 paragraphs = task.split('\n')
                 if y < 80:
-                    c.showPage(); y = height - 50; c.setFont(font_name, 10)
                 c.rect(50, y - 10, 10, 10)
                 form.checkbox(name=f"cb_{cb_id}", x=50, y=y - 10, size=10, buttonStyle='check', forceBorder=True)
                 cb_id += 1
                 text_start_y = y - 2
                 for paragraph in paragraphs:
@@ -339,15 +336,20 @@ class KDChecker:
                     for l in lines:
                         if text_start_y < 40:
-                            c.showPage(); text_start_y = height - 50; c.setFont(font_name, 10)
                         try:
                             c.drawString(65, text_start_y, l.strip())
                         except:
-                             c.setFont("Helvetica", 10)
-                             c.drawString(65, text_start_y, "Error printing line (font missing)")
-                             c.setFont(font_name, 10)
                         text_start_y -= 12
                 y = text_start_y - 8
             y -= 10
             c.setStrokeColor(colors.lightgrey)
             c.line(50, y, width - 50, y)
@@ -357,6 +359,7 @@ class KDChecker:
         c.save()
         return path
 def create_app():
     checker = KDChecker()
     with gr.Blocks(title="Генератор чек-листов КД") as app:
@@ -366,15 +369,16 @@ def create_app():
         with gr.Row():
             with gr.Column():
                 gr.Markdown("### 1. База знаний")
-                # type="filepath" чтобы не зависало
                 db_in = gr.File(label="Загрузить Excel (.xlsx)", type="filepath")
                 manual_cab = gr.Dropdown(label="Или выберите шкаф-аналог вручную", choices=[], interactive=True)
                 db_out = gr.Textbox(label="Статус загрузки", lines=8, max_lines=30)
                 db_in.upload(checker.load_excel_db, inputs=[db_in], outputs=[db_out, manual_cab])
             with gr.Column():
                 gr.Markdown("### 2. Документация (PDF)")
-                # type="filepath" чтобы не зависало
                 files_in = gr.File(label="Загрузить чертежи", file_count="multiple", type="filepath")
                 btn = gr.Button("Сформировать чек-лист", variant="primary")
@@ -385,6 +389,7 @@ def create_app():
         btn.click(checker.check_files, inputs=[files_in, manual_cab], outputs=[res_txt, res_pdf])
     return app
 app = create_app()
 if __name__ == "__main__":

 from reportlab.pdfbase.ttfonts import TTFont
 from reportlab.lib import colors
 class KDChecker:
     def __init__(self):
         self.excel_db = pd.DataFrame()
         self.known_docs = ["Э3", "В4", "ПЭ3", "ВО", "ТЭ5", "СБ", "С5", "ОЛ", "Э1", "Э4", "Э7", "Д3", "Э6"]
     def load_excel_db(self, excel_path):
         if excel_path is None:
             return "Файл не выбран", gr.update(choices=[], value=None)
         sheets_log = []
         try:
+            # --- ПРАВКА ДЛЯ СЕРВЕРА: явно указываем движок openpyxl ---
+            xls = pd.read_excel(excel_path, sheet_name=None, header=None, engine='openpyxl')
             for sheet_name, df_raw in xls.items():
                 header_row_index = -1
                         break
                 if header_row_index != -1:
+                    df = pd.read_excel(excel_path, sheet_name=sheet_name, header=header_row_index, engine='openpyxl')
                     df_subset = df.iloc[:, [cab_col_idx, rem_col_idx]]
                     df_subset.columns = ["Cabinet", "Remark"]
                     sheets_log.append(f"Лист '{sheet_name}': заголовки не найдены")
             if not all_data:
                 return "❌ Ошибка: Не найдены заголовки 'Шкаф' и 'Примечание'.", gr.update(choices=[], value=None)
             self.excel_db = pd.concat(all_data, ignore_index=True)
             self.cabinet_list = sorted(self.excel_db["Cabinet"].unique().tolist())
             msg = f"✅ База знаний загружена успешно!\nВсего записей: {len(self.excel_db)}\nОбработаны листы: {', '.join(sheets_log)}"
             return msg, gr.update(choices=self.cabinet_list, value=None, interactive=True)
         except Exception as e:
+            # Выводим ошибку прямо в интерфейс
+            return f"❌ КРИТИЧЕСКАЯ ОШИБКА EXCEL: {str(e)}", gr.update(choices=[], value=None)
     def extract_text(self, pdf_path):
         try:
                 for page in pdf.pages:
                     full_text += (page.extract_text() or "") + "\n"
             return full_text
+        except:
             return ""
     def find_all_decimal_numbers(self, text):
     def get_remarks(self, cabinet_key, is_clean_key=True):
         if self.excel_db.empty: return {}
         if is_clean_key:
             target = cabinet_key.replace(" ", "")
             mask = self.excel_db['Cabinet_Clean'].str.contains(re.escape(target), case=False, na=False)
         rows = self.excel_db[mask]
         if rows.empty: return {}
         parsed = {}
         for remark_cell in rows['Remark']:
             cell_text = str(remark_cell)
             cell_text = re.sub(r'(\d+)\.([А-ЯA-Z])', r'\1. \2', cell_text)
             items = re.split(r'(?:^|\n)\s*(?=\d+[\.\)])', cell_text)
             for item in items:
                 if len(item) < 3: continue
                 clean_item = item.strip()
                 clean_item_no_num = re.sub(r'^\d+[\.\)]\s*', '', clean_item)
                 doc_pattern = r'^(?:Документ\s+|В\s+)?([А-ЯA-Z0-9\s,\(\)\-]+?)(?:[\.\:\-]|\s+)(.*)'
                 match = re.match(doc_pattern, clean_item_no_num, re.IGNORECASE | re.DOTALL)
                 detected_docs = []
                 final_text = clean_item
                 if match:
                     potential_docs_str = match.group(1).upper()
                     cleaned_codes = potential_docs_str.replace("(", " ").replace(")", " ").replace(",", " ")
                     parts = cleaned_codes.split()
                     valid_parts = [p for p in parts if p in self.known_docs]
                     if valid_parts:
                         detected_docs = valid_parts
                         final_text = match.group(2).strip()
+                if not detected_docs:
+                    detected_docs = ["ALL"]
                 for doc in detected_docs:
                     if doc not in parsed: parsed[doc] = []
                     parsed[doc].append(final_text)
         return parsed
     def check_files(self, files, manual_cabinet):
         if not files: return "Файлы не загружены", None
         if self.excel_db.empty: return "Сначала загрузите Excel базу!", None
             detected_cabinet = manual_cabinet
             found_by_method = "manual"
             is_manual = True
         else:
             all_pdf_text = ""
             for file_path in files:
                 all_pdf_text += self.extract_text(file_path) + "\n"
             pdf_numbers = self.find_all_decimal_numbers(all_pdf_text)
             db_clean_keys = set(self.excel_db["Cabinet_Clean"].tolist())
                     detected_cabinet = cand
                     found_by_method = "number"
                     break
             if detected_cabinet == "Не определен":
                 unique_cabinets = self.excel_db["Cabinet"].unique()
                 for cab_name in unique_cabinets:
         for file_path in files:
             fname = os.path.basename(file_path)
             dtype = self.determine_doc_type(fname)
             tasks = []
             if dtype in remarks: tasks.extend(remarks[dtype])
             if "ALL" in remarks and dtype != "С2": tasks.extend(remarks["ALL"])
             if tasks:
                 checklist[fname] = list(dict.fromkeys(tasks))
             processed_count += 1
         pdf_title = detected_cabinet
         if is_manual: pdf_title += " (Выбор вручную)"
+        # --- ВАЖНО: Проверка создания PDF ---
         try:
             pdf = self.create_pdf(pdf_title, checklist)
         except Exception as e:
+            return f"❌ Ошибка создания PDF: {e}\n(Возможно, не загружен шрифт arial.ttf?)", None
         total = sum(len(v) for v in checklist.values())
+        method_str = "Ручной выбор" if is_manual else (
+            "По децимальному номеру" if is_clean_search else "По наименованию")
         return f"✅ Готово!\n\n📂 Шкаф: {detected_cabinet}\n🔍 Метод: {method_str}\n📄 Обработано файлов: {processed_count}\n🚩 Всего замечаний: {total}", pdf
         form = c.acroForm
         width, height = A4
+        # --- ПОИСК ШРИФТА ДЛЯ СЕРВЕРА ---
+        font_name = 'Helvetica'
+        font_path = "arial.ttf"  # Файл должен лежать в Files на Hugging Face
         if os.path.exists(font_path):
             try:
                 pdfmetrics.registerFont(TTFont('Arial', font_path))
                 font_name = 'Arial'
+            except:
+                pass
+        # Если шрифт не найден, но мы на сервере - это проблема.
+        # Код попытается использовать Helvetica, но кириллица пропадет.
         y = height - 50
+        c.setFont(font_name, 16)
+        # Защита от ошибок кодировки при отсутствии шрифта
         try:
             c.drawString(50, y, f"ЧЕК-ЛИСТ ПРОВЕРКИ КД")
         except:
+             c.setFont("Helvetica", 16)
+             c.drawString(50, y, "CHECK-LIST (Font Error)")
+             c.setFont(font_name, 16)
         y -= 25
         c.setFont(font_name, 12)
         disp_cab = cabinet[:60] + "..." if len(cabinet) > 60 else cabinet
         try:
             c.drawString(50, y, f"Шкаф: {disp_cab}")
         except:
+             c.setFont("Helvetica", 12)
+             c.drawString(50, y, "Cabinet: (Name Error)")
+             c.setFont(font_name, 12)
         c.drawString(400, y, f"Дата: {datetime.now().strftime('%d.%m.%Y')}")
         y -= 20
             try:
                 c.drawString(50, y, f"Файл: {filename}")
             except:
+                 c.setFont("Helvetica", 11)
+                 c.drawString(50, y, f"File: {filename}")
+                 c.setFont(font_name, 11)
             c.setFillColor(colors.black)
             y -= 15
             for task in tasks:
                 paragraphs = task.split('\n')
                 if y < 80:
+                    c.showPage();
+                    y = height - 50;
+                    c.setFont(font_name, 10)
                 c.rect(50, y - 10, 10, 10)
                 form.checkbox(name=f"cb_{cb_id}", x=50, y=y - 10, size=10, buttonStyle='check', forceBorder=True)
                 cb_id += 1
                 text_start_y = y - 2
                 for paragraph in paragraphs:
                     for l in lines:
                         if text_start_y < 40:
+                            c.showPage();
+                            text_start_y = height - 50;
+                            c.setFont(font_name, 10)
                         try:
                             c.drawString(65, text_start_y, l.strip())
                         except:
+                            # Игнорируем строки, которые нельзя напечатать без шрифта
+                            pass
                         text_start_y -= 12
                 y = text_start_y - 8
             y -= 10
             c.setStrokeColor(colors.lightgrey)
             c.line(50, y, width - 50, y)
         c.save()
         return path
 def create_app():
     checker = KDChecker()
     with gr.Blocks(title="Генератор чек-листов КД") as app:
         with gr.Row():
             with gr.Column():
                 gr.Markdown("### 1. База знаний")
+                # type="filepath" ОБЯЗАТЕЛЬНО ДЛЯ СЕРВЕРА
                 db_in = gr.File(label="Загрузить Excel (.xlsx)", type="filepath")
                 manual_cab = gr.Dropdown(label="Или выберите шкаф-аналог вручную", choices=[], interactive=True)
                 db_out = gr.Textbox(label="Статус загрузки", lines=8, max_lines=30)
                 db_in.upload(checker.load_excel_db, inputs=[db_in], outputs=[db_out, manual_cab])
             with gr.Column():
                 gr.Markdown("### 2. Документация (PDF)")
+                # type="filepath" ОБЯЗАТЕЛЬНО ДЛЯ СЕРВЕРА
                 files_in = gr.File(label="Загрузить чертежи", file_count="multiple", type="filepath")
                 btn = gr.Button("Сформировать чек-лист", variant="primary")
         btn.click(checker.check_files, inputs=[files_in, manual_cab], outputs=[res_txt, res_pdf])
     return app
 app = create_app()
 if __name__ == "__main__":