Spaces:

Gabriel00A
/

purchase-report

Paused

App Files Files Community

Gabriel00A commited on Sep 5, 2025

Commit

d612fd0

verified ·

1 Parent(s): ffa044a

Update process_report.py

Browse files

Files changed (1) hide show

process_report.py +354 -95

process_report.py CHANGED Viewed

@@ -1,48 +1,130 @@
 #!/usr/bin/env python3
 """
 process_report.py
-采购执行表 → 邮件通知
 """
 import pandas as pd
-import datetime as dt
-from pathlib import Path
-def _find_header_row(path: str) -> int:
-    """
-    找到 Excel 中的表头行（假设含“物料名称”那一行就是表头）。
-    """
-    for i in range(5):
-        row = pd.read_excel(path, header=i, nrows=1)
-        if "物料名称" in row.columns:
-            return i
-    return 0
 def _normalize_columns(df: pd.DataFrame) -> pd.DataFrame:
     """
-    列名统一化
     """
-    rename_map = {
-        "物料名称": "物料名称",
-        "需求日期": "需求日期",
-        "请购日期": "请购日期",
-        "计划到货日期": "计划到货日期",
-        "到货日期": "到货日期",
-        "入库日期": "入库日期",
-        "主数量": "主数量",
-        "到货主数量": "到货主数量",
-        "入库主数量": "入库主数量",
-    }
-    df = df.rename(columns=lambda x: str(x).strip())
-    df = df.rename(columns=rename_map)
     return df
 def read_system_export(path: str) -> pd.DataFrame:
     """
-    读取“系统导出格式”Excel，并做清洗。
     """
     header_row = _find_header_row(path)
     try:
@@ -52,96 +134,273 @@ def read_system_export(path: str) -> pd.DataFrame:
     # 丢掉全空列
     df = df.dropna(axis=1, how="all")
-    # 列名统一
     df = _normalize_columns(df)
     # 转日期
-    for c in ["请购日期", "需求日期", "到货日期", "入库日期", "计划到货日期"]:
         if c in df.columns:
             df[c] = pd.to_datetime(df[c], errors="coerce")
     # 转数字
-    for c in ["主数量", "到货主数量", "入库主数量"]:
         if c in df.columns:
             df[c] = pd.to_numeric(df[c], errors="coerce").fillna(0)
     # 去掉全空行
     df = df.dropna(how="all")
-    # ========= 新增过滤逻辑 =========
-    if "物料名称" in df.columns:
-        mask_remove = df["物料名称"].str.contains("鹅|鸭|华住", na=False)
-        mask_keep = df["物料名称"].str.contains("华住专用", na=False)
-        df = df[~mask_remove | mask_keep]
-    # ===============================
-    return df
-def analyze_report(df: pd.DataFrame) -> pd.DataFrame:
     """
-    根据需求，计算“目前进度”一列。
     """
-    today = dt.datetime.now().date()
-    # 汇总数量
-    grouped = df.groupby("物料名称", as_index=False).agg({
-        "主数量": "sum",
-        "到货主数量": "sum",
-        "入库主数量": "sum",
-        "需求日期": "max",
-        "到货日期": "max",
-    })
-    def calc_progress(row):
-        demand = row["主数量"]
-        received = row["到货主数量"]
-        due_date = row["需求日期"]
-        arrival_date = row["到货日期"]
-        if received >= demand and demand > 0:
-            return "完全到货"
-        # 部分到货
-        if 0 < received < demand:
-            missing = demand - received
-            return f"部分到货，缺 {missing:.0f} 米"
-        # 未到货
-        if received == 0:
-            if pd.isna(due_date):
-                return "未到货"
-            days_diff = (today - due_date.date()).days
-            if days_diff > 0:
-                return f"逾期 {days_diff} 天未到货"
-            elif 0 <= (due_date.date() - today).days <= 7:
-                return "未来7天要到货"
-            else:
-                return "未到货"
-        return "未到货"
-    grouped["目前进度"] = grouped.apply(calc_progress, axis=1)
-    return grouped
-def save_to_excel(df: pd.DataFrame, out_path: str):
     """
-    结果保存到 Excel
     """
-    Path(out_path).parent.mkdir(parents=True, exist_ok=True)
-    df.to_excel(out_path, index=False)
-def main():
-    src = "系统导出格式.xlsx"
-    out = "输出结果.xlsx"
-    df = read_system_export(src)
-    result = analyze_report(df)
-    save_to_excel(result, out)
-    print(f"已生成：{out}")
 if __name__ == "__main__":
-    main()

 #!/usr/bin/env python3
+# -*- coding: utf-8 -*-
 """
 process_report.py
+读取最新或指定的“系统导出格式”Excel，按业务口径聚合为“邮件发送的格式”，
+在“目前进度”列写入：
+  - 完全到货
+  - 部分到货 缺货X米（X=主数量-到货主数量汇总）
+  - 未到货（含逾期天数）
+  - 未来7天到货（依据 计划到货日期）
+并通过 Resend 发送邮件（HTML表格 + Excel附件）。
+环境变量（Hugging Face → Settings → Variables and secrets → Repository secrets）：
+  RESEND_API_KEY  : Resend 的 API Key（必须）
+  FROM_EMAIL      : 发件人，例如 "采购机器人 <bot@your-domain.com>"（必须）
+  TO_EMAIL        : 收件人，例如 "you@your-company.com"（必须）
+  INPUT_DIR       : 输入目录（默认 /tmp/uploads）
+  OUTPUT_DIR      : 输出目录（默认 /tmp/outputs）
+  TZ              : 时区（默认 Asia/Shanghai）
+使用方式：
+  1) 上传文件到 INPUT_DIR 后，调用 main(trigger_file=该文件路径)
+  2) 或命令行：python process_report.py [可选:具体文件路径]
 """
+import os
+import sys
+import glob
+import json
+import base64
+from io import BytesIO
+from typing import Optional, Tuple, List
+from datetime import datetime, date, timedelta
 import pandas as pd
+import requests
+# ====== 目录 & 环境 ======
+INPUT_DIR = os.environ.get("INPUT_DIR", "/tmp/uploads")
+OUTPUT_DIR = os.environ.get("OUTPUT_DIR", "/tmp/outputs")
+os.makedirs(INPUT_DIR, exist_ok=True)
+os.makedirs(OUTPUT_DIR, exist_ok=True)
+RESEND_API_KEY = os.environ.get("RESEND_API_KEY")
+FROM_EMAIL = os.environ.get("FROM_EMAIL")
+TO_EMAIL = os.environ.get("TO_EMAIL")
+TIMEZONE = os.environ.get("TZ", "Asia/Shanghai")
+# ====== 业务相关字段（尽量兼容括号全角/半角差异）======
+# 一些系统表可能列名略有差异，这里做一个“同义列名”匹配表
+ALIASES = {
+    "请购日期": ["请购日期", "请购日", "申请日期"],
+    "请购单号": ["请购单号", "请购单编号", "申请单号"],
+    "物料编码": ["物料编码", "物料号", "物料代码"],
+    "物料名称": ["物料名称", "品名", "名称"],
+    "纱支密度": ["纱支密度", "纱支/密度", "纱支 密度"],
+    "门幅（CM)": ["门幅（CM)", "门幅(CM)", "门幅cm", "门幅"],
+    "颜色": ["颜色", "色号/颜色", "色号"],
+    "主单位": ["主单位", "单位"],
+    "主数量": ["主数量", "数量", "请购数量"],
+    "需求日期": ["需求日期", "需求日", "交期", "要求到货日期"],
+    "供应商": ["供应商", "供货商", "供应商名称"],
+    "到货日期": ["到货日期", "实到日期", "收货日期"],
+    "到货主数量": ["到货主数量", "到货数量", "实到数量"],
+    "入库日期": ["入库日期", "入库日"],
+    "入库主数量": ["入库主数量", "入库数量"],
+    "计划到货日期": ["计划到货日期", "预计到货日期", "承诺到货日期", "计划到货日"],
+}
+# “邮件发送的格式”列顺序，如果检测到模板文件，会按模板优先排序
+EMAIL_COLS_DEFAULT = [
+    "请购日期","请购单号","物料编码","物料名称","纱支密度","门幅（CM)","颜色","主单位",
+    "主数量","需求日期","供应商","到货日期","到货主数量","入库日期","入库主数量","目前进度"
+]
+TEMPLATE_CANDIDATES = [
+    # 若你把模板Excel放进仓库根目录或 templates 目录，可被自动识别
+    "/workspace/邮件发送的格式.xlsx",
+    "/workspace/templates/邮件发送的格式.xlsx",
+    "/app/邮件发送的格式.xlsx",
+    "/app/templates/邮件发送的格式.xlsx",
+]
+# ====== 工具函数 ======
+def _today() -> date:
+    # 用本地系统日期即可（Space容器时区一般是UTC；你可在 Space 里设 TZ 环境变量 + tzdata 以保证正确）
+    return datetime.now().date()
 def _normalize_columns(df: pd.DataFrame) -> pd.DataFrame:
     """
+    将 DataFrame 的列名映射到标准中文名（按 ALIASES）。
+    例如：'门幅(CM)' -> '门幅（CM)'
     """
+    mapped = {}
+    for std_name, variants in ALIASES.items():
+        for v in df.columns:
+            v_clean = str(v).strip()
+            if v_clean in variants:
+                mapped[v] = std_name
+                break
+    df = df.rename(columns=mapped)
     return df
+def _find_header_row(path: str, must_have: List[str] = None, try_rows: int = 10) -> int:
+    """
+    尝试在前 try_rows 行中找到包含关键列（如“物料编码”、“主数量”）的表头行。
+    找不到则返回 0。
+    """
+    must_have = must_have or ["物料编码", "主数量"]
+    for r in range(try_rows):
+        try:
+            df_try = pd.read_excel(path, header=r, nrows=1)
+        except Exception:
+            continue
+        cols = [str(c).strip() for c in df_try.columns]
+        if all(any(m in c for c in cols) or m in cols for m in must_have):
+            return r
+    return 0
 def read_system_export(path: str) -> pd.DataFrame:
     """
+    读取“系统导出格式”Excel，并做列名标准化、空列丢弃、日期/数字类型转换。
     """
     header_row = _find_header_row(path)
     try:
     # 丢掉全空列
     df = df.dropna(axis=1, how="all")
+    # 标准化列名
     df = _normalize_columns(df)
     # 转日期
+    for c in ["请购日期","需求日期","到货日期","入库日期","计划到货日期"]:
         if c in df.columns:
             df[c] = pd.to_datetime(df[c], errors="coerce")
     # 转数字
+    for c in ["主数量","到货主数量","入库主数量"]:
         if c in df.columns:
             df[c] = pd.to_numeric(df[c], errors="coerce").fillna(0)
     # 去掉全空行
     df = df.dropna(how="all")
+    return df
+def _first_nonnull(series: pd.Series):
+    for v in series:
+        if pd.notna(v):
+            return v
+    return None
+def aggregate_for_email(df: pd.DataFrame) -> pd.DataFrame:
     """
+    业务汇总规则：
+      - “主数量”不做分类汇总（保留原单的主数量），
+      - “到货主数量”、“入库主数量”需要汇总求和，
+      - “到货日期/入库日期/计划到货日期”取最大（最近），
+      - 分组键：不包含数量列，常用维度如下（尽量稳定，避免将数量/日期放入分组键）：
+        请购单号、物料编码、物料名称、纱支密度、门幅（CM)、颜色、主单位、供应商
+      - “请购日期/需求日期”保留“首个非空”
     """
+    group_keys = [k for k in [
+        "请购单号","物料编码","物料名称","纱支密度","门幅（CM)","颜色","主单位","供应商"
+    ] if k in df.columns]
+    if not group_keys:
+        raise RuntimeError("找不到用于分组的关键字段（如 请购单号/物料编码 等），请检查导入的表头。")
+    agg_map = {}
+    # 不汇总主数量：取首个非空（假设同一分组合并后主数量一致）
+    if "主数量" in df.columns:
+        agg_map["主数量"] = _first_nonnull
+    # 日期字段
+    if "请购日期" in df.columns:
+        agg_map["请购日期"] = _first_nonnull
+    if "需求日期" in df.columns:
+        agg_map["需求日期"] = _first_nonnull
+    if "到货日期" in df.columns:
+        agg_map["到货日期"] = "max"
+    if "入库日期" in df.columns:
+        agg_map["入库日期"] = "max"
+    if "计划到货日期" in df.columns:
+        agg_map["计划到货日期"] = "max"
+    # 数量汇总
+    if "到货主数量" in df.columns:
+        agg_map["到货主数量"] = "sum"
+    if "入库主数量" in df.columns:
+        agg_map["入库主数量"] = "sum"
+    grouped = df.groupby(group_keys, dropna=False).agg(agg_map).reset_index()
+    # 计算 “目前进度”
+    grouped["目前进度"] = grouped.apply(_calc_progress_row, axis=1)
+    # 最终列顺序：优先按模板，其次按默认顺序
+    final = _order_like_template(grouped)
+    return final
+def _calc_progress_row(row: pd.Series) -> str:
     """
+    目前进度的业务口径：
+      1) 到货主数量 ≥ 主数量 => “完全到货”
+      2) 否则：
+         - 若到货主数量 > 0 => “部分到货 缺货X米”
+         - 若到货主数量 == 0 且到货日期为空 => “未到货”
+         - 逾期：需求日期存在且 today > 需求日期，追加 “已逾期Y天”
+         - 未来7天到货：计划到货日期在 [today, today+7] 区间，追加 “未来7天到货（计划YYYY-MM-DD）”
     """
+    today = pd.Timestamp(_today())
+    main_qty = float(row.get("主数量", 0) or 0)
+    arr_qty = float(row.get("到货主数量", 0) or 0)
+    demand_date = row.get("需求日期", pd.NaT)
+    arrival_date = row.get("到货日期", pd.NaT)
+    plan_arrival = row.get("计划到货日期", pd.NaT)
+    # 完全到货
+    if main_qty > 0 and arr_qty >= main_qty:
+        return "完全到货"
+    parts: List[str] = []
+    # 部分/未到
+    shortage = max(0.0, main_qty - arr_qty)
+    if arr_qty > 0:
+        parts.append(f"部分到货 缺货{shortage:g}米")
+    else:
+        # 到货日期为空或数量为0都视为未到货
+        if pd.isna(arrival_date) or arr_qty == 0:
+            parts.append("未到货")
+    # 逾期天数
+    if (pd.isna(arrival_date) or arr_qty < main_qty) and pd.notna(demand_date):
+        overdue_days = (today - pd.Timestamp(demand_date.date())).days
+        if overdue_days > 0:
+            parts.append(f"已逾期{overdue_days}天")
+    # 未来7天到货（计划）
+    if pd.notna(plan_arrival):
+        days_ahead = (pd.Timestamp(plan_arrival.date()) - today).days
+        if 0 <= days_ahead <= 7:
+            parts.append(f"未来7天到货（计划{str(plan_arrival.date())}）")
+    # 如果什么都没有匹配，给一个保底描述
+    if not parts:
+        # 例如：需求未到期且无计划到货
+        if pd.notna(demand_date) and today <= pd.Timestamp(demand_date.date()):
+            return "未到货（未到期）"
+        return "处理中"
+    return "；".join(parts)
+def _order_like_template(df: pd.DataFrame) -> pd.DataFrame:
+    """
+    若能找到“邮件发送的格式.xlsx”，按其表头顺序输出；否则用 EMAIL_COLS_DEFAULT。
+    模板里缺的列会自动从 df 里补；df 有但模板没有的列会追加在后面。
+    """
+    template_cols = None
+    for p in TEMPLATE_CANDIDATES:
+        if os.path.exists(p):
+            try:
+                tdf = pd.read_excel(p, nrows=0)
+                template_cols = list(map(str, tdf.columns))
+                break
+            except Exception:
+                continue
+    if template_cols is None:
+        template_cols = EMAIL_COLS_DEFAULT
+    # 先取交集按顺序
+    front = [c for c in template_cols if c in df.columns]
+    # 再把 df 里其余列追加在后
+    tail = [c for c in df.columns if c not in front]
+    cols = front + tail
+    return df[cols].copy()
+def _find_latest_input(input_dir: str) -> Optional[str]:
+    files = []
+    for pat in ("*.xlsx", "*.xls"):
+        files.extend(glob.glob(os.path.join(input_dir, pat)))
+    if not files:
+        return None
+    files.sort(key=os.path.getmtime, reverse=True)
+    return files[0]
+def _df_to_excel_bytes(df: pd.DataFrame) -> bytes:
+    bio = BytesIO()
+    df.to_excel(bio, index=False)
+    bio.seek(0)
+    return bio.read()
+def _build_html_body(df: pd.DataFrame, title: str) -> str:
+    table_html = df.to_html(index=False, escape=False)
+    html = f"""<html>
+  <head>
+    <meta charset="utf-8" />
+    <style>
+      table {{ border-collapse: collapse; font-size: 13px; }}
+      table, th, td {{ border: 1px solid #ccc; padding: 6px; }}
+      th {{ background:#f6f6f6; }}
+    </style>
+  </head>
+  <body>
+    <h3>{title}</h3>
+    {table_html}
+    <p style="color:#666;">备注：此邮件由自动化系统生成。</p>
+  </body>
+</html>"""
+    return html
+def _send_email_via_resend(subject: str, html_body: str,
+                           attachment_bytes: Optional[bytes],
+                           attachment_name: str) -> Tuple[bool, str]:
+    if not (RESEND_API_KEY and FROM_EMAIL and TO_EMAIL):
+        return False, "缺少 Resend 配置（RESEND_API_KEY / FROM_EMAIL / TO_EMAIL）"
+    url = "https://api.resend.com/emails"
+    headers = {
+        "Authorization": f"Bearer {RESEND_API_KEY}",
+        "Content-Type": "application/json",
+    }
+    payload = {
+        "from": FROM_EMAIL,
+        "to": [TO_EMAIL],
+        "subject": subject,
+        "html": html_body,
+    }
+    if attachment_bytes is not None:
+        payload["attachments"] = [{
+            "filename": attachment_name,
+            "content": base64.b64encode(attachment_bytes).decode("utf-8"),
+        }]
+    resp = requests.post(url, headers=headers, data=json.dumps(payload))
+    if resp.ok:
+        return True, resp.text
+    return False, f"HTTP {resp.status_code}: {resp.text}"
+# ====== 主流程 ======
+def run_once(file_path: Optional[str] = None) -> dict:
+    """
+    单次处理：读入Excel -> 汇总 -> 生成输出 -> 发邮件。
+    返回一个 dict 给上层（便于 app.py 返回给前端）。
+    """
+    if file_path is None:
+        file_path = _find_latest_input(INPUT_DIR)
+        if not file_path:
+            return {"ok": False, "msg": f"未在 {INPUT_DIR} 找到Excel输入文件"}
+    raw = read_system_export(file_path)
+    final = aggregate_for_email(raw)
+    out_name = f"邮件发送的格式_{datetime.now().strftime('%Y%m%d')}.xlsx"
+    out_path = os.path.join(OUTPUT_DIR, out_name)
+    os.makedirs(OUTPUT_DIR, exist_ok=True)
+    final.to_excel(out_path, index=False)
+    subject = f"采购执行表自动推送 {datetime.now().date()}"
+    html = _build_html_body(final, title=f"采购执行表（{datetime.now().date()}）")
+    attach = _df_to_excel_bytes(final)
+    ok, info = _send_email_via_resend(subject, html, attachment_bytes=attach, attachment_name=out_name)
+    return {
+        "ok": ok,
+        "msg": "邮件发送成功" if ok else f"邮件发送失败：{info}",
+        "input": file_path,
+        "output": out_path,
+        "rows": len(final),
+    }
+def main(trigger_file: Optional[str] = None):
+    result = run_once(trigger_file)
+    print(json.dumps(result, ensure_ascii=False, indent=2))
+    # 返回码：成功0，失败1（便于将来做cron/健康检查）
+    if not result.get("ok"):
+        sys.exit(1)
 if __name__ == "__main__":
+    # 允许命令行传入具体文件路径
+    arg_file = sys.argv[1] if len(sys.argv) > 1 else None
+    main(arg_file)