Spaces:

Corin1998
/

3

No application file

App Files Files Community

Corin1998 commited on Aug 20, 2025

Commit

5b82238

verified ·

1 Parent(s): f469bad

Upload 17 files

Browse files

Files changed (17) hide show

FROM python:3.dockerfile +15 -0
app.py +158 -0
benchmark.yaml +2 -0
charts.py +23 -0
core.py +301 -0
hf.yaml +6 -0
llm.py +82 -0
models.py +24 -0
rag.py +55 -0
render.py +35 -0
requirements.txt +17 -0
templates:gir.html.j2 +7 -0
templates:report.html.j2 +1 -6
templates:sasb.html.j2 +12 -0
templates:tcfd.html.j2 +9 -0
templating.py +12 -0
validators.py +55 -0

FROM python:3.dockerfile ADDED Viewed

	@@ -0,0 +1,15 @@

+FROM python:3.11-slim
+RUN apt-get update && apt-get install -y --no-install-recommends \
+    libcairo2 pango1.0-tools libpango-1.0-0 libgdk-pixbuf2.0-0 libffi-dev \
+    fonts-noto fonts-noto-cjk git \
+    && rm -rf /var/lib/apt/lists/*
+WORKDIR /code
+COPY requirements.txt .
+RUN pip install --no-cache-dir -U pip wheel && pip install --no-cache-dir -r requirements.txt
+COPY . .
+ENV GRADIO_SERVER_NAME=0.0.0.0
+EXPOSE 7860
+CMD ["python", "app.py"]

app.py ADDED Viewed

	@@ -0,0 +1,158 @@

+import gradio as gr
+from pathlib import Path
+import tempfile, datetime, json, shutil, os
+from core import generate_report
+from rag import build_or_update_index, answer_with_context
+TITLE = "IR/ESG Report Generator (HF Space, Pro)"
+DESC = "CSV/YAML から IR/ESG レポート（HTML/PDF/DOCX）を生成。LLM要約＋翻訳・グラフ・ベンチマーク・RAG・Hub保存に対応。"
+TEMPLATES_DIR = str((Path(__file__).resolve().parent / "templates").absolute())
+import shutil as _shutil
+def _to_path(upload_obj, tmpdir: Path, filename: str) -> Path:
+    dst = tmpdir / filename
+    if upload_obj is None:
+        raise ValueError(f"{filename} が未指定です。")
+    if isinstance(upload_obj, (str, Path)):
+        src = Path(upload_obj); _shutil.copy(src, dst); return dst
+    if hasattr(upload_obj, "name"):  # NamedString
+        src = Path(upload_obj.name); _shutil.copy(src, dst); return dst
+    if hasattr(upload_obj, "read"):
+        data = upload_obj.read()
+        if isinstance(data, str): data = data.encode("utf-8")
+        dst.write_bytes(data); return dst
+    if isinstance(upload_obj, dict):
+        if "name" in upload_obj: _shutil.copy(upload_obj["name"], dst); return dst
+        if "data" in upload_obj:
+            data = upload_obj["data"]
+            if isinstance(data, str): data = data.encode("utf-8")
+            dst.write_bytes(data); return dst
+    raise TypeError(f"Unsupported upload type: {type(upload_obj)}")
+def run(company_yaml, financials_csv, esg_csv, use_llm, lang, template_key,
+        tenant, push_to_hub, glossary_yaml, benchmarks_yaml, past_reports_zip):
+    try:
+        if not company_yaml or not financials_csv or not esg_csv:
+            return "全ファイルをアップロードしてください。", None, None, None, None, ""
+        with tempfile.TemporaryDirectory() as td:
+            tdir = Path(td)
+            cpath = _to_path(company_yaml, tdir, "company.yaml")
+            fpath = _to_path(financials_csv, tdir, "financials.csv")
+            epath = _to_path(esg_csv, tdir, "esg.csv")
+            gpath = _to_path(glossary_yaml, tdir, "glossary.yaml") if glossary_yaml else None
+            bpath = _to_path(benchmarks_yaml, tdir, "benchmarks.yaml") if benchmarks_yaml else None
+            rzip  = _to_path(past_reports_zip, tdir, "past_reports.zip") if past_reports_zip else None
+            if rzip:
+                build_or_update_index(rzip, index_dir=tdir / "index")
+            outdir = tdir / "out"; outdir.mkdir(parents=True, exist_ok=True)
+            llm = None
+            if use_llm:
+                try:
+                    from llm import OpenAILLM
+                    llm = OpenAILLM()
+                except Exception as e:
+                    return f"LLM初期化エラー: {e}", None, None, None, None, ""
+            html, pdf, docx, meta_json, html_text = generate_report(
+                company_yaml=str(cpath),
+                financials_csv=str(fpath),
+                esg_csv=str(epath),
+                templates_dir=TEMPLATES_DIR,
+                template_name={
+                    "base":"base.html.j2",
+                    "tcfd":"tcfd.html.j2",
+                    "sasab":"sasb.html.j2",
+                    "sasb":"sasb.html.j2",
+                    "gri":"gri.html.j2",
+                }.get(template_key, "base.html.j2"),
+                out_html=str(outdir / "report.html"),
+                out_pdf=str(outdir / "report.pdf"),
+                out_docx=str(outdir / "report.docx"),
+                lang=lang,
+                llm=llm,
+                glossary_path=str(gpath) if gpath else None,
+                benchmarks_path=str(bpath) if bpath else None,
+                tenant=tenant,
+                rag_index_dir=str(tdir / "index") if rzip else None,
+            )
+            repo_tmp = Path("./tmp"); repo_tmp.mkdir(exist_ok=True)
+            ts = datetime.datetime.now().strftime("%Y%m%d-%H%M%S")
+            prefix = f"{tenant or 'default'}-{ts}"
+            html_out = repo_tmp / f"{prefix}.html"
+            pdf_out  = repo_tmp / f"{prefix}.pdf"
+            docx_out = repo_tmp / f"{prefix}.docx"
+            meta_out = repo_tmp / f"{prefix}.json"
+            _shutil.copy(html, html_out)
+            _shutil.copy(pdf, pdf_out)
+            _shutil.copy(docx, docx_out)
+            Path(meta_out).write_text(json.dumps(meta_json, ensure_ascii=False, indent=2), encoding="utf-8")
+            if push_to_hub:
+                try:
+                    from huggingface_hub import HfApi
+                    api = HfApi()
+                    repo_id = os.environ.get("HF_DATASET_REPO", "your-org/ir-esg-reports")
+                    base_path = f"{tenant or 'default'}/{ts}"
+                    for p, name in [(html_out,"report.html"),(pdf_out,"report.pdf"),(docx_out,"report.docx"),(meta_out,"report.json")]:
+                        api.upload_file(
+                            path_or_fileobj=str(p),
+                            path_in_repo=f"{base_path}/{name}",
+                            repo_id=repo_id,
+                            repo_type="dataset"
+                        )
+                except Exception as e:
+                    meta_json["hub_error"] = str(e)
+                    Path(meta_out).write_text(json.dumps(meta_json, ensure_ascii=False, indent=2), encoding="utf-8")
+            return "生成が完了しました。", str(html_out), str(pdf_out), str(docx_out), str(meta_out), html_text
+    except Exception as e:
+        import traceback
+        tb = traceback.format_exc(limit=20)
+        return f"エラー: {e}\n--- trace ---\n{tb}", None, None, None, None, ""
+with gr.Blocks(title=TITLE) as demo:
+    gr.Markdown(f"# {TITLE}\n{DESC}")
+    with gr.Row():
+        company_yaml = gr.File(label="company.yaml（会社情報・年度等）", file_types=[".yaml", ".yml"])
+        financials_csv = gr.File(label="financials.csv（財務KPI）", file_types=[".csv", ".xlsx"])
+        esg_csv = gr.File(label="esg_metrics.csv（ESG指標）", file_types=[".csv", ".xlsx"])
+    with gr.Row():
+        use_llm = gr.Checkbox(label="LLMで要約/翻訳を行う（OPENAI_API_KEY2 必須）", value=True)
+        lang = gr.Dropdown(choices=["ja","en","zh","ko","de","fr"], value="ja", label="出力言語")
+        template_key = gr.Dropdown(choices=["base","tcfd","sasb","gri"], value="base", label="テンプレート")
+        tenant = gr.Textbox(label="テナント名（会社識別子）", value="HitC")
+    with gr.Row():
+        glossary_yaml = gr.File(label="glossary.yaml（用語集・任意）", file_types=[".yaml", ".yml"])
+        benchmarks_yaml = gr.File(label="benchmarks.yaml（業界平均など・任意）", file_types=[".yaml", ".yml"])
+        past_reports_zip = gr.File(label="過去レポートZip（RAG用・任意）", file_types=[".zip"])
+        push_to_hub = gr.Checkbox(label="生成物を Hugging Face Hub（Datasets）へ保存", value=False)
+    run_btn = gr.Button("レポート生成")
+    status = gr.Textbox(label="ステータス", interactive=False)
+    html_file = gr.File(label="HTMLダウンロード")
+    pdf_file = gr.File(label="PDFダウンロード")
+    docx_file = gr.File(label="DOCXダウンロード")
+    meta_file = gr.File(label="メタ情報(JSON)")
+    html_preview = gr.HTML(label="HTMLプレビュー（抜粋）")
+    run_btn.click(
+        fn=run,
+        inputs=[company_yaml, financials_csv, esg_csv, use_llm, lang, template_key, tenant, push_to_hub, glossary_yaml, benchmarks_yaml, past_reports_zip],
+        outputs=[status, html_file, pdf_file, docx_file, meta_file, html_preview]
+    )
+if __name__ == "__main__":
+    demo.launch()

benchmark.yaml ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ revenue_yoy: 8.5
2	+ renewable_energy_ratio: 35.0

charts.py ADDED Viewed

	@@ -0,0 +1,23 @@

+import io, base64
+import matplotlib.pyplot as plt
+def _b64(fig):
+    buf = io.BytesIO()
+    fig.savefig(buf, format="png", bbox_inches="tight")
+    plt.close(fig)
+    return "data:image/png;base64," + base64.b64encode(buf.getvalue()).decode("utf-8")
+def line_chart_base64(xs, ys, xlabel="", ylabel="", title=""):
+    fig, ax = plt.subplots()
+    ax.plot(xs, ys)
+    ax.set(xlabel=xlabel, ylabel=ylabel, title=title)
+    return _b64(fig)
+def materiality_base64(labels, x_vals, y_vals, title="Materiality Matrix"):
+    fig, ax = plt.subplots()
+    ax.scatter(x_vals, y_vals)
+    for lbl, x, y in zip(labels, x_vals, y_vals):
+        ax.annotate(lbl, (x, y), xytext=(5,5), textcoords="offset points")
+    ax.set(xlabel="Stakeholder Importance", ylabel="Business Impact", title=title)
+    ax.grid(True, alpha=0.3)
+    return _b64(fig)

core.py ADDED Viewed

	@@ -0,0 +1,301 @@

+import pandas as pd
+import yaml, datetime, hashlib, json, math
+from pathlib import Path
+from templating import get_env, render
+from models import CompanyMeta, ReportSections, RenderPayload
+from render import html_to_pdf, html_to_docx
+from charts import line_chart_base64, materiality_base64
+from validators import validate_financials, validate_esg
+from typing import Dict, Any, List, Optional
+DISPLAY_NAME = {
+    "co2_emissions": "CO₂排出量",
+    "energy_renewable_ratio": "再生可能エネルギー比率",
+    "female_management_ratio": "女性管理職比率",
+}
+def _sha256(p: Path) -> str:
+    h = hashlib.sha256()
+    with p.open("rb") as f:
+        for chunk in iter(lambda: f.read(8192), b""):
+            h.update(chunk)
+    return h.hexdigest()
+def _require_columns(df: pd.DataFrame, required, name: str):
+    missing = [c for c in required if c not in df.columns]
+    if missing:
+        raise ValueError(f"{name} に必須列がありません: {missing}. 例: {required}")
+def load_company_meta(path: str) -> CompanyMeta:
+    data = yaml.safe_load(Path(path).read_text(encoding="utf-8"))
+    return CompanyMeta(**data)
+def load_financials(path: str) -> pd.DataFrame:
+    if str(path).lower().endswith(".xlsx"):
+        df = pd.read_excel(path)
+    else:
+        df = pd.read_csv(path)
+    df = validate_financials(df)
+    # 正規化（quarter）
+    q = (df["quarter"].astype(str).str.upper().str.replace("Ｑ","Q").str.replace(" ",""))
+    df["quarter"] = "Q" + q.str.extract(r"(\d)", expand=False).fillna("")
+    df["year"] = pd.to_numeric(df["year"], errors="coerce").astype("Int64")
+    return df
+def load_esg(path: str) -> pd.DataFrame:
+    if str(path).lower().endswith(".xlsx"):
+        df = pd.read_excel(path)
+    else:
+        df = pd.read_csv(path)
+    df = validate_esg(df)
+    df["year"] = pd.to_numeric(df["year"], errors="coerce").astype("Int64")
+    return df
+def compute_kpi(fin_df: pd.DataFrame, fiscal_year: int):
+    years = set(fin_df["year"].dropna().astype(int))
+    if fiscal_year not in years:
+        raise ValueError(f"financials.csv に年度 {fiscal_year} のデータがありません。year 列を確認してください。")
+    fy = fin_df[fin_df["year"] == fiscal_year].copy()
+    if fy.empty:
+        raise ValueError(f"年度 {fiscal_year} の四半期データが空です。quarter の表記（Q1～Q4）を確認してください。")
+    order = {"Q1":1, "Q2":2, "Q3":3, "Q4":4}
+    fy["q_order"] = fy["quarter"].map(order)
+    latest = fy.sort_values("q_order").dropna(subset=["q_order"]).tail(1)
+    if latest.empty:
+        raise ValueError(f"年度 {fiscal_year} の quarter が Q1〜Q4 として認識できません。例: Q4")
+    prev_fy = fin_df[fin_df["year"] == fiscal_year - 1].copy()
+    if not prev_fy.empty:
+        prev_fy["q_order"] = prev_fy["quarter"].map(order)
+        prev = prev_fy.sort_values("q_order").dropna(subset=["q_order"]).tail(1)
+    else:
+        prev = pd.DataFrame()
+    revenue = float(latest["revenue"].iloc[0])
+    ebit = float(latest["ebit"].iloc[0])
+    net_income = float(latest["net_income"].iloc[0])
+    equity = float(latest["total_equity"].iloc[0]) if "total_equity" in latest else 0.0
+    ebit_margin = (ebit / revenue * 100) if revenue else 0.0
+    roe = (net_income / equity * 100) if equity else 0.0
+    revenue_yoy = 0.0
+    if not prev.empty and float(prev["revenue"].iloc[0]) != 0:
+        revenue_yoy = ((revenue / float(prev["revenue"].iloc[0])) - 1) * 100
+    return {
+        "revenue": revenue, "ebit": ebit, "net_income": net_income,
+        "ebit_margin": ebit_margin, "roe": roe, "revenue_yoy": revenue_yoy,
+    }
+def esg_table(df: pd.DataFrame, fiscal_year: int):
+    dfy = df[df["year"] == fiscal_year].copy()
+    rows = []
+    for _, r in dfy.iterrows():
+        metric = r["metric"]
+        display = DISPLAY_NAME.get(metric, metric)
+        rows.append({
+            "display": display,
+            "value": r["value"],
+            "unit": r.get("unit", ""),
+            "notes": r.get("notes", ""),
+        })
+    return rows
+def build_sections(meta: CompanyMeta, kpi: dict, esg_rows: list, llm=None) -> ReportSections:
+    if llm:
+        ceo_message = llm.generate_ceo_message(meta, kpi, esg_rows)
+        risk = llm.generate_risk_opportunity(meta, kpi, esg_rows)
+    else:
+        ceo_message = f"{meta.fiscal_year}期は、売上成長と収益性の両立に注力しました。"
+        risk = "主要リスクはマクロ環境と規制動向。機会は生成AI活用と脱炭素需要の拡大です。"
+    return ReportSections(ceo_message=ceo_message, risk_opportunity=risk)
+def _s(x):
+    if x is None: return ""
+    if isinstance(x, float) and math.isnan(x): return ""
+    return str(x)
+def _translate_payload_texts(payload: dict, lang: str, llm, glossary: Optional[Dict[str,str]]):
+    if not llm or lang == "ja":
+        return payload
+    texts = []
+    texts.append(_s(payload["sections"]["ceo_message"]))
+    texts.append(_s(payload["sections"]["risk_opportunity"]))
+    for row in payload["esg_table"]:
+        texts.append(_s(row.get("display", "")))
+        texts.append(_s(row.get("notes", "")))
+    texts.append(_s(payload["meta"]["report_title"]))
+    for topic in payload["meta"].get("material_topics", []):
+        texts.append(_s(topic))
+    translated = llm.translate_texts(texts, target_lang=lang, glossary=glossary or {})
+    it = iter(translated)
+    payload["sections"]["ceo_message"] = next(it)
+    payload["sections"]["risk_opportunity"] = next(it)
+    for row in payload["esg_table"]:
+        row["display"] = next(it)
+        row["notes"] = next(it)
+    payload["meta"]["report_title"] = next(it)
+    mt = payload["meta"].get("material_topics", [])
+    for i in range(len(mt)):
+        mt[i] = next(it)
+    return payload
+def _load_glossary(glossary_path: Optional[str]) -> Dict[str,str]:
+    if not glossary_path: return {}
+    try:
+        g = yaml.safe_load(Path(glossary_path).read_text(encoding="utf-8"))
+        return g or {}
+    except Exception:
+        return {}
+def _load_benchmarks(benchmarks_path: Optional[str]) -> Dict[str,Any]:
+    if not benchmarks_path: return {}
+    try:
+        b = yaml.safe_load(Path(benchmarks_path).read_text(encoding="utf-8"))
+        return b or {}
+    except Exception:
+        return {}
+def _build_charts(fin: pd.DataFrame, esg: pd.DataFrame, fiscal_year: int) -> Dict[str,str]:
+    # Revenue trend（現年/前年のQ1-Q4）
+    def series(df, y):
+        o = {"Q1":1,"Q2":2,"Q3":3,"Q4":4}
+        d = df[df["year"]==y].copy()
+        d["q"] = d["quarter"].map(o)
+        d = d.sort_values("q")
+        xs = d["quarter"].tolist()
+        ys = d["revenue"].tolist()
+        return xs, ys
+    xs, ys = series(fin, fiscal_year)
+    rev = line_chart_base64(xs, ys, xlabel="Quarter", ylabel="Revenue", title=f"Revenue Trend {fiscal_year}")
+    # ESG: 再エネ・女性比率があれば時系列
+    def metric_series(metric):
+        d = esg[esg["metric"]==metric].sort_values("year")
+        return d["year"].tolist(), d["value"].tolist()
+    xs_re, ys_re = metric_series("energy_renewable_ratio")
+    xs_fm, ys_fm = metric_series("female_management_ratio")
+    re_img = line_chart_base64(xs_re, ys_re, xlabel="Year", ylabel="%", title="Renewable Energy Ratio")
+    fm_img = line_chart_base64(xs_fm, ys_fm, xlabel="Year", ylabel="%", title="Female Management Ratio")
+    # マテリアリティマトリクス（任意：meta.targets.weights があれば）
+    return {"revenue": rev, "renewable": re_img, "female": fm_img}
+def generate_report(
+    company_yaml,
+    financials_csv,
+    esg_csv,
+    templates_dir,
+    template_name="base.html.j2",
+    out_html="output/report.html",
+    out_pdf="output/report.pdf",
+    out_docx="output/report.docx",
+    lang="ja",
+    llm=None,
+    glossary_path: Optional[str] = None,
+    benchmarks_path: Optional[str] = None,
+    tenant: Optional[str] = None,
+    rag_index_dir: Optional[str] = None,
+):
+    Path(Path(out_html).parent).mkdir(parents=True, exist_ok=True)
+    # テンプレ存在チェック（なければ base を生成）
+    tdir = Path(templates_dir); tdir.mkdir(parents=True, exist_ok=True)
+    if not (tdir / template_name).exists():
+        (tdir / "base.html.j2").write_text("""<!doctype html>
+<html lang="{{ lang }}"><head><meta charset="utf-8"><title>{{ meta.report_title }}</title></head>
+<body>
+<h1>{{ meta.report_title }}（{{ meta.fiscal_year }}）</h1>
+<p>{{ meta.company_name }} / Ticker: {{ meta.ticker }} / {{ meta.currency }}</p>
+<h2>CEOメッセージ</h2><p>{{ sections.ceo_message }}</p>
+<h2>KPI</h2><ul>
+<li>売上: {{ kpi.revenue|round(0)|int }} {{ meta.currency }} / YoY {{ kpi.revenue_yoy|round(1) }}%</li>
+<li>EBIT: {{ kpi.ebit|round(0)|int }} / Margin {{ kpi.ebit_margin|round(1) }}%</li>
+<li>純利益: {{ kpi.net_income|round(0)|int }} / ROE {{ kpi.roe|round(1) }}%</li>
+</ul>
+<h2>チャート</h2>
+<img src="{{ charts.revenue }}" style="max-width:520px"><br/>
+<img src="{{ charts.renewable }}" style="max-width:520px">
+<img src="{{ charts.female }}" style="max-width:520px">
+<h2>ESGサマリー</h2>
+<table border="1" cellspacing="0" cellpadding="6">
+  <tr><th>指標</th><th>値</th><th>単位</th><th>備考</th></tr>
+  {% for row in esg_table %}
+  <tr><td>{{ row.display }}</td><td>{{ row.value }}</td><td>{{ row.unit }}</td><td>{{ row.notes }}</td></tr>
+  {% endfor %}
+</table>
+<h2>リスク & 機会</h2><p>{{ sections.risk_opportunity }}</p>
+{% if benchmark_summary %}<h2>ベンチマーク比較</h2><p>{{ benchmark_summary }}</p>{% endif %}
+<footer>Generated on {{ generated_at }} | Template: {{ template_name }} | Tenant: {{ tenant }}</footer>
+</body></html>""", encoding="utf-8")
+        template_name = "base.html.j2"
+    meta = load_company_meta(company_yaml)
+    fin = load_financials(financials_csv)
+    esg = load_esg(esg_csv)
+    kpi = compute_kpi(fin, meta.fiscal_year)
+    esg_rows = esg_table(esg, meta.fiscal_year)
+    sections = build_sections(meta, kpi, esg_rows, llm=llm)
+    charts = _build_charts(fin, esg, meta.fiscal_year)
+    glossary = _load_glossary(glossary_path)
+    benchmarks = _load_benchmarks(benchmarks_path)
+    # ベンチマーク1行要約（任意）
+    benchmark_summary = ""
+    try:
+        if benchmarks:
+            msgs = []
+            if "revenue_yoy" in benchmarks:
+                msgs.append(f"売上YoY: 当社 {kpi['revenue_yoy']:.1f}% / 業界 {benchmarks['revenue_yoy']:.1f}%")
+            if "renewable_energy_ratio" in benchmarks:
+                cur = esg[esg["metric"]=="energy_renewable_ratio"].sort_values("year").tail(1)["value"].iloc[0]
+                msgs.append(f"再エネ比率: 当社 {cur:.1f}% / 業界 {benchmarks['renewable_energy_ratio']:.1f}%")
+            benchmark_summary = " / ".join(msgs)
+    except Exception:
+        pass
+    env = get_env(templates_dir)
+    payload = RenderPayload(
+        meta=meta, esg_table=esg_rows, kpi=kpi, sections=sections,
+        generated_at=datetime.datetime.now().strftime("%Y-%m-%d %H:%M"),
+        lang=lang
+    ).model_dump()
+    payload["charts"] = charts
+    payload["template_name"] = template_name
+    payload["tenant"] = tenant or ""
+    # 翻訳（ja以外）
+    payload = _translate_payload_texts(payload, lang=lang, llm=llm, glossary=glossary)
+    html = render(env, template_name, payload)
+    Path(out_html).write_text(html, encoding="utf-8")
+    html_to_pdf(html, out_pdf)
+    html_to_docx(html, out_docx)
+    # 監査メタ
+    meta_json = {
+        "inputs": {
+            "company_yaml_sha": _sha256(Path(company_yaml)),
+            "financials_csv_sha": _sha256(Path(financials_csv)),
+            "esg_csv_sha": _sha256(Path(esg_csv)),
+            "lang": lang,
+            "tenant": tenant,
+            "glossary_keys": list(glossary.keys()) if glossary else [],
+            "benchmarks": benchmarks,
+        },
+        "outputs": {"html": out_html, "pdf": out_pdf, "docx": out_docx},
+        "template": {"dir": templates_dir, "name": template_name},
+        "generated_at": datetime.datetime.now().isoformat(timespec="seconds"),
+        "usage": getattr(llm, "last_usage", {}) if llm else {},
+        "benchmark_summary": benchmark_summary,
+    }
+    return out_html, out_pdf, out_docx, meta_json, html

hf.yaml ADDED Viewed

	@@ -0,0 +1,6 @@

+title: IR-ESG-Report-Generator-Pro
+emoji: 📈
+colorFrom: gray
+colorTo: indigo
+sdk: docker
+pinned: false

llm.py ADDED Viewed

	@@ -0,0 +1,82 @@

+import os, math, time
+from typing import List, Dict, Any, Optional
+from openai import OpenAI
+def _norm(x):
+    if x is None: return ""
+    if isinstance(x, float) and math.isnan(x): return ""
+    return str(x)
+def _backoff(attempt):
+    # 0.5, 1, 2, 4 ... (上限 8s)
+    return min(0.5 * (2 ** attempt), 8.0)
+class OpenAILLM:
+    def __init__(self, model_chat: str = "gpt-4o-mini", model_translate: str = "gpt-4o-mini"):
+        api_key = os.environ.get("OPENAI_API_KEY2")
+        if not api_key:
+            raise ValueError("環境変数 OPENAI_API_KEY2 が設定されていません。")
+        self.client = OpenAI(api_key=api_key)
+        self.model_chat = model_chat
+        self.model_translate = model_translate
+        self.last_usage = {"prompt_tokens":0, "completion_tokens":0, "total_tokens":0}
+    def _update_usage(self, rsp):
+        try:
+            u = rsp.usage
+            if u:
+                self.last_usage = {
+                    "prompt_tokens": getattr(u, "prompt_tokens", 0),
+                    "completion_tokens": getattr(u, "completion_tokens", 0),
+                    "total_tokens": getattr(u, "total_tokens", 0),
+                }
+        except Exception:
+            pass
+    def _chat(self, model, messages, temperature=0.2, max_retries=3):
+        for i in range(max_retries+1):
+            try:
+                rsp = self.client.chat.completions.create(
+                    model=model, messages=messages, temperature=temperature
+                )
+                self._update_usage(rsp)
+                return rsp.choices[0].message.content.strip()
+            except Exception as e:
+                if i == max_retries:
+                    raise
+                time.sleep(_backoff(i))
+    def generate_ceo_message(self, meta, kpi: Dict[str, float], esg_rows: List[Dict[str, Any]]) -> str:
+        prompt = (
+            "以下の企業情報・KPI・ESG指標をもとに、日本語で200字程度のCEOメッセージ草案を出力。"
+            "事実ベース・簡潔・投資家向け。数値は丸め過ぎないこと。\n\n"
+            f"企業情報: {meta.model_dump()}\nKPI: {kpi}\nESG: {esg_rows}\n"
+        )
+        return self._chat(self.model_chat, [{"role":"user","content":prompt}], temperature=0.2)
+    def generate_risk_opportunity(self, meta, kpi: Dict[str, float], esg_rows: List[Dict[str, Any]]) -> str:
+        prompt = (
+            "以下に基づき主要なリスクと機会を150字程度で日本語要約。具体的観点を1-2点：\n\n"
+            f"企業情報: {meta.model_dump()}\nKPI: {kpi}\nESG: {esg_rows}\n"
+        )
+        return self._chat(self.model_chat, [{"role":"user","content":prompt}], temperature=0.2)
+    def translate_texts(self, texts: List[Any], target_lang: str = "en", glossary: Optional[Dict[str,str]] = None) -> List[str]:
+        norm = [_norm(t) for t in texts]
+        SEP = "\n<<<SEP>>>\n"
+        rules = ""
+        if glossary:
+            rules = "用語統一ルール（厳守）:\n" + "\n".join([f"- {k} -> {v}" for k,v in glossary.items()])
+        system = (
+            "You are a precise financial/ESG translator. Preserve numbers and units. "
+            "Follow the glossary strictly. Keep tone concise."
+        )
+        prompt = f"Translate the following into {target_lang}. Each part is separated by <<<SEP>>>.\n{rules}\n\n" + SEP.join(norm)
+        txt = self._chat(self.model_translate, [{"role":"system","content":system},{"role":"user","content":prompt}], temperature=0.1)
+        parts = [p.strip() for p in txt.split("<<<SEP>>>")]
+        if len(parts) != len(norm):
+            parts = [txt] + norm[1:]
+            parts = parts[:len(norm)]
+        return parts

models.py ADDED Viewed

	@@ -0,0 +1,24 @@

+from pydantic import BaseModel
+from typing import List, Optional, Dict, Any
+class CompanyMeta(BaseModel):
+    company_name: str
+    fiscal_year: int
+    currency: str = "JPY"
+    ticker: Optional[str] = None
+    report_title: str = "Integrated Report"
+    ceo_name: Optional[str] = None
+    material_topics: List[str] = []
+    targets: Dict[str, Any] = {}
+class ReportSections(BaseModel):
+    ceo_message: str = ""
+    risk_opportunity: str = ""
+class RenderPayload(BaseModel):
+    meta: CompanyMeta
+    esg_table: List[Dict[str, Any]]
+    kpi: Dict[str, float]
+    sections: ReportSections
+    generated_at: str
+    lang: str = "ja"

rag.py ADDED Viewed

	@@ -0,0 +1,55 @@

+import pandera as pa
+from pandera import Column, DataFrameSchema, Check
+import pandas as pd
+FIN_REQUIRED = ["year","quarter","revenue","ebit","net_income","total_assets","total_equity"]
+ESG_REQUIRED = ["year","metric","value","unit","scope","notes"]
+ALIASES = {
+    "revenue": ["revenue","sales","売上","売上高"],
+    "ebit": ["ebit","operating_income","営業利益"],
+    "net_income": ["net_income","純利益","profit"],
+    "total_equity": ["total_equity","shareholders_equity","自己資本"],
+}
+def normalize_columns(df: pd.DataFrame, required: list) -> pd.DataFrame:
+    cols = {c.lower(): c for c in df.columns}
+    # 別名を正規化
+    for key, names in ALIASES.items():
+        if key not in df.columns:
+            for n in names:
+                if n in df.columns or n in cols:
+                    src = n if n in df.columns else cols.get(n)
+                    df = df.rename(columns={src: key})
+                    break
+    missing = [c for c in required if c not in df.columns]
+    if missing:
+        raise ValueError(f"必須列不足: {missing}")
+    return df
+fin_schema = DataFrameSchema({
+    "year": Column(int, Check.ge(1900)),
+    "quarter": Column(str),
+    "revenue": Column(float, Check.ge(0)),
+    "ebit": Column(float),
+    "net_income": Column(float),
+    "total_assets": Column(float, nullable=True),
+    "total_equity": Column(float, nullable=True),
+})
+esg_schema = DataFrameSchema({
+    "year": Column(int, Check.ge(1900)),
+    "metric": Column(str),
+    "value": Column(float),
+    "unit": Column(str, nullable=True),
+    "scope": Column(str, nullable=True),
+    "notes": Column(object, nullable=True),
+})
+def validate_financials(df: pd.DataFrame) -> pd.DataFrame:
+    df = normalize_columns(df, FIN_REQUIRED)
+    return fin_schema.validate(df, lazy=True)
+def validate_esg(df: pd.DataFrame) -> pd.DataFrame:
+    df = normalize_columns(df, ESG_REQUIRED)
+    return esg_schema.validate(df, lazy=True)

render.py ADDED Viewed

	@@ -0,0 +1,35 @@

+from docx import Document
+from docx.shared import Pt
+from bs4 import BeautifulSoup
+_HAS_WEASY = False
+try:
+    from weasyprint import HTML
+    _HAS_WEASY = True
+except Exception:
+    _HAS_WEASY = False
+def html_to_pdf(html_str: str, out_pdf_path: str):
+    if _HAS_WEASY:
+        try:
+            HTML(string=html_str).write_pdf(out_pdf_path)
+            return
+        except Exception:
+            pass
+    from xhtml2pdf import pisa
+    with open(out_pdf_path, "wb") as f:
+        pisa.CreatePDF(src=html_str, dest=f)
+def html_to_docx(html_str: str, out_docx_path: str):
+    doc = Document()
+    soup = BeautifulSoup(html_str, "html.parser")
+    for tag in soup.find_all(["h1","h2","h3","p","li"]):
+        txt = tag.get_text(strip=True)
+        if not txt:
+            continue
+        if tag.name == "h1": p = doc.add_heading(txt, level=0)
+        elif tag.name == "h2": p = doc.add_heading(txt, level=1)
+        elif tag.name == "h3": p = doc.add_heading(txt, level=2)
+        else: p = doc.add_paragraph(txt)
+        for run in p.runs: run.font.size = Pt(11)
+    doc.save(out_docx_path)

requirements.txt ADDED Viewed

	@@ -0,0 +1,17 @@

+gradio==4.44.0
+pandas==2.2.2
+pydantic==2.7.4
+Jinja2==3.1.4
+python-docx==1.1.2
+WeasyPrint==62.3
+beautifulsoup4==4.12.3
+PyYAML==6.0.2
+openai==1.40.2
+httpx==0.27.2
+matplotlib==3.8.4
+Pillow==10.3.0
+faiss-cpu==1.8.0
+sentence-transformers==3.0.1
+huggingface_hub==0.24.6
+pandera==0.20.3
+xhtml2pdf==0.2.15

templates:gir.html.j2 ADDED Viewed

	@@ -0,0 +1,7 @@

+{% extends "base.html.j2" %}
+{% block body %}
+<h1>GRI Report（{{ meta.fiscal_year }}）</h1>
+<p>{{ sections.ceo_message }}</p>
+<p>{{ benchmark_summary }}</p>
+<img src="{{ charts.renewable }}"><img src="{{ charts.female }}">
+{% endblock %}

templates:report.html.j2 CHANGED Viewed

@@ -1,5 +1,5 @@
 <!doctype html>
-<html lang="ja">
 <head>
   <meta charset="utf-8" />
   <title>{{ meta.report_title }} - {{ meta.company_name }}</title>
@@ -29,11 +29,6 @@
       <div><strong>{{ kpi.revenue | round(0) | int }} {{ meta.currency }}</strong></div>
       <div class="small">前年比: {{ kpi.revenue_yoy | round(1) }}%</div>
     </div>
-    <div class="card">
-      <div class="small">営業利益</div>
-      <div><strong>{{ kpi.operating_income | round(0) | int }} {{ meta.currency }}</strong></div>
-      <div class="small">マージン: {{ kpi.operating_margin | round(1) }}%</div>
-    </div>
     <div class="card">
       <div class="small">EBIT</div>
       <div><strong>{{ kpi.ebit | round(0) | int }} {{ meta.currency }}</strong></div>

 <!doctype html>
+<html lang="{{ lang }}">
 <head>
   <meta charset="utf-8" />
   <title>{{ meta.report_title }} - {{ meta.company_name }}</title>
       <div><strong>{{ kpi.revenue | round(0) | int }} {{ meta.currency }}</strong></div>
       <div class="small">前年比: {{ kpi.revenue_yoy | round(1) }}%</div>
     </div>
     <div class="card">
       <div class="small">EBIT</div>
       <div><strong>{{ kpi.ebit | round(0) | int }} {{ meta.currency }}</strong></div>

templates:sasb.html.j2 ADDED Viewed

	@@ -0,0 +1,12 @@

+{% extends "base.html.j2" %}
+{% block body %}
+<h1>SASB Report（{{ meta.fiscal_year }}）</h1>
+<p>{{ sections.ceo_message }}</p>
+<table border="1" cellspacing="0" cellpadding="6">
+  <tr><th>指標</th><th>値</th><th>単位</th><th>備考</th></tr>
+  {% for row in esg_table %}
+  <tr><td>{{ row.display }}</td><td>{{ row.value }}</td><td>{{ row.unit }}</td><td>{{ row.notes }}</td></tr>
+  {% endfor %}
+</table>
+<p>{{ sections.risk_opportunity }}</p>
+{% endblock %}

templates:tcfd.html.j2 ADDED Viewed

	@@ -0,0 +1,9 @@

+{% extends "base.html.j2" %}
+{% block body %}
+<h1>TCFD Report（{{ meta.fiscal_year }}）</h1>
+<h2>1. ガバナンス</h2><p>{{ sections.ceo_message }}</p>
+<h2>2. 戦略</h2><p>{{ benchmark_summary }}</p>
+<h2>3. リスク管理</h2><p>{{ sections.risk_opportunity }}</p>
+<h2>4. 指標・目標</h2>
+<img src="{{ charts.revenue }}"><img src="{{ charts.renewable }}"><img src="{{ charts.female }}">
+{% endblock %}

templating.py ADDED Viewed

	@@ -0,0 +1,12 @@

+from jinja2 import Environment, FileSystemLoader, select_autoescape
+from pathlib import Path
+def get_env(templates_dir: str):
+    here = Path(__file__).resolve().parent
+    searchpaths = [templates_dir, str(here / "templates"), str(Path().resolve() / "templates")]
+    env = Environment(loader=FileSystemLoader(searchpaths), autoescape=select_autoescape(["html","xml"]))
+    return env
+def render(env, template_name: str, context: dict) -> str:
+    template = env.get_template(template_name)
+    return template.render(**context)

validators.py ADDED Viewed

	@@ -0,0 +1,55 @@

+import pandera as pa
+from pandera import Column, DataFrameSchema, Check
+import pandas as pd
+FIN_REQUIRED = ["year","quarter","revenue","ebit","net_income","total_assets","total_equity"]
+ESG_REQUIRED = ["year","metric","value","unit","scope","notes"]
+ALIASES = {
+    "revenue": ["revenue","sales","売上","売上高"],
+    "ebit": ["ebit","operating_income","営業利益"],
+    "net_income": ["net_income","純利益","profit"],
+    "total_equity": ["total_equity","shareholders_equity","自己資本"],
+}
+def normalize_columns(df: pd.DataFrame, required: list) -> pd.DataFrame:
+    cols = {c.lower(): c for c in df.columns}
+    # 別名を正規化
+    for key, names in ALIASES.items():
+        if key not in df.columns:
+            for n in names:
+                if n in df.columns or n in cols:
+                    src = n if n in df.columns else cols.get(n)
+                    df = df.rename(columns={src: key})
+                    break
+    missing = [c for c in required if c not in df.columns]
+    if missing:
+        raise ValueError(f"必須列不足: {missing}")
+    return df
+fin_schema = DataFrameSchema({
+    "year": Column(int, Check.ge(1900)),
+    "quarter": Column(str),
+    "revenue": Column(float, Check.ge(0)),
+    "ebit": Column(float),
+    "net_income": Column(float),
+    "total_assets": Column(float, nullable=True),
+    "total_equity": Column(float, nullable=True),
+})
+esg_schema = DataFrameSchema({
+    "year": Column(int, Check.ge(1900)),
+    "metric": Column(str),
+    "value": Column(float),
+    "unit": Column(str, nullable=True),
+    "scope": Column(str, nullable=True),
+    "notes": Column(object, nullable=True),
+})
+def validate_financials(df: pd.DataFrame) -> pd.DataFrame:
+    df = normalize_columns(df, FIN_REQUIRED)
+    return fin_schema.validate(df, lazy=True)
+def validate_esg(df: pd.DataFrame) -> pd.DataFrame:
+    df = normalize_columns(df, ESG_REQUIRED)
+    return esg_schema.validate(df, lazy=True)