Spaces:

InsafQ
/

blog

Running

App Files Files Community

InsafQ commited on 29 days ago

Commit

adffada

verified ·

1 Parent(s): 9561d41

Replace default template with TabGAN blog post

Browse files

Files changed (1) hide show

index.html +400 -18

index.html CHANGED Viewed

@@ -1,19 +1,401 @@
-<!doctype html>
-<html>
-	<head>
-		<meta charset="utf-8" />
-		<meta name="viewport" content="width=device-width" />
-		<title>My static Space</title>
-		<link rel="stylesheet" href="style.css" />
-	</head>
-	<body>
-		<div class="card">
-			<h1>Welcome to your static Space!</h1>
-			<p>You can modify this app directly by editing <i>index.html</i> in the Files and versions tab.</p>
-			<p>
-				Also don't forget to check the
-				<a href="https://huggingface.co/docs/hub/spaces" target="_blank">Spaces documentation</a>.
-			</p>
-		</div>
-	</body>
 </html>

+<!DOCTYPE html>
+<html lang="en">
+<head>
+    <meta charset="utf-8" />
+    <meta name="viewport" content="width=device-width, initial-scale=1" />
+    <title>TabGAN: Generate Synthetic Tabular Data with GANs, Diffusion Models & LLMs</title>
+    <style>
+        :root {
+            --bg: #0d1117;
+            --card: #161b22;
+            --border: #30363d;
+            --text: #e6edf3;
+            --muted: #8b949e;
+            --accent: #58a6ff;
+            --accent2: #f78166;
+            --green: #3fb950;
+            --purple: #bc8cff;
+            --code-bg: #1c2128;
+        }
+        * { margin: 0; padding: 0; box-sizing: border-box; }
+        body {
+            font-family: -apple-system, BlinkMacSystemFont, 'Segoe UI', Helvetica, Arial, sans-serif;
+            background: var(--bg);
+            color: var(--text);
+            line-height: 1.7;
+        }
+        .container {
+            max-width: 820px;
+            margin: 0 auto;
+            padding: 2rem 1.5rem 4rem;
+        }
+        .hero {
+            text-align: center;
+            padding: 3rem 0 2rem;
+            border-bottom: 1px solid var(--border);
+            margin-bottom: 2.5rem;
+        }
+        .hero h1 {
+            font-size: 2rem;
+            font-weight: 700;
+            line-height: 1.3;
+            margin-bottom: 1rem;
+        }
+        .hero h1 .highlight { color: var(--accent); }
+        .hero .subtitle {
+            color: var(--muted);
+            font-size: 1.05rem;
+            max-width: 600px;
+            margin: 0 auto 1.5rem;
+        }
+        .badges { display: flex; gap: .6rem; justify-content: center; flex-wrap: wrap; }
+        .badge {
+            display: inline-block;
+            padding: .3rem .7rem;
+            border-radius: 2rem;
+            font-size: .8rem;
+            font-weight: 600;
+            border: 1px solid var(--border);
+            color: var(--muted);
+        }
+        .badge.blue { border-color: var(--accent); color: var(--accent); }
+        .badge.orange { border-color: var(--accent2); color: var(--accent2); }
+        .badge.green { border-color: var(--green); color: var(--green); }
+        .badge.purple { border-color: var(--purple); color: var(--purple); }
+        h2 {
+            font-size: 1.5rem;
+            margin: 2.5rem 0 1rem;
+            padding-bottom: .5rem;
+            border-bottom: 1px solid var(--border);
+        }
+        h3 {
+            font-size: 1.2rem;
+            margin: 2rem 0 .8rem;
+            color: var(--accent);
+        }
+        p { margin-bottom: 1rem; }
+        ul, ol { margin: 0 0 1rem 1.5rem; }
+        li { margin-bottom: .4rem; }
+        strong { color: #fff; }
+        a { color: var(--accent); text-decoration: none; }
+        a:hover { text-decoration: underline; }
+        pre {
+            background: var(--code-bg);
+            border: 1px solid var(--border);
+            border-radius: 8px;
+            padding: 1rem 1.2rem;
+            overflow-x: auto;
+            margin-bottom: 1.2rem;
+            font-size: .88rem;
+            line-height: 1.5;
+        }
+        code {
+            font-family: 'SFMono-Regular', Consolas, 'Liberation Mono', Menlo, monospace;
+            font-size: .88em;
+        }
+        p code, li code {
+            background: var(--code-bg);
+            padding: .15rem .4rem;
+            border-radius: 4px;
+            border: 1px solid var(--border);
+        }
+        .kw { color: #ff7b72; }
+        .fn { color: #d2a8ff; }
+        .str { color: #a5d6ff; }
+        .cm { color: #8b949e; font-style: italic; }
+        .num { color: #79c0ff; }
+        table {
+            width: 100%;
+            border-collapse: collapse;
+            margin-bottom: 1.2rem;
+            font-size: .92rem;
+        }
+        th, td {
+            padding: .6rem .8rem;
+            border: 1px solid var(--border);
+            text-align: left;
+        }
+        th { background: var(--card); font-weight: 600; }
+        tr:nth-child(even) { background: rgba(22,27,34,.5); }
+        .card-grid {
+            display: grid;
+            grid-template-columns: repeat(auto-fit, minmax(220px, 1fr));
+            gap: 1rem;
+            margin-bottom: 1.5rem;
+        }
+        .card {
+            background: var(--card);
+            border: 1px solid var(--border);
+            border-radius: 8px;
+            padding: 1.2rem;
+        }
+        .card h4 { margin-bottom: .5rem; color: var(--accent); }
+        .cta {
+            display: flex;
+            gap: 1rem;
+            flex-wrap: wrap;
+            margin: 2rem 0;
+            justify-content: center;
+        }
+        .cta a {
+            display: inline-flex;
+            align-items: center;
+            gap: .5rem;
+            padding: .7rem 1.4rem;
+            border-radius: 6px;
+            font-weight: 600;
+            font-size: .95rem;
+            transition: opacity .2s;
+        }
+        .cta a:hover { text-decoration: none; opacity: .85; }
+        .cta .primary { background: var(--accent); color: #0d1117; }
+        .cta .secondary { background: var(--card); border: 1px solid var(--border); color: var(--text); }
+        .footer {
+            text-align: center;
+            padding-top: 2rem;
+            margin-top: 3rem;
+            border-top: 1px solid var(--border);
+            color: var(--muted);
+            font-size: .9rem;
+        }
+        .author {
+            display: flex;
+            align-items: center;
+            gap: .8rem;
+            margin: 1rem auto;
+            justify-content: center;
+            color: var(--muted);
+            font-size: .9rem;
+        }
+        @media (max-width: 600px) {
+            .hero h1 { font-size: 1.5rem; }
+            .container { padding: 1rem; }
+        }
+    </style>
+</head>
+<body>
+<div class="container">
+    <div class="hero">
+        <h1>
+            <span class="highlight">TabGAN:</span> Generate Synthetic Tabular Data<br>
+            with GANs, Diffusion &amp; LLMs &mdash; in 3 Lines of Python
+        </h1>
+        <p class="subtitle">
+            High-quality synthetic tabular data using GANs, Forest Diffusion, or LLMs &mdash;
+            with built-in quality reports, privacy metrics, <strong>AutoSynth</strong>, and
+            <strong>one-click synthesis for any HuggingFace dataset</strong>.
+        </p>
+        <div class="badges">
+            <span class="badge blue">synthetic-data</span>
+            <span class="badge orange">GAN</span>
+            <span class="badge green">diffusion</span>
+            <span class="badge purple">privacy</span>
+            <span class="badge">open-source</span>
+        </div>
+        <div class="author">
+            <span>by <a href="https://huggingface.co/InsafQ">InsafQ</a></span>
+            <span>&middot;</span>
+            <span>March 29, 2026</span>
+        </div>
+    </div>
+    <!-- Problem -->
+    <h2>The Problem</h2>
+    <p>You have tabular data that's too sensitive to share, too small to train on, or too imbalanced to model well. You need synthetic data that:</p>
+    <ul>
+        <li><strong>Preserves statistical properties</strong> of the original</li>
+        <li><strong>Doesn't memorize</strong> individual records (privacy!)</li>
+        <li><strong>Works out of the box</strong> without ML PhD-level tuning</li>
+    </ul>
+    <!-- Solution -->
+    <h2>The Solution: TabGAN</h2>
+<pre><code>pip install tabgan</code></pre>
+    <h3>3 Lines to Synthetic Data</h3>
+<pre><code><span class="kw">from</span> tabgan <span class="kw">import</span> GANGenerator
+<span class="kw">import</span> pandas <span class="kw">as</span> pd
+df = pd.<span class="fn">read_csv</span>(<span class="str">"your_data.csv"</span>)
+gen = <span class="fn">GANGenerator</span>(gen_x_times=<span class="num">1.1</span>, cat_cols=[<span class="str">"gender"</span>, <span class="str">"city"</span>])
+synthetic, _ = gen.<span class="fn">generate_data_pipe</span>(df, <span class="kw">None</span>, df, only_generated_data=<span class="kw">True</span>)</code></pre>
+    <p>That's it. <code>synthetic</code> is a DataFrame with realistic rows that never existed in the original data.</p>
+    <!-- Generators table -->
+    <h2>One API, Multiple Generators</h2>
+    <p>Switch between state-of-the-art methods with a single parameter change:</p>
+    <table>
+        <thead><tr><th>Generator</th><th>Best For</th><th>Speed</th></tr></thead>
+        <tbody>
+            <tr><td><strong>CTGAN</strong> (GAN)</td><td>General purpose, mixed types</td><td>Fast</td></tr>
+            <tr><td><strong>Forest Diffusion</strong></td><td>Tree-friendly structured data</td><td>Medium</td></tr>
+            <tr><td><strong>LLM</strong> (GReaT)</td><td>Text-rich, semantic dependencies</td><td>Slow</td></tr>
+            <tr><td><strong>Random Baseline</strong></td><td>Quick benchmarking</td><td>Instant</td></tr>
+        </tbody>
+    </table>
+<pre><code><span class="kw">from</span> tabgan <span class="kw">import</span> GANGenerator, ForestDiffusionGenerator, LLMGenerator
+<span class="cm"># Just swap the class &mdash; same API!</span>
+gen = <span class="fn">ForestDiffusionGenerator</span>(gen_x_times=<span class="num">1.0</span>, cat_cols=[<span class="str">"category"</span>])
+synthetic, _ = gen.<span class="fn">generate_data_pipe</span>(df, target, df, only_generated_data=<span class="kw">True</span>)</code></pre>
+    <!-- AutoSynth -->
+    <h3>NEW: AutoSynth &mdash; Let the Library Choose</h3>
+    <p>Don't know which generator works best for your data? <strong>AutoSynth</strong> runs all of them and picks the winner:</p>
+<pre><code><span class="kw">from</span> tabgan <span class="kw">import</span> AutoSynth
+result = <span class="fn">AutoSynth</span>(df, target_col=<span class="str">"label"</span>).<span class="fn">run</span>()
+<span class="fn">print</span>(result.report)
+<span class="cm">#   Generator          Status  Score  Quality  Privacy  Rows  Time (s)</span>
+<span class="cm"># 0 GAN (CTGAN)        OK      0.847  0.891    0.743    165   12.3</span>
+<span class="cm"># 1 Forest Diffusion   OK      0.812  0.834    0.761    165   45.1</span>
+<span class="cm"># 2 Random Baseline    OK      0.654  0.621    0.732    165   0.1</span>
+best_synthetic = result.best_data  <span class="cm"># Best generator's output</span>
+<span class="fn">print</span>(<span class="str">f"Winner: </span>{result.best_name}<span class="str">"</span>)  <span class="cm"># "GAN (CTGAN)"</span></code></pre>
+    <p>AutoSynth scores each generator on a weighted combination of <strong>quality</strong> (distribution fidelity, ML utility) and <strong>privacy</strong> (distance to closest record, membership inference risk).</p>
+    <!-- HuggingFace integration -->
+    <h3>NEW: One-Click Synthesis for Any HuggingFace Dataset</h3>
+<pre><code><span class="kw">from</span> tabgan <span class="kw">import</span> synthesize_hf_dataset
+<span class="cm"># Load &rarr; Generate &rarr; Evaluate in one call</span>
+result = <span class="fn">synthesize_hf_dataset</span>(
+    <span class="str">"scikit-learn/iris"</span>,
+    target_col=<span class="str">"target"</span>,
+)
+<span class="cm"># Push synthetic version to your HF account</span>
+result = <span class="fn">synthesize_hf_dataset</span>(
+    <span class="str">"scikit-learn/iris"</span>,
+    target_col=<span class="str">"target"</span>,
+    push_to_hub=<span class="kw">True</span>,
+    hub_repo_id=<span class="str">"your-username/iris-synthetic"</span>,
+)</code></pre>
+    <!-- Features -->
+    <h2>Key Features</h2>
+    <div class="card-grid">
+        <div class="card">
+            <h4>Quality Reports</h4>
+            <p>PSI distribution divergence, correlation comparison, ML utility (train-on-synthetic, test-on-real).</p>
+        </div>
+        <div class="card">
+            <h4>Privacy Metrics</h4>
+            <p>Distance to Closest Record, Nearest Neighbor Distance Ratio, Membership Inference Risk.</p>
+        </div>
+        <div class="card">
+            <h4>Business Constraints</h4>
+            <p>Enforce domain rules: <code>RangeConstraint</code>, <code>FormulaConstraint</code> on generated data.</p>
+        </div>
+        <div class="card">
+            <h4>sklearn Integration</h4>
+            <p>Drop <code>TabGANTransformer</code> into any sklearn pipeline for synthetic augmentation.</p>
+        </div>
+    </div>
+    <!-- Quality Report example -->
+    <h3>Quality &amp; Privacy Reports</h3>
+<pre><code><span class="kw">from</span> tabgan <span class="kw">import</span> QualityReport
+report = <span class="fn">QualityReport</span>(original_df, synthetic_df, cat_cols=[<span class="str">"gender"</span>], target_col=<span class="str">"label"</span>)
+report.<span class="fn">compute</span>()
+report.<span class="fn">to_html</span>(<span class="str">"quality_report.html"</span>)  <span class="cm"># Self-contained HTML with plots</span></code></pre>
+<pre><code><span class="kw">from</span> tabgan <span class="kw">import</span> PrivacyMetrics
+pm = <span class="fn">PrivacyMetrics</span>(original_df, synthetic_df, cat_cols=[<span class="str">"gender"</span>])
+summary = pm.<span class="fn">summary</span>()
+<span class="fn">print</span>(<span class="str">f"Privacy score: </span>{summary[<span class="str">'overall_privacy_score'</span>]}<span class="str">"</span>)  <span class="cm"># 0 = leaked, 1 = private</span></code></pre>
+    <!-- Constraints -->
+    <h3>Business Constraints</h3>
+<pre><code><span class="kw">from</span> tabgan <span class="kw">import</span> GANGenerator, RangeConstraint, FormulaConstraint
+gen = <span class="fn">GANGenerator</span>(
+    gen_x_times=<span class="num">1.5</span>,
+    cat_cols=[<span class="str">"department"</span>],
+    constraints=[
+        <span class="fn">RangeConstraint</span>(<span class="str">"age"</span>, min_val=<span class="num">18</span>, max_val=<span class="num">65</span>),
+        <span class="fn">RangeConstraint</span>(<span class="str">"salary"</span>, min_val=<span class="num">0</span>),
+        <span class="fn">FormulaConstraint</span>(<span class="str">"end_date > start_date"</span>),
+    ],
+)</code></pre>
+    <!-- sklearn pipeline -->
+    <h3>sklearn Pipeline Integration</h3>
+<pre><code><span class="kw">from</span> sklearn.pipeline <span class="kw">import</span> Pipeline
+<span class="kw">from</span> sklearn.ensemble <span class="kw">import</span> RandomForestClassifier
+<span class="kw">from</span> tabgan <span class="kw">import</span> TabGANTransformer
+pipe = <span class="fn">Pipeline</span>([
+    (<span class="str">"augment"</span>, <span class="fn">TabGANTransformer</span>(gen_x_times=<span class="num">2.0</span>, cat_cols=[<span class="str">"gender"</span>])),
+    (<span class="str">"model"</span>, <span class="fn">RandomForestClassifier</span>()),
+])
+pipe.<span class="fn">fit</span>(X_train, y_train)</code></pre>
+    <!-- Benchmarks -->
+    <h2>Benchmarks</h2>
+    <h3>Quality (Normalized ROC AUC)</h3>
+    <table>
+        <thead><tr><th>Dataset</th><th>CTGAN</th><th>Forest Diffusion</th><th>Random</th></tr></thead>
+        <tbody>
+            <tr><td>Credit</td><td>0.752</td><td><strong>0.781</strong></td><td>0.501</td></tr>
+            <tr><td>Adult Census</td><td>0.689</td><td><strong>0.712</strong></td><td>0.523</td></tr>
+            <tr><td>Telecom</td><td><strong>0.814</strong></td><td>0.799</td><td>0.548</td></tr>
+        </tbody>
+    </table>
+    <p style="color:var(--muted); font-size:.9rem;">Higher is better.</p>
+    <h3>Speed (generation time, 1000 rows, 8 features)</h3>
+    <table>
+        <thead><tr><th>Generator</th><th>Time</th><th>Notes</th></tr></thead>
+        <tbody>
+            <tr><td><strong>Random Baseline</strong></td><td>~0.1s</td><td>Instant &mdash; just resampling</td></tr>
+            <tr><td><strong>CTGAN (GAN)</strong></td><td>~1&ndash;10s</td><td>Fast, depends on epochs</td></tr>
+            <tr><td><strong>Forest Diffusion</strong></td><td>~30&ndash;120s</td><td>High quality, but slower</td></tr>
+            <tr><td><strong>LLM (GReaT)</strong></td><td>~5&ndash;30min</td><td>Best for text columns, GPU recommended</td></tr>
+        </tbody>
+    </table>
+    <h3>Execution Timing</h3>
+<pre><code>gen = <span class="fn">GANGenerator</span>(gen_x_times=<span class="num">1.1</span>)
+synthetic, _ = gen.<span class="fn">generate_data_pipe</span>(train, target, test)
+<span class="fn">print</span>(gen.last_timing_)
+<span class="cm"># {'preprocess': 0.001, 'generation': 2.3, 'postprocess': 0.01,</span>
+<span class="cm">#  'adversarial_filtering': 0.15, 'total': 2.46}</span></code></pre>
+    <!-- What's Next -->
+    <h2>What's Next</h2>
+    <ul>
+        <li><strong>Public Leaderboard</strong> for synthetic tabular data generators</li>
+        <li><strong>Differential Privacy</strong> guarantees (DP-SGD)</li>
+        <li><strong>Natural language generation</strong> &mdash; "Generate 1000 patients aged 20-40"</li>
+    </ul>
+    <!-- CTA -->
+    <div class="cta">
+        <a class="primary" href="https://pypi.org/project/tabgan/">pip install tabgan</a>
+        <a class="secondary" href="https://github.com/Diyago/Tabular-data-generation">GitHub</a>
+        <a class="secondary" href="https://huggingface.co/spaces/InsafQ/TabGAN">Interactive Demo</a>
+    </div>
+    <div class="footer">
+        <p>TabGAN is Apache 2.0 licensed. Contributions welcome!</p>
+        <p style="margin-top:.5rem;">
+            Star the repo if you find it useful:
+            <a href="https://github.com/Diyago/Tabular-data-generation">github.com/Diyago/Tabular-data-generation</a>
+        </p>
+    </div>
+</div>
+</body>
 </html>