Spaces:

yoniif
/

final_assignment_yoni_gavriel

Sleeping

App Files Files Community

yoniif commited on Aug 13, 2025

Commit

d14dd35

verified ·

1 Parent(s): 48ed4a4

Update app.py

Browse files

Files changed (1) hide show

app.py +101 -50

app.py CHANGED Viewed

@@ -1,12 +1,12 @@
 # app.py
 import os
-import random
 import re
 import pandas as pd
 import gradio as gr
 from sentence_transformers import SentenceTransformer, util
-# Optional: make HF downloads less flaky on Spaces
 os.environ.setdefault("HF_HUB_READ_TIMEOUT", "60")
 os.environ.setdefault("HF_HUB_ENABLE_HF_TRANSFER", "1")
@@ -16,16 +16,17 @@ os.environ.setdefault("HF_HUB_ENABLE_HF_TRANSFER", "1")
 CSV_PATH = "synthetic_influencers.csv"
 NUM_ROWS = 1200       # ≥1000 as required
 SEED = 42             # reproducibility
 def create_synthetic_influencer_dataset(n=1200, out_csv="synthetic_influencers.csv", seed=42):
     """
     Creates a synthetic dataset that mirrors your current schema:
     Columns: Rank, Name, Followers, ER, Country, Niche, Reach, Source File, Source Path
-    Uses a Hugging Face text-generation model to generate realistic first + last names.
     """
     random.seed(seed)
-    # Lazy import so the app still runs even if transformers isn't preinstalled locally
     try:
         from transformers import pipeline
     except Exception as e:
@@ -33,9 +34,8 @@ def create_synthetic_influencer_dataset(n=1200, out_csv="synthetic_influencers.c
             "Transformers not installed. Install with: pip install transformers torch"
         ) from e
-    # Use an instruction-following model for names (much cleaner than distilgpt2)
-    # Small & CPU-friendly; you can bump to "google/flan-t5-base" if you want even better quality.
-    name_gen = pipeline("text2text-generation", model="google/flan-t5-small")
     countries = [
         "USA","UK","Canada","Australia","Brazil","India","France","Germany","Italy","Spain",
@@ -48,46 +48,97 @@ def create_synthetic_influencer_dataset(n=1200, out_csv="synthetic_influencers.c
     ]
     platforms = ["youtube", "instagram", "tiktok", "twitch", "x"]  # lowercase -> file prefix
-    def generate_person_name(country: str) -> str:
-        # Prompt FLAN to return exactly one First Last
-        prompt = (
-            f"Generate one realistic influencer full name (first and last) from {country}. "
-            "Return only: Firstname Lastname."
-        )
-        out = name_gen(
-            prompt,
-            max_new_tokens=16,
-            num_beams=1,
-            do_sample=True,
-            temperature=0.7,
-            top_p=0.9
-        )[0]["generated_text"]
-        name = out.strip().split("\n")[0]
-        name = re.sub(r"[^A-Za-zÀ-ÖØ-öø-ÿ' \-]", "", name).strip()
-        # Normalize spacing and capitalization
-        parts = [p for p in re.split(r"[ \-]+", name) if p]
-        if len(parts) < 2:
-            # one gentle retry with slightly different prompt
-            prompt2 = "Give one realistic full human name. Return only: Firstname Lastname."
-            out2 = name_gen(prompt2, max_new_tokens=12, do_sample=True, temperature=0.7, top_p=0.9)[0]["generated_text"]
-            name = out2.strip().split("\n")[0]
-            name = re.sub(r"[^A-Za-zÀ-ÖØ-öø-ÿ' \-]", "", name).strip()
-            parts = [p for p in re.split(r"[ \-]+", name) if p]
-        if len(parts) < 2:
-            # final minimal fallback (rare)
-            return "Alex Morgan"
-        def fix_case(s):
-            # keep O'Connor-style capitalization
-            chunks = s.split("'")
-            chunks = [c.capitalize() for c in chunks]
-            return "'".join(chunks)
-        first, last = fix_case(parts[0]), fix_case(parts[1])
-        return f"{first} {last}"
     rows = []
     for rank in range(1, n + 1):
@@ -102,8 +153,8 @@ def create_synthetic_influencer_dataset(n=1200, out_csv="synthetic_influencers.c
         source_file = f"{platform_token}_data_{region_hint}.csv"  # <- first token = platform
         source_path = f"synthetic/{source_file}"
-        # --- Name via HF (FLAN-T5) ---
-        name = generate_person_name(country)
         rows.append([
             rank, name, followers, er, country, niche, reach, source_file, source_path
@@ -197,7 +248,7 @@ iface = gr.Interface(
     article=(
         "**Project:** AI-Powered Influencer Recommender for Social Media Marketing\n\n"
         "**Models:**\n"
-        "- google/flan-t5-small for synthetic influencer full names (dataset creation)\n"
         "- sentence-transformers/all-MiniLM-L6-v2 for semantic embeddings (recommendations)\n\n"
         "**Dataset:** 1,200-row synthetic influencer dataset generated at runtime."
     ),

 # app.py
 import os
 import re
+import random
 import pandas as pd
 import gradio as gr
 from sentence_transformers import SentenceTransformer, util
+# Make HF downloads less flaky on Spaces
 os.environ.setdefault("HF_HUB_READ_TIMEOUT", "60")
 os.environ.setdefault("HF_HUB_ENABLE_HF_TRANSFER", "1")
 CSV_PATH = "synthetic_influencers.csv"
 NUM_ROWS = 1200       # ≥1000 as required
 SEED = 42             # reproducibility
+random.seed(SEED)
 def create_synthetic_influencer_dataset(n=1200, out_csv="synthetic_influencers.csv", seed=42):
     """
     Creates a synthetic dataset that mirrors your current schema:
     Columns: Rank, Name, Followers, ER, Country, Niche, Reach, Source File, Source Path
+    Uses a Hugging Face model (FLAN-T5) to create pools of common first/last names per country,
+    then samples realistic First Last names from those pools.
     """
     random.seed(seed)
     try:
         from transformers import pipeline
     except Exception as e:
             "Transformers not installed. Install with: pip install transformers torch"
         ) from e
+    # Smaller instruction-following model; you can bump to "google/flan-t5-base" if you want
+    t5 = pipeline("text2text-generation", model="google/flan-t5-small")
     countries = [
         "USA","UK","Canada","Australia","Brazil","India","France","Germany","Italy","Spain",
     ]
     platforms = ["youtube", "instagram", "tiktok", "twitch", "x"]  # lowercase -> file prefix
+    # -------- Name pool builder (uses HF model once per country) --------
+    COUNTRY_FALLBACKS = {
+        "USA": (["Emma","Olivia","Ava","Mia","Noah","Liam","Ethan","James"],
+                ["Smith","Johnson","Brown","Davis","Miller","Wilson","Moore","Taylor"]),
+        "UK": (["Oliver","George","Amelia","Isla","Jack","Harry","Sophia","Emily"],
+               ["Smith","Jones","Taylor","Brown","Williams","Wilson","Johnson","Davies"]),
+        "Canada": (["Liam","Noah","William","Olivia","Emma","Charlotte","Benjamin","Lucas"],
+                   ["Smith","Brown","Tremblay","Martin","Roy","Wilson","Taylor","Johnson"]),
+        "Australia": (["Oliver","Noah","William","Charlotte","Olivia","Isla","Jack","Ethan"],
+                      ["Smith","Jones","Williams","Brown","Wilson","Taylor","Anderson","Martin"]),
+        "Brazil": (["Gabriel","Miguel","Arthur","Heitor","Valentina","Laura","Julia","Maria"],
+                   ["Silva","Santos","Oliveira","Souza","Rodrigues","Ferreira","Almeida","Lima"]),
+        "India": (["Arjun","Aarav","Ishaan","Vihaan","Aanya","Anaya","Diya","Isha"],
+                  ["Sharma","Patel","Gupta","Khan","Singh","Kumar","Reddy","Iyer"]),
+        "France": (["Lucas","Louis","Hugo","Jules","Emma","Louise","Alice","Chloé"],
+                   ["Martin","Bernard","Dubois","Thomas","Robert","Richard","Petit","Durand"]),
+        "Germany": (["Leon","Noah","Elias","Finn","Mia","Emilia","Hannah","Sophia"],
+                    ["Müller","Schmidt","Schneider","Fischer","Weber","Meyer","Wagner","Becker"]),
+        "Italy": (["Alessandro","Leonardo","Lorenzo","Gabriele","Sofia","Giulia","Aurora","Alice"],
+                  ["Rossi","Russo","Ferrari","Esposito","Bianchi","Romano","Colombo","Ricci"]),
+        "Spain": (["Hugo","Mateo","Martín","Lucas","Lucía","Martina","Sofía","Julia"],
+                  ["García","Fernández","González","Rodríguez","López","Martínez","Sánchez","Pérez"]),
+        "Israel": (["Noa","Maya","Tamar","Yael","Ariel","Daniel","Itai","Lior"],
+                   ["Cohen","Levi","Mizrahi","Peretz","Biton","Azulay","Dahan","Halevi"]),
+        "UAE": (["Mohammed","Omar","Yousef","Khalid","Fatima","Aisha","Mariam","Noora"],
+                ["Al Nahyan","Al Maktoum","Al Qasimi","Al Mazrouei","Al Marri","Al Ali","Al Hammadi","Al Ketbi"]),
+        "Netherlands": (["Daan","Sem","Luuk","Bram","Emma","Sophie","Julia","Tess"],
+                        ["de Jong","Jansen","de Vries","Bakker","Visser","Smit","Meijer","de Boer"]),
+        "Sweden": (["William","Liam","Noah","Ella","Alva","Alice","Maja","Astrid"],
+                   ["Johansson","Andersson","Karlsson","Nilsson","Eriksson","Larsson","Olsson","Persson"]),
+        "Mexico": (["Santiago","Mateo","Sebastián","Emiliano","Sofía","Valentina","Regina","Camila"],
+                   ["Hernández","García","Martínez","López","González","Pérez","Rodríguez","Sánchez"]),
+    }
+    first_cache, last_cache = {}, {}
+    def _clean_list_text(txt: str):
+        # turn "Emma, Olivia; Ava\nMia" -> ["Emma","Olivia","Ava","Mia"]
+        txt = re.sub(r"[\[\]\(\)\"']", " ", txt)
+        parts = re.split(r"[,\n;]+", txt)
+        names = []
+        for p in parts:
+            p = re.sub(r"[^A-Za-zÀ-ÖØ-öø-ÿ \-]", "", p).strip()
+            if 2 <= len(p) <= 20:
+                # keep one token (first) for first names; for last names allow hyphenated
+                names.append(p.split()[0].capitalize())
+        # dedupe, keep order
+        seen = set()
+        out = []
+        for n in names:
+            if n.lower() not in seen:
+                out.append(n)
+                seen.add(n.lower())
+        return out
+    def get_name_pools(country: str):
+        """Use HF model once per country to get lists of first names and surnames."""
+        if country in first_cache and country in last_cache:
+            return first_cache[country], last_cache[country]
+        try:
+            first_prompt = (
+                f"List 20 common first names in {country}. "
+                "Return comma-separated names only."
+            )
+            last_prompt = (
+                f"List 20 common surnames in {country}. "
+                "Return comma-separated names only."
+            )
+            first_txt = t5(first_prompt, max_new_tokens=128, do_sample=False)[0]["generated_text"]
+            last_txt  = t5(last_prompt,  max_new_tokens=128, do_sample=False)[0]["generated_text"]
+            firsts = _clean_list_text(first_txt)
+            lasts  = _clean_list_text(last_txt)
+            # Ensure we have reasonable pools; otherwise fall back
+            if len(firsts) < 8 or len(lasts) < 8:
+                raise ValueError("too few names parsed")
+        except Exception:
+            firsts, lasts = COUNTRY_FALLBACKS.get(country, COUNTRY_FALLBACKS["USA"])
+        first_cache[country], last_cache[country] = firsts, lasts
+        return firsts, lasts
+    def sample_full_name(country: str) -> str:
+        firsts, lasts = get_name_pools(country)
+        first = random.choice(firsts)
+        last  = random.choice(lasts)
+        # Keep O'Connor/Al Nahyan formatting reasonable (space or apostrophe already in last)
+        # Capitalize first token if last is multi-word (e.g., "Al Nahyan" -> keep as-is)
+        def cap_name(s):
+            if "'" in s:
+                return "'".join([p.capitalize() for p in s.split("'")])
+            return " ".join([p.capitalize() for p in s.split(" ")])
+        return f"{cap_name(first)} {cap_name(last)}"
     rows = []
     for rank in range(1, n + 1):
         source_file = f"{platform_token}_data_{region_hint}.csv"  # <- first token = platform
         source_path = f"synthetic/{source_file}"
+        # --- Name via HF model generated pools ---
+        name = sample_full_name(country)
         rows.append([
             rank, name, followers, er, country, niche, reach, source_file, source_path
     article=(
         "**Project:** AI-Powered Influencer Recommender for Social Media Marketing\n\n"
         "**Models:**\n"
+        "- google/flan-t5-small to synthesize country-specific first/last name pools\n"
         "- sentence-transformers/all-MiniLM-L6-v2 for semantic embeddings (recommendations)\n\n"
         "**Dataset:** 1,200-row synthetic influencer dataset generated at runtime."
     ),