BlueV2

Running

notmax123 commited on Apr 29

Commit

9eebcc5

1 Parent(s): 0ce399f

Expand DD/MM/YYYY-style dates before generic number expansion

Files changed (1) hide show

app.py CHANGED Viewed

@@ -117,6 +117,7 @@ _MIXED_EN_SEGMENT_RE = re.compile(
     r"|\d+[A-Za-z]+"
     r"|[A-Za-z]+(?:[.'’\-][A-Za-z0-9]+)*"
 )
 _PERCENT_WORDS = {
     "he": "אחוז",
     "en": "percent",
@@ -804,6 +805,22 @@ def expand_ratios(text: str, lang: str = "en") -> str:
     return re.sub(r"(?<!\d)(\d+)\s*:\s*(\d+)(?!\d)", rf"\1 {word} \2", text)
 def normalize_common_text(text: str) -> str:
     text = strip_hebrew_nikud(text)
     text = re.sub(
@@ -819,6 +836,7 @@ def prepare_text_for_synthesis(text: str, lang: str) -> str:
     text = normalize_common_text(text)
     text = strip_hebrew_abbreviation_quotes(text, lang)
     text = expand_hebrew_lamed_before_latin(text, lang)
     text = expand_percent_symbols(text, lang=lang)
     text = expand_ratios(text, lang=lang)
     text = expand_numbers(text, lang=lang)

     r"|\d+[A-Za-z]+"
     r"|[A-Za-z]+(?:[.'’\-][A-Za-z0-9]+)*"
 )
+_DATE_RE = re.compile(r"(?<!\d)([0-3]?\d)[/.]([01]?\d)[/.](\d{2}|\d{4})(?!\d)")
 _PERCENT_WORDS = {
     "he": "אחוז",
     "en": "percent",
     return re.sub(r"(?<!\d)(\d+)\s*:\s*(\d+)(?!\d)", rf"\1 {word} \2", text)
+def expand_dates(text: str, lang: str = "en") -> str:
+    """Normalize numeric day/month/year dates before generic number expansion."""
+    def repl(m: re.Match[str]) -> str:
+        day = int(m.group(1))
+        month = int(m.group(2))
+        raw_year = m.group(3)
+        if not (1 <= day <= 31 and 1 <= month <= 12):
+            return m.group(0)
+        year = int(raw_year)
+        if len(raw_year) == 2:
+            year += 2000 if year < 70 else 1900
+        return f"{day} {month} {year}"
+    return _DATE_RE.sub(repl, text)
 def normalize_common_text(text: str) -> str:
     text = strip_hebrew_nikud(text)
     text = re.sub(
     text = normalize_common_text(text)
     text = strip_hebrew_abbreviation_quotes(text, lang)
     text = expand_hebrew_lamed_before_latin(text, lang)
+    text = expand_dates(text, lang=lang)
     text = expand_percent_symbols(text, lang=lang)
     text = expand_ratios(text, lang=lang)
     text = expand_numbers(text, lang=lang)