Spaces:

tx3bas
/

Traduceme

Sleeping

App Files Files Community

tx3bas commited on Mar 5, 2025

Commit

8017c3e

verified ·

1 Parent(s): e6f2574

Update app.py

Browse files

Files changed (1) hide show

app.py +27 -19

app.py CHANGED Viewed

@@ -43,23 +43,23 @@ lang_dict = {
 lang_list = list(lang_dict.keys())
 def split_html_content(text):
-    """Separa etiquetas HTML y su contenido"""
-    # Expresión regular mejorada para manejar elementos HTML correctamente
-    pattern = r'(<[^>]+>.*?</[^>]+>)|([^<]+)'
     parts = []
     for match in re.finditer(pattern, text, re.DOTALL):
-        if match.group(1):  # Elemento HTML completo
             html_tag = match.group(1)
-            content_match = re.search(r'>((?:[^<]|<(?!/[^>]+>))*)<', html_tag, re.DOTALL)
-            if content_match:
                 content = content_match.group(1).strip()
                 opening = html_tag[:content_match.start(1) + 1]
                 closing = html_tag[content_match.end(1):]
-                parts.append(('html_open', opening))
-                if content:  # Solo añadir contenido si no está vacío
-                    parts.append(('text', content))
-                parts.append(('html_close', closing))
             else:
                 parts.append(('html', html_tag))
         elif match.group(2):  # Texto fuera de etiquetas
@@ -83,28 +83,36 @@ def split_text(text, limit=4000):
     return chunks
 def translate_text(source_lang, target_lang, text):
-    """Traduce contenido manteniendo etiquetas HTML"""
     source_code = lang_dict[source_lang]
     target_code = lang_dict[target_lang]
     # Separar HTML y contenido
     parts = split_html_content(text)
     # Traducir solo las partes de texto
     translated_parts = []
     for part_type, content in parts:
-        if part_type == 'text' and content:  # Solo traducir si hay contenido
-            chunks = split_text(content)
-            translated_chunks = [
-                translate(chunk, target_code, source_code)
-                for chunk in chunks
-            ]
-            translated_parts.append(''.join(translated_chunks))
         else:
             # Mantener etiquetas HTML sin cambios
             translated_parts.append(content)
-    # Unir las partes sin añadir espacios adicionales innecesarios
     return ''.join(translated_parts)
 def main(Texto, source_lang, target_lang):

 lang_list = list(lang_dict.keys())
 def split_html_content(text):
+    """Separa etiquetas HTML completas y texto traducible"""
+    # Expresión regular para capturar etiquetas HTML completas y texto fuera de ellas
+    pattern = r'(<[^>]+(?:>.*?</[^>]+>|>))|([^<]+)'
     parts = []
     for match in re.finditer(pattern, text, re.DOTALL):
+        if match.group(1):  # Elemento HTML completo (incluye etiquetas y contenido interno)
             html_tag = match.group(1)
+            # Si tiene contenido interno, separarlo
+            content_match = re.search(r'>(.*?)</', html_tag, re.DOTALL)
+            if content_match and content_match.group(1).strip():
                 content = content_match.group(1).strip()
                 opening = html_tag[:content_match.start(1) + 1]
                 closing = html_tag[content_match.end(1):]
+                parts.append(('html', opening))
+                parts.append(('text', content))
+                parts.append(('html', closing))
             else:
                 parts.append(('html', html_tag))
         elif match.group(2):  # Texto fuera de etiquetas
     return chunks
 def translate_text(source_lang, target_lang, text):
+    """Traduce contenido manteniendo etiquetas HTML intactas"""
     source_code = lang_dict[source_lang]
     target_code = lang_dict[target_lang]
     # Separar HTML y contenido
     parts = split_html_content(text)
+    # Lista de términos que no deben traducirse (nombres propios, marcas, etc.)
+    preserve_terms = {'DGM Services', 'Alexandru George Bratosin', 'X2596200v', 'info@dgm-services.com',
+                      'https://dgm-services.com/', 'Calle Federico García Lorca', '722 17 99 13'}
     # Traducir solo las partes de texto
     translated_parts = []
     for part_type, content in parts:
+        if part_type == 'text' and content:
+            # Verificar si el contenido está en la lista de términos a preservar
+            if content in preserve_terms:
+                translated_parts.append(content)
+            else:
+                # Dividir en fragmentos si es necesario
+                chunks = split_text(content)
+                translated_chunks = [
+                    translate(chunk, target_code, source_code)
+                    for chunk in chunks
+                ]
+                translated_parts.append(''.join(translated_chunks))
         else:
             # Mantener etiquetas HTML sin cambios
             translated_parts.append(content)
     return ''.join(translated_parts)
 def main(Texto, source_lang, target_lang):