File size: 2,683 Bytes
c5947ee
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
0820801
 
c5947ee
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
---
title: Detector de Dialecto Español
emoji: 🗣️
colorFrom: blue
colorTo: red
sdk: gradio
sdk_version: 4.44.0
app_file: app.py
pinned: false
---

# 🗣️ Detector de Dialecto Español: Argentino vs Español

Modelo de NLP basado en spaCy para detectar y clasificar dialectos del español (argentino 🇦🇷 vs español peninsular 🇪🇸).

## 🎯 Descripción

Este proyecto utiliza un modelo NER (Named Entity Recognition) entrenado con spaCy para identificar palabras y expresiones características de dos variantes del español:

- **Argentinismos**: Palabras y expresiones típicas de Argentina (che, boludo, vos, bondi, etc.)
- **Españolismos**: Palabras y expresiones típicas de España (tío, coño, guay, etc.)

## 🚀 Cómo funciona

El modelo detecta automáticamente:

### Argentinismos 🇦🇷
- **Vocabulario característico**: che, boludo, pibe, guita, bondi, quilombo
- **Voseo**: vos, tenés, sos, querés, sabés, podés, hacés
- **Expresiones**: pileta, remera, laburo, morfar

### Españolismos 🇪🇸
- **Vocabulario característico**: tío/tía, coño, ostras, hostia
- **Jerga**: molar, curro, guay, flipar, gilipollas
- **Expresiones**: botellón, me parto, chaval/chavala

## 📊 Métricas del Modelo

- **F-score**: 99.90%
- **Precision**: 99.90%
- **Recall**: 99.90%
- **Ejemplos de entrenamiento**: 10,000 (balanceado 50/50)
- **Dataset**: pysentimiento/spanish-tweets

## 🛠️ Tecnologías

- **spaCy 3.8.2**: Framework de NLP
- **Gradio 4.44.0**: Interfaz web interactiva
- **Pipeline**: tok2vec + ner
- **Modelo base**: es_core_news_md
- **Dataset**: https://huggingface.co/datasets/pysentimiento/spanish-tweets

## 💡 Casos de Uso

- Análisis de dialectos en redes sociales
- Estudios sociolingüísticos
- Clasificación automática de contenido por región
- Herramienta educativa para aprender variantes del español

## ⚠️ Limitaciones

- El modelo está optimizado para **texto informal** (tweets, mensajes)
- Puede tener falsos positivos con:
  - Palabras ambiguas fuera de contexto
  - Vocabulario compartido entre dialectos
- Solo distingue entre **argentino** y **español peninsular** (no otros dialectos latinoamericanos)

## 🔍 Ejemplos

**Argentino:**
> "Che boludo, ¿vos sabés dónde dejé las llaves del bondi?"

**Español:**
> "Tío, este curro es una pasada, chaval"

## 📝 Notas Técnicas

El modelo utiliza reglas de contexto para evitar falsos positivos en palabras ambiguas:
- "che" vs "Che Guevara"
- "mate" (bebida) vs "maté" (verbo)
- "colectivo" (autobús) vs "colectivo" (grupo)

## 👨‍💻 Autor

Desarrollado como proyecto educativo de NLP con spaCy.

## 📄 Licencia

MIT License