dcavadia commited on
Commit
b528f84
·
1 Parent(s): 6c9e721

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +19 -4
README.md CHANGED
@@ -21,14 +21,29 @@ model-index:
21
  # nintendo-controllers-model-opt3
22
 
23
 
24
- Autogenerated by HuggingPics🤗🖼️
25
 
26
- Create your own image classifier for **anything** by running [the demo on Google Colab](https://colab.research.google.com/github/nateraw/huggingpics/blob/main/HuggingPics.ipynb).
27
 
28
- Report any issues with the demo at the [github repo](https://github.com/nateraw/huggingpics).
 
 
 
 
 
29
 
 
 
 
 
30
 
31
- ## Example Images
 
 
 
 
 
 
 
32
 
33
 
34
  #### microsoft xbox controller
 
21
  # nintendo-controllers-model-opt3
22
 
23
 
24
+ Modelo de clasificacion de imagenes con Python.
25
 
 
26
 
27
+ Las predicciones que se obtienen se realizan a traves de un modelo de aprendizaje profundo llamado transformador de visión (ViT) el cual es capaz de discernir entre un control de Xbox y un control de Playstation. En un ViT, la imagen de entrada se "corta" en subimágenes de igual tamaño y cada una de esas subimágenes pasa por una insercion lineal lo que hace que
28
+ cada subimagen sea sólo un vector unidimensional. Despues se le agrega una insercion posicional a cada uno de estos vectores lo cual permite a la red saber dónde se encuentra
29
+ cada subimagen originalmente en la imagen. Estos vectores se transmiten, junto con un vector de clasificación especial, a los bloques codificadores transformadores, cada uno de los cuales
30
+ se compone de : Una Normalización de Capas (LN), una Autoatención Multicabezal (MSA),una conexión residual, una segunda LN, un Perceptrón Multicapa (MLP)
31
+ y otra conexión residual, los cuales se conectan uno detrás de otro. Por último, se utiliza un bloque MLP de clasificación para la clasificación final sólo en el vector de clasificación especial, que al final de todo el proceso, es el que
32
+ tiene toda la informacion global de la imagen.
33
 
34
+ La data que se usa de entrada al modelo es obtenida atraves de una API de buscador de imagenes que las descarga y almacena desde la web, de la cual se recolectan ~150
35
+ imagenes por clase. Una vez obtenida las imagenes, se dividen entre un 75% y 15% para usar como entrenamiento y validacion respectivamente.
36
+ Para validar la data recolectada, se hace un pequeño muestreo al azar de las imagenes para confirma que las imagenes que consiguio la API, en su mayoria sean igual
37
+ a lo que se introdujo como busqueda (microsoft xbox controller y sony playstation controller).
38
 
39
+ Una vez etiquetada y mapeada la data, se preparan ejemplos en batches, los cuales seran alimentados de forma aleatorea a un modelo ViT ya preentrenado por usando el conjunto
40
+ de datos ImageNet-21k. El modelo consta de metodos de entrenamiento, validacion y optimizacion usando PyTorch, en este caso se uso atom como optimizador.
41
+
42
+ Una vez validadas las predicciones con las etiquetas de las imagenes, se obtuvo un modelo capaz de discernir entre una control de playstation y un control de xbox
43
+ con una precision de >60.
44
+
45
+
46
+ ## Imagenes de ejemplo
47
 
48
 
49
  #### microsoft xbox controller