Update README.md

efaf897 verified 7 months ago

3.77 kB

	---
	pipeline_tag: image-classification
	---
	# SpellNetASL

	SpellNetASL é um modelo de classificação de letras em American Sign Language (ASL), treinado com redes neurais convolucionais (CNNs), com foco em reconhecimento de fingerspelling em tempo real. O modelo faz parte da plataforma interativa SpellNet, que permite ao usuário praticar soletração em LIBRAS ou ASL por meio da webcam, com feedback instantâneo. Seu principal objetivo é promover acessibilidade e inclusão no ensino de línguas de sinais.

	## Detalhes do Modelo

	### Descrição

	* Desenvolvido por: [Cecilia Sedenho](https://br.linkedin.com/in/cec%C3%ADlia-nunes-sedenho-305059255/pt), [João Pedro Viguini](https://br.linkedin.com/in/jo%C3%A3o-pedro-viguini-1829281bb), [Daniel Carvalho](https://br.linkedin.com/in/daniel-carvalho-aba61717a), [Bernardo Marques](https://br.linkedin.com/in/bernardo-marques-costa), [Gabriel Iamato](https://br.linkedin.com/in/gabriel-campanelli-iamato), [Matheus Vicente](https://br.linkedin.com/in/matheushrv)
	* Patrocinado por: [SignLink](https://br.linkedin.com/company/sign-link-project)
	* Tipo do modelo: Classificador de imagem baseado em CNN (MobileNet via feature extraction)
	* Modelo base: MobileNet
	* Correspondência: [raia.projetos@gmail.com](mailto:raia.projetos@gmail.com), [ceciliasedenho@gmail.com](mailto:ceciliasedenho@gmail.com)

	### Fontes

	* Repositório: [https://github.com/gruporaia/SpellNet](https://github.com/gruporaia/SpellNet)
	* Demo: [Vídeo no YouTube](https://youtu.be/rYjGjfw7ID8)

	## Usos

	O modelo é destinado ao uso em aplicações de ensino e prática de fingerspelling em ASL. Os usuários interagem com a aplicação por meio de webcam, recebendo feedback letra por letra conforme tentam soletrar palavras. Pode ser usado por:

	* Estudantes de ASL;
	* Instrutores e intérpretes;
	* Pesquisadores em acessibilidade e visão computacional;
	* Desenvolvedores de aplicações educacionais.

	## Viéses, Riscos e Limitações

	* Vieses nos dados de treinamento: Como os dados foram coletados por membros da equipe via webcam, há risco de viés relacionado à aparência das mãos, fundo, iluminação e estilo de gesticulação.
	* Contextos inadequados: O modelo não é adequado para reconhecimento de gestos contínuos ou palavras com sinais únicos (sem soletração).

	## Como Usar

	```python
	# Available backend options are: "jax", "torch", "tensorflow".
	import os
	os.environ["KERAS_BACKEND"] = "torch"

	import keras

	model = keras.saving.load_model("hf://RAIA-BRASIL/spellnet_asl")
	```

	## Detalhes do treinamento

	### Dados de Treino

	* Dados autorais capturados via webcam com \~5.000 imagens por classe para ASL (gestos estáticos de letras).

	### Procedimento

	#### Pré-processamento

	* Redimensionamento para 224x224 px
	* Extração de landmarks com MediaPipe Hands
	* Data augmentation: rotação, variações de cor, salt and pepper noise

	#### Hiperparâmetros

	\[More Information Needed]

	### Infraestrutura computacional

	#### Hardware

	* 1x GPU (L4)
	* Treinamento feito localmente com validação cruzada estratificada por intérprete

	#### Software

	* Python, TensorFlow/Keras, OpenCV, MediaPipe, Docker, Streamlit

	## Avaliação

	### Dados de Teste & Métricas

	#### Dados de Teste

	* Conjunto separado por intérprete (cross-validation estratificada)

	#### Métricas

	* Acurácia

	### Resultados

	\| Tarefa \| Dataset \| Métrica \| Resultado \|
	\| --------------------------- \| --------------- \| -------- \| --------- \|
	\| Classificação de letras ASL \| Dataset autoral \| Acurácia \| 79% \|


	## Agradecimentos

	Agradecimentos aos membros da RAIA e à equipe da SignLink, cuja colaboração foi essencial para o sucesso deste projeto.