Buckets:

hf-doc-build
/

doc-dev

Files

xet

hf-doc-build/doc-dev / course /pr_1114 /es /chapter1 /8.md

rtrm

about 2 months ago

preview code

download

raw

2.39 kB

	# Sesgos y limitaciones

	<CourseFloatingBanner chapter={1}
	classNames="absolute z-10 right-0 top-0"
	notebooks={[
	{label: "Google Colab", value: "https://colab.research.google.com/github/huggingface/notebooks/blob/master/course/es/chapter1/section8.ipynb"},
	{label: "Aws Studio", value: "https://studiolab.sagemaker.aws/import/github/huggingface/notebooks/blob/master/course/es/chapter1/section8.ipynb"},
	]} />

	Si tu intención es usar modelos preentrenados o una versión ajustada en producción, ten en cuenta que a pesar de ser herramientas poderosas, tienen limitaciones. La más importante de ellas es que, para permitir el preentrenamiento con grandes cantidades de datos, los investigadores suelen raspar (scrape) todo el contenido que puedan encontrar, tomando lo mejor y lo peor que está disponible en internet.

	Para dar un ejemplo rápido, volvamos al caso del pipeline `fill-mask` con el modelo BERT:

	```python
	from transformers import pipeline

	unmasker = pipeline("fill-mask", model="bert-base-uncased")
	result = unmasker("This man works as a [MASK].")
	print([r["token_str"] for r in result])

	result = unmasker("This woman works as a [MASK].")
	print([r["token_str"] for r in result])
	```

	```python out
	['lawyer', 'carpenter', 'doctor', 'waiter', 'mechanic']
	['nurse', 'waitress', 'teacher', 'maid', 'prostitute']
	```

	Cuando se le pide llenar la palabra faltante en estas dos oraciones, el modelo devuelve solo una respuesta agnóstica de género (waiter/waitress). Las otras son ocupaciones que se suelen asociar con un género específico -- y si, prostituta es una de las primeras 5 posibilidades que el modelo asocia con "mujer" y "trabajo". Esto sucede a pesar de que BERT es uno de los pocos modelos de Transformadores que no se construyeron basados en datos raspados de todo el internet, pero usando datos aparentemente neutrales (está entrenado con los conjuntos de datos de [Wikipedia en Inglés](https://huggingface.co/datasets/wikipedia) y [BookCorpus](https://huggingface.co/datasets/bookcorpus)).

	Cuando uses estas herramientas, debes tener en cuenta que el modelo original que estás usando puede muy fácilmente generar contenido sexista, racista u homófobo. Ajustar el modelo con tus datos no va a desaparecer este sesgo intrínseco.


	<EditOnGithub source="https://github.com/huggingface/course/blob/main/chapters/es/chapter1/8.mdx" />

Xet Storage Details

Size:: 2.39 kB
Xet hash:: 7b2c4d03e4e6ea28dccf1d436555d5d4602bfc871ccce2d2b7fda19c78ae216b

Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.