Buckets:

hf-doc-build
/

doc-dev

Files

xet

hf-doc-build/doc-dev / course /pr_1114 /it /chapter1 /8.md

rtrm

about 1 month ago

preview code

download

raw

2.49 kB

	# Bias e limiti

	<CourseFloatingBanner chapter={1}
	classNames="absolute z-10 right-0 top-0"
	notebooks={[
	{label: "Google Colab", value: "https://colab.research.google.com/github/huggingface/notebooks/blob/master/course/it/chapter1/section8.ipynb"},
	{label: "Aws Studio", value: "https://studiolab.sagemaker.aws/import/github/huggingface/notebooks/blob/master/course/it/chapter1/section8.ipynb"},
	]} />

	Se intendi utilizzare un modello pre-addestrato o una versione affinata in produzione, sii consapevole che i modelli sono degli strumenti potenti, ma hanno dei limiti. Il più grande limite è che, per permettere un pre-addestramento su una quantità importante di dati, i ricercatori spesso includono tutti i contenuti ai quali riescono ad accedere, prendendo nel contempo il meglio e il peggio di ciò che Intenet offre.

	Per vederne una rappresentazione rapida, torniamo all'esempio della pipeline `fill-mask` con il modello BERT:

	```python
	from transformers import pipeline

	unmasker = pipeline("fill-mask", model="bert-base-uncased")
	result = unmasker("This man works as a [MASK].")
	print([r["token_str"] for r in result])

	result = unmasker("This woman works as a [MASK].")
	print([r["token_str"] for r in result])
	```

	```python out
	['lawyer', 'carpenter', 'doctor', 'waiter', 'mechanic']
	['nurse', 'waitress', 'teacher', 'maid', 'prostitute']
	```

	Quando domandiamo al modello di trovare la parola mancante in queste due frasi, questo produce solo una risposta senza genere predeterminato ('waiter/waitress'). Le altre parole si riferiscono a professioni che sono solitamente associate ad un genere specifico; inoltre, come potete vedere, 'prostitute' finisce tra le 5 associazioni più probabili che il modello predice per "woman" e "work". Ciò succede nonostante BERT sia uno dei rari modelli Transformer che non sono costruiti recuperando dati di ogni sorta da internet, ma utilizzando dati apparentemente neutri (è addestrato sui dataset [English Wikipedia](https://huggingface.co/datasets/wikipedia) e [BookCorpus](https://huggingface.co/datasets/bookcorpus)).

	Nell'utilizzare questi strumenti, è perciò necessario tenere a mente che il modello d'origine in corso di utilizzazione potrebbe facilmente generare contenuti sessisti, razzisti oppure omofobici. Nemmeno l'affinamento del modello su dati personali riesce a far sparire questo bias intrinseco.


	<EditOnGithub source="https://github.com/huggingface/course/blob/main/chapters/it/chapter1/8.mdx" />

Xet Storage Details

Size:: 2.49 kB
Xet hash:: 2471260ab3942fe3e1f72af1af89c97c2be22fffa855d368f87a4ed2a0aa47b8

Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.