Buckets:

rtrm's picture
|
download
raw
4.15 kB

Quiz di fine capitolo

In questo capitolo abbiamo fatto un bel po' di strada! Non preoccuparti se non hai colto tutti i dettagli; i capitoli successivi ti aiuteranno a capire come funzionano le cose dietro le quinte!

Prima di andare oltre, mettiamo alla prova ciò che hai imparato in questo capitolo.

1. Usando la funzione load_dataset() in 🤗 Datasets, da dove puoi caricare un dataset?

data_files di load_dataset() per caricare dataset locali.", correct: true }, { text: "L'Hub Hugging Face.", explain: "Corretto! Puoi caricare i dataset presenti sull'Hub fornendo l'ID del dataset, ad esempio load_dataset('emotion').", correct: true }, { text: "Un server remoto", explain: "Corretto! Puoi passare un URL nell'argomento data_files di load_dataset() per caricare file in remoto.", correct: true }, ]} />

2. Immagina di caricare uno dei task GLUE come segue:

from datasets import load_dataset

dataset = load_dataset("glue", "mrpc", split="train")

Quale dei comandi seguenti produce un campione di 50 elementi casuali da dataset?

dataset.sample(50)", explain: "Questa risposta è sbagliata -- non esiste nessun metodo Dataset.sample()." }, { text: "dataset.shuffle().select(range(50))", explain: "Corretto! Come hai visto in questo capitolo, puoi mescolare il dataset e selezionarne i campioni.", correct: true }, { text: "dataset.select(range(50)).shuffle()", explain: "Questa risposta è sbagliata -- anche se il codice verrebbe eseguito, mescolerebbe solo i primi 50 elementi del dataset" } ]} />

3. Immagina di avere un dataset sugli animali domestici, chiamto pets_dataset, che ha una colonna name che denota il nome di ogni animale. Quale degli approcci ci permetterebbe di filtrare il dataset e lasciare solo gli animali il cui nome inizia con la lettera "L"?

pets_dataset.filter(lambda x : x['name'].startswith('L'))", explain: "Corretto! Usare una funzione lambda di Python per questi filtri veloci è un'ottima idea. Riesci a pensare a un'altra soluzione?", correct: true }, { text: "pets_dataset.filter(lambda x['name'].startswith('L'))", explain: "Questa risposta è sbagliata: una funzione lambda ha la forma generica lambda argomenti : espressione, per cui devi esplicitare gli argomenti in questo caso." }, { text: "Creare una funzione come def filter_names(x): return x['name'].startswith('L') ed eseguire pets_dataset.filter(filter_names).", explain: "Corretto! Proprio come Dataset.map(), puoi passare delle funzioni esplicite a Dataset.filter(). Quest'opzione è utile quando hai un'espressione complessa che non è adatta a una funzione lambda. Quale altra soluzione potrebbe funzionare?", correct: true } ]} />

4. Cos'è il memory mapping?

5. Quali dei seguenti sono i principali vantaggi del memory mapping?

6. Cosa causa un errore nel codice seguente?

from datasets import load_dataset

dataset = load_dataset("allocine", streaming=True, split="train")
dataset[0]

IterableDataset.", explain: "Corretto! Un IterableDataset è un generatore e non un contenitore, per cui puoi accedere ai suoi elementi solo usando next(iter(dataset)).", correct: true }, { text: "Il dataset allocine non ha una sezione train.", explain: "Questa risposta è sbagliata -- controlla le informazioni sul dataset allocine sull'Hub per vedere quali sezioni contiente." } ]} />

7. Quali dei seguenti sono i vantaggi principali di creare una dataset card?

8. Cos'è la ricerca semantica?

9. Nelle ricerche semantiche asimmetriche, solitamente si hanno:

10. Posso usare 🤗 Datasets per caricare dati utilizzabili in altri domini, come processamento del parlato?

dataset MNIST sull'Hub per un esempio di dati per visione artificiale." }, { text: "Sì", explain: "Questa risposta è corretta! Controlla gli eccitanti sviluppi per il parlato e la visione artificiale nella libreria 🤗 Transformers per vedere come è utilizzato 🤗 Datasets in questi domini.", correct : true }, ]} />

Xet Storage Details

Size:
4.15 kB
·
Xet hash:
bade2badeb26ea74fae5c31db561a51f48961485e1eb5b7fc88b00a19e8fc52a

Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.