jnjj
/

Vvbvv

@@ -9,7 +9,7 @@ library_name: transformers
 ## Progreso de Entrenamiento
-- **Datasets procesados:** 40.0
-- **Ejemplos de texto procesados:** 120.0
-- **Tokens procesados:** 37085.0
-- **Última subida:** 2025-05-06 14:44:14 UTC

 ## Progreso de Entrenamiento
+- **Datasets procesados:** 41.0
+- **Ejemplos de texto procesados:** 123.0
+- **Tokens procesados:** 38134.0
+- **Última subida:** 2025-05-06 14:45:17 UTC

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b766940185bc50163423216b429620b8500277bbfaacddcbf523439a3a434270
 size 51957256

 version https://git-lfs.github.com/spec/v1
+oid sha256:9a6cc39be8760d896c41d4321d1cd81bb976b34928f69a0dfffd8a4b0807f996
 size 51957256

training.log CHANGED Viewed

@@ -258,3 +258,53 @@ ValueError: Compression type zstd not supported
 2025-05-06 16:43:33,126 INFO: Finished training and saved model/tokenizer for deepmind/aqua_rat config raw
 2025-05-06 16:43:38,702 INFO: Starting model update for allenai/c4, config: en
 2025-05-06 16:43:40,978 INFO: Finished training and saved model/tokenizer for allenai/c4 config en

 2025-05-06 16:43:33,126 INFO: Finished training and saved model/tokenizer for deepmind/aqua_rat config raw
 2025-05-06 16:43:38,702 INFO: Starting model update for allenai/c4, config: en
 2025-05-06 16:43:40,978 INFO: Finished training and saved model/tokenizer for allenai/c4 config en
+2025-05-06 16:44:17,507 INFO: Upload successful.
+2025-05-06 16:44:20,888 ERROR: Failed to get configs for gaia-benchmark/GAIA: Dataset 'gaia-benchmark/GAIA' is a gated dataset on the Hub. Visit the dataset page at https://huggingface.co/datasets/gaia-benchmark/GAIA to ask for access.
+2025-05-06 16:44:21,431 INFO: Preparing data for HuggingFaceH4/MATH-500, config: default
+2025-05-06 16:44:22,903 INFO: Starting model update for HuggingFaceH4/MATH-500, config: default
+2025-05-06 16:44:24,553 INFO: Finished training and saved model/tokenizer for HuggingFaceH4/MATH-500 config default
+2025-05-06 16:44:24,554 ERROR: Error in background_training_loop task scheduling: local variable 'merged_model' referenced before assignment
+2025-05-06 16:44:24,623 ERROR: Failed to get configs for cais/hle: Dataset 'cais/hle' is a gated dataset on the Hub. Visit the dataset page at https://huggingface.co/datasets/cais/hle to ask for access.
+2025-05-06 16:44:30,479 INFO: Preparing data for MLCommons/unsupervised_peoples_speech, config: default
+2025-05-06 16:44:43,691 ERROR: Error during data preparation for MLCommons/unsupervised_peoples_speech config default: To support encoding audio data, please install 'soundfile'.
+Traceback (most recent call last):
+  File "/usr/local/lib/python3.10/site-packages/datasets/features/audio.py", line 88, in encode_example
+    import soundfile as sf  # soundfile is a dependency of librosa, needed to decode audio files.
+ModuleNotFoundError: No module named 'soundfile'
+The above exception was the direct cause of the following exception:
+Traceback (most recent call last):
+  File "/home/user/app/app.py", line 233, in process_and_train
+    first_item = await asyncio.to_thread(lambda: next(iter(train_ds_instance), None))
+  File "/usr/local/lib/python3.10/asyncio/threads.py", line 25, in to_thread
+    return await loop.run_in_executor(None, func_call)
+  File "/usr/local/lib/python3.10/concurrent/futures/thread.py", line 58, in run
+    result = self.fn(*self.args, **self.kwargs)
+  File "/home/user/app/app.py", line 233, in <lambda>
+    first_item = await asyncio.to_thread(lambda: next(iter(train_ds_instance), None))
+  File "/usr/local/lib/python3.10/site-packages/datasets/iterable_dataset.py", line 2266, in __iter__
+    for key, example in ex_iterable:
+  File "/usr/local/lib/python3.10/site-packages/datasets/iterable_dataset.py", line 222, in __iter__
+    for key_example in islice(self.generate_examples_fn(**gen_kwags), shard_example_idx_start, None):
+  File "/usr/local/lib/python3.10/site-packages/datasets/packaged_modules/generator/generator.py", line 33, in _generate_examples
+    yield from enumerate(self.config.generator(**gen_kwargs))
+  File "/home/user/app/app.py", line 214, in gen_data_for_cfg
+    for ex in dataset_split:
+  File "/usr/local/lib/python3.10/site-packages/datasets/iterable_dataset.py", line 2266, in __iter__
+    for key, example in ex_iterable:
+  File "/usr/local/lib/python3.10/site-packages/datasets/iterable_dataset.py", line 1869, in __iter__
+    example = _apply_feature_types_on_example(
+  File "/usr/local/lib/python3.10/site-packages/datasets/iterable_dataset.py", line 1779, in _apply_feature_types_on_example
+    encoded_example = features.encode_example(example)
+  File "/usr/local/lib/python3.10/site-packages/datasets/features/features.py", line 2049, in encode_example
+    return encode_nested_example(self, example)
+  File "/usr/local/lib/python3.10/site-packages/datasets/features/features.py", line 1292, in encode_nested_example
+    {k: encode_nested_example(schema[k], obj.get(k), level=level + 1) for k in schema}
+  File "/usr/local/lib/python3.10/site-packages/datasets/features/features.py", line 1292, in <dictcomp>
+    {k: encode_nested_example(schema[k], obj.get(k), level=level + 1) for k in schema}
+  File "/usr/local/lib/python3.10/site-packages/datasets/features/features.py", line 1362, in encode_nested_example
+    return schema.encode_example(obj) if obj is not None else None
+  File "/usr/local/lib/python3.10/site-packages/datasets/features/audio.py", line 90, in encode_example
+    raise ImportError("To support encoding audio data, please install 'soundfile'.") from err
+ImportError: To support encoding audio data, please install 'soundfile'.