acul3
/

roberta-base-indo

indonesian-roberta-base

Model card Files Files and versions

Metrics Training metrics Community

acul3 commited on Sep 2, 2022

Commit

44e5f40

·

1 Parent(s): a1ae28e

add support for v3-32

Files changed (1) hide show

run_mlm_flax_stream.py +10 -1

run_mlm_flax_stream.py CHANGED Viewed

@@ -551,6 +551,10 @@ if __name__ == "__main__":
     # define number steps per stream epoch
     num_train_steps = data_args.num_train_steps
     # Create learning rate schedule
     warmup_fn = optax.linear_schedule(
         init_value=0.0, end_value=training_args.learning_rate, transition_steps=training_args.warmup_steps
@@ -714,8 +718,13 @@ if __name__ == "__main__":
         # process input samples
         model_inputs = data_collator(samples, pad_to_multiple_of=16)
         # Model forward
-        model_inputs = shard(model_inputs.data)
         state, train_metric, dropout_rngs = p_train_step(state, model_inputs, dropout_rngs)
         train_metrics.append(train_metric)

     # define number steps per stream epoch
     num_train_steps = data_args.num_train_steps
+    num_of_hosts = jax.process_count()
+    current_host_idx = jax.process_index()
     # Create learning rate schedule
     warmup_fn = optax.linear_schedule(
         init_value=0.0, end_value=training_args.learning_rate, transition_steps=training_args.warmup_steps
         # process input samples
         model_inputs = data_collator(samples, pad_to_multiple_of=16)
+        local_host_model_inputs = {
+                key: np.split(model_inputs.data[key], num_of_hosts, axis=0)[current_host_idx]
+                for key, value in model_inputs.data.items()
+            }
         # Model forward
+        model_inputs = shard(local_host_model_inputs)
         state, train_metric, dropout_rngs = p_train_step(state, model_inputs, dropout_rngs)
         train_metrics.append(train_metric)