Update CLIPCLAP model: contrastive loss training on AudioCaps audio embeddings

Files changed (4) hide show

audio_model.onnx CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:35a70ad57524582540f560b1381444e4d7680d71f52fbd6240fd27f12752bb8a
-size 3284384

 version https://git-lfs.github.com/spec/v1
+oid sha256:92855569ded7179bd5f401eb929fc28176cb0f4ac39d69f459627ede857026f8
+size 3320456

audio_projection.onnx CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fe8aefc7c9e8b6809584f9748f759acfeb5254d4fb3d070658b75817effbb9f9
-size 1521

 version https://git-lfs.github.com/spec/v1
+oid sha256:2e0350792bf3ec28dfb78eb3760d2cb359151b982357d5e051dc5aaa5e00a879
+size 12705

audio_projection.onnx.data CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e968f01d6a4e88089e72d5c5a173f4cdcfa830ec2f6ef1e63822810e90c0fc5f
 size 4259840

 version https://git-lfs.github.com/spec/v1
+oid sha256:c041d3c0841fc7690e644179b1f787277341112a1a93235492b0c654cc61ecae
 size 4259840

projection_training_metadata.json CHANGED Viewed

@@ -2,8 +2,10 @@
   "clip_model": "openai/clip-vit-base-patch32",
   "clap_model": "laion/larger_clap_music_and_speech",
   "embed_dim": 512,
-  "num_captions": 1000,
-  "epochs": 20,
   "batch_size": 256,
-  "lr": 0.001
 }

   "clip_model": "openai/clip-vit-base-patch32",
   "clap_model": "laion/larger_clap_music_and_speech",
   "embed_dim": 512,
+  "training_dataset": "OpenSound/AudioCaps",
+  "training_method": "clap_audio_to_clip_text",
+  "num_samples": 10000,
+  "epochs": 30,
   "batch_size": 256,
+  "lr": 0.0001
 }