alexwengg commited on May 8

Commit

77c9940

verified ·

1 Parent(s): 677224d

Upload 48 files

Browse files

Files changed (49) hide show

.gitattributes +8 -0
iteration_1/README.md +151 -0
iteration_1/manifest.json +216 -0
iteration_1/packages/.DS_Store +0 -0
iteration_1/packages/bert_fp16.mlpackage/Data/com.apple.CoreML/model.mlmodel +3 -0
iteration_1/packages/bert_fp16.mlpackage/Data/com.apple.CoreML/weights/weight.bin +3 -0
iteration_1/packages/bert_fp16.mlpackage/Manifest.json +18 -0
iteration_1/packages/decoder_pre_fp16.mlpackage/Data/com.apple.CoreML/model.mlmodel +3 -0
iteration_1/packages/decoder_pre_fp16.mlpackage/Data/com.apple.CoreML/weights/weight.bin +3 -0
iteration_1/packages/decoder_pre_fp16.mlpackage/Manifest.json +18 -0
iteration_1/packages/decoder_upsample_fp16.mlpackage/Data/com.apple.CoreML/model.mlmodel +3 -0
iteration_1/packages/decoder_upsample_fp16.mlpackage/Data/com.apple.CoreML/weights/weight.bin +3 -0
iteration_1/packages/decoder_upsample_fp16.mlpackage/Manifest.json +18 -0
iteration_1/packages/diffusion_unet_fp16.mlpackage/Data/com.apple.CoreML/model.mlmodel +3 -0
iteration_1/packages/diffusion_unet_fp16.mlpackage/Data/com.apple.CoreML/weights/weight.bin +3 -0
iteration_1/packages/diffusion_unet_fp16.mlpackage/Manifest.json +18 -0
iteration_1/packages/duration_predictor_fp16.mlpackage/Data/com.apple.CoreML/model.mlmodel +3 -0
iteration_1/packages/duration_predictor_fp16.mlpackage/Data/com.apple.CoreML/weights/weight.bin +3 -0
iteration_1/packages/duration_predictor_fp16.mlpackage/Manifest.json +18 -0
iteration_1/packages/f0n_predictor_fp16.mlpackage/Data/com.apple.CoreML/model.mlmodel +3 -0
iteration_1/packages/f0n_predictor_fp16.mlpackage/Data/com.apple.CoreML/weights/weight.bin +3 -0
iteration_1/packages/f0n_predictor_fp16.mlpackage/Manifest.json +18 -0
iteration_1/packages/har_source.mlpackage/Data/com.apple.CoreML/model.mlmodel +3 -0
iteration_1/packages/har_source.mlpackage/Manifest.json +18 -0
iteration_1/packages/ref_encoder_fp16.mlpackage/Data/com.apple.CoreML/model.mlmodel +3 -0
iteration_1/packages/ref_encoder_fp16.mlpackage/Data/com.apple.CoreML/weights/weight.bin +3 -0
iteration_1/packages/ref_encoder_fp16.mlpackage/Manifest.json +18 -0
iteration_1/packages/text_encoder_fp16.mlpackage/Data/com.apple.CoreML/model.mlmodel +3 -0
iteration_1/packages/text_encoder_fp16.mlpackage/Data/com.apple.CoreML/weights/weight.bin +3 -0
iteration_1/packages/text_encoder_fp16.mlpackage/Manifest.json +18 -0
iteration_1/samples/sample_python.wav +3 -0
iteration_1/samples/sample_swift.wav +3 -0
iteration_1/voices/1221-135767-0014.wav +0 -0
iteration_1/voices/1789_142896_000022_000005.wav +3 -0
iteration_1/voices/3.wav +0 -0
iteration_1/voices/4.wav +0 -0
iteration_1/voices/4077-13754-0000.wav +0 -0
iteration_1/voices/5.wav +0 -0
iteration_1/voices/5639-40744-0020.wav +0 -0
iteration_1/voices/696_92939_000016_000006.wav +3 -0
iteration_1/voices/908-157963-0027.wav +0 -0
iteration_1/voices/Gavin.wav +3 -0
iteration_1/voices/Nima.wav +3 -0
iteration_1/voices/Vinay.wav +3 -0
iteration_1/voices/Yinghao.wav +3 -0
iteration_1/voices/amused.wav +0 -0
iteration_1/voices/anger.wav +0 -0
iteration_1/voices/disgusted.wav +0 -0
iteration_1/voices/sleepy.wav +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,11 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+iteration_1/samples/sample_python.wav filter=lfs diff=lfs merge=lfs -text
+iteration_1/samples/sample_swift.wav filter=lfs diff=lfs merge=lfs -text
+iteration_1/voices/1789_142896_000022_000005.wav filter=lfs diff=lfs merge=lfs -text
+iteration_1/voices/696_92939_000016_000006.wav filter=lfs diff=lfs merge=lfs -text
+iteration_1/voices/Gavin.wav filter=lfs diff=lfs merge=lfs -text
+iteration_1/voices/Nima.wav filter=lfs diff=lfs merge=lfs -text
+iteration_1/voices/Vinay.wav filter=lfs diff=lfs merge=lfs -text
+iteration_1/voices/Yinghao.wav filter=lfs diff=lfs merge=lfs -text

iteration_1/README.md ADDED Viewed

	@@ -0,0 +1,151 @@

+---
+language:
+  - en
+license: mit
+library_name: coreml
+tags:
+  - text-to-speech
+  - tts
+  - styletts2
+  - coreml
+  - apple-silicon
+  - voice-cloning
+pipeline_tag: text-to-speech
+---
+# StyleTTS2 LibriTTS — CoreML
+Apple CoreML port of [yl4579/StyleTTS2](https://github.com/yl4579/StyleTTS2) (LibriTTS 2nd-stage checkpoint, epoch 20). 9-stage `.mlpackage` chain with mixed-precision and per-stage compute-unit assignments tuned for Apple Silicon (CPU + ANE + GPU).
+24 kHz mono synthesis. Zero-shot voice cloning from a 3-10 second reference WAV.
+## Highlights
+- **9 stages, 258 MB on disk**, all fp16 except `har_source` (fp32 required for sin(2π·cumsum(f0)) numerical stability)
+- **~390 ms warm CoreML predict** per utterance (M-series, mixed CPU+ANE+GPU)
+- **RTFx ~9.4×** end-to-end (3.7 s of audio in ~390 ms)
+- **~13 s cold start** (Apple `anecompilerservice` compiles ANE-targeted graphs on first call; fully cached afterwards)
+- **Per-stage placement**: `text_encoder`/`duration_predictor`/`decoder_upsample` on CPU, `bert`/`ref_encoder`/`diffusion_unet`/`f0n_predictor`/`decoder_pre` on ANE, `har_source` on GPU
+## Repository contents
+```
+packages/                                        9 mlpackages (258 MB)
+  text_encoder_fp16.mlpackage           11 MB    text → 512-dim embedding (LSTM, RangeDim T)
+  bert_fp16.mlpackage                   12 MB    Albert + bert_encoder (fixed T=57)
+  ref_encoder_fp16.mlpackage            53 MB    reference mel → 256-dim style (CNN)
+  diffusion_unet_fp16.mlpackage         48 MB    cross-attention U-Net (fixed T=57; ADPM2 sampler)
+  duration_predictor_fp16.mlpackage     15 MB    LSTM + duration logits (RangeDim T)
+  f0n_predictor_fp16.mlpackage          16 MB    F0 + noise prediction (RangeDim F)
+  har_source.mlpackage                  12 KB    F0 → harmonic source (RangeDim F0_LEN, fp32)
+  decoder_pre_fp16.mlpackage            64 MB    AdaIN encode/decode + F0/N convs (RangeDim F)
+  decoder_upsample_fp16.mlpackage       40 MB    HiFi-GAN Generator (RangeDim F→audio)
+voices/                                          17 reference clips (4 MB)
+  Yinghao.wav, Nima.wav, Gavin.wav, Vinay.wav    Identity speakers
+  amused.wav, anger.wav, disgusted.wav, sleepy.wav   Emotion clips
+  *.wav                                          LibriTTS samples
+samples/                                         End-to-end synthesis samples
+  sample_swift.wav                               Produced by the Swift CoreML driver
+  sample_python.wav                              Produced by the Python CoreML pipeline
+manifest.json                                    Machine-readable spec for all stages
+README.md                                        This file
+```
+## Limits
+- **Phoneme cap: 57.** `bert` and `diffusion_unet` are pinned to a fixed token axis of 57 because the CoreML CPU MLProgram backend rejects RangeDim on their cross-attention shape ops. Inputs that phonemize to >57 tokens will fail. The other 7 stages support flexible token (1-512) and frame (1-2048) axes.
+- **ANE compile fails** for the HiFi-GAN ConvTranspose1d ups stack inside `decoder_upsample`. CPU is the most predictable placement; GPU has slightly lower warm latency but contends with `har_source`.
+- **Apple Silicon recommended.** Intel Macs have not been validated for CoreML mlprogram inference at scale.
+## Pipeline (per utterance)
+```
+text → espeak-ng IPA → tokenize → token_ids
+                                       │
+       ┌───────────────────────────────┼──────────────────────────────────┐
+       │                               │                                  │
+       ▼                               ▼                                  ▼
+text_encoder              bert (fixed T=57)            reference WAV → mel → ref_encoder
+   t_en [1,512,T]          bert_dur [1,57,768]                   ref_s [1,256]
+                           d_en [1,512,57]
+                                       │
+                                       ▼
+                         diffusion_unet × 5 ADPM2 steps (10 dispatches)
+                                       │
+                                       ▼
+                                  s_pred [1,256]
+                              ↓ blend(α, β, ref_s) ↓
+                              ref [1,128]   s [1,128]
+                                       │
+                                       ▼
+                                duration_predictor
+                            d [1,T,640]   pred_dur → pred_aln_trg
+                                       │
+                                       ▼ (matmul + hifigan tail-shift)
+                                   en [1,640,F]   asr [1,512,F]
+                                       │
+                                       ▼
+                                f0n_predictor
+                                f0_pred, n_pred [1, 2F]
+                                       │
+                                       ▼
+                                  har_source
+                                  har [1,1,600F]
+                                       │
+                                       ▼
+                                  decoder_pre
+                                  x_pre [1,512,2F]
+                                       │
+                                       ▼
+                                decoder_upsample
+                                  audio [1,1,72k+]
+                                       │
+                                       ▼
+                              tail-trim 50 samples → WAV @ 24 kHz
+```
+The 5 non-CoreML steps (espeak phonemize, ADPM2 sampler loop, mel extraction, alignment matrix, tail-shift) run host-side. See `manifest.json#non_coreml_pipeline_steps` for exact specs.
+## Voices
+`voices/*.wav` are zero-shot reference clips. The `ref_encoder` stage reads a mel of the chosen reference and produces a 256-dim style embedding that conditions every downstream stage. Bring your own clip — any 3-10 s mono recording at any sample rate works (resampled to 24 kHz internally). Quality is sensitive to reference cleanliness (background noise transfers).
+## Quick demo (Swift)
+A self-contained Swift demo exists that drives the last 4 stages directly from CoreML, given pre-computed inputs from the Python preprocessor. End-to-end Swift synthesis (no Python) requires porting espeak phonemize + mel + ADPM2 sampler + alignment, ~600 lines of Swift on top of these packages.
+## Quick demo (Python)
+```bash
+git clone https://github.com/yl4579/StyleTTS2  # for the espeak/text frontend + checkpoint config
+# Place this repo's packages/ as coreml/packages/ in StyleTTS2 working tree.
+uv run python coreml/inference.py \
+    --text "StyleTTS 2 is a text to speech model." \
+    --reference voices/Yinghao.wav \
+    --output out.wav
+```
+## Conversion notes
+- Source: PyTorch StyleTTS2 LibriTTS 2nd-stage checkpoint (yl4579/StyleTTS2 epoch 20).
+- coremltools mlprogram, deployment target macOS15, fp16 compute precision.
+- Mixed-precision: 7 stages fp16, 1 stage fp32 (`har_source`), 1 stage split for ANE compatibility (`decoder` → `decoder_pre` + `decoder_upsample`).
+- Trace parity: all 9 stages mse=0 against eager PyTorch on the trace input.
+- Quantization trials (linear int8, 8-bit k-means palettization) tested on `decoder_upsample`; both rejected — int8 is slower than fp16 on CPU (no native ConvTranspose1d kernel) and lossy quality (19 dB SNR) for palettization. fp16 is the production setting.
+## License
+MIT (matches upstream yl4579/StyleTTS2). LibriTTS reference clips inherit their LibriTTS / Apache-2.0 licensing.
+## Citation
+If you use this port, please cite the original StyleTTS2 paper:
+```bibtex
+@article{li2023styletts,
+  title={StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models},
+  author={Li, Yinghao Aaron and Han, Cong and Raghavan, Vinay and Mischler, Gavin and Mesgarani, Nima},
+  journal={arXiv preprint arXiv:2306.07691},
+  year={2023}
+}
+```

iteration_1/manifest.json ADDED Viewed

	@@ -0,0 +1,216 @@

+{
+  "model_name": "styletts2-libritts-coreml",
+  "version": "1.0.0",
+  "base_model": "yl4579/StyleTTS2 LibriTTS checkpoint (epoch 20, 2nd-stage)",
+  "sample_rate": 24000,
+  "frame_hop": 300,
+  "phoneme_vocab": "espeak-ng en-us IPA + StyleTTS2 TextCleaner",
+  "limits": {
+    "max_phonemes": 57,
+    "note": "bert and diffusion_unet stages have a fixed token axis of 57 (CoreML CPU MLProgram backend rejects RangeDim on these graphs). Inputs producing more than 57 phonemes will fail until token-bucketed packages are added."
+  },
+  "stages": [
+    {
+      "name": "text_encoder",
+      "package": "packages/text_encoder_fp16.mlpackage",
+      "precision": "fp16",
+      "compute_units": "CPU_ONLY",
+      "inputs": [
+        { "name": "tokens",        "shape": [1, "T_token"], "dtype": "int32",   "range": [1, 512] },
+        { "name": "input_lengths", "shape": [1],            "dtype": "int32" },
+        { "name": "text_mask",     "shape": [1, "T_token"], "dtype": "float32" }
+      ],
+      "outputs": [
+        { "name": "t_en", "shape": [1, 512, "T_token"], "dtype": "float32" }
+      ]
+    },
+    {
+      "name": "bert",
+      "package": "packages/bert_fp16.mlpackage",
+      "precision": "fp16",
+      "compute_units": "CPU_AND_NE",
+      "fixed_token_axis": 57,
+      "inputs": [
+        { "name": "tokens",         "shape": [1, 57], "dtype": "int32" },
+        { "name": "attention_mask", "shape": [1, 57], "dtype": "int32" }
+      ],
+      "outputs": [
+        { "name": "bert_dur", "shape": [1, 57, 768] },
+        { "name": "d_en",     "shape": [1, 512, 57] }
+      ]
+    },
+    {
+      "name": "ref_encoder",
+      "package": "packages/ref_encoder_fp16.mlpackage",
+      "precision": "fp16",
+      "compute_units": "CPU_AND_NE",
+      "inputs": [
+        { "name": "mel", "shape": [1, 1, 80, "T_mel"], "dtype": "float32",
+          "note": "24 kHz mel spectrogram of reference audio. n_fft=2048, hop=300, win=1200, n_mels=80." }
+      ],
+      "outputs": [
+        { "name": "ref_s", "shape": [1, 256], "dtype": "float32",
+          "note": "Style embedding. ref_s[:, :128] is reference timbre, ref_s[:, 128:] is reference prosody." }
+      ]
+    },
+    {
+      "name": "diffusion_unet",
+      "package": "packages/diffusion_unet_fp16.mlpackage",
+      "precision": "fp16",
+      "compute_units": "CPU_AND_NE",
+      "fixed_token_axis": 57,
+      "inputs": [
+        { "name": "x_noisy",   "shape": [1, 1, 256] },
+        { "name": "sigma",     "shape": [1] },
+        { "name": "embedding", "shape": [1, 57, 768] },
+        { "name": "features",  "shape": [1, 256] }
+      ],
+      "outputs": [
+        { "name": "x_denoised", "shape": [1, 1, 256] }
+      ],
+      "note": "Called num_steps × 2 dispatches per utterance under ADPM2 sampler. Use Karras sigmas (sigma_min=0.0001, sigma_max=3.0, rho_schedule=9.0). 5 steps default."
+    },
+    {
+      "name": "duration_predictor",
+      "package": "packages/duration_predictor_fp16.mlpackage",
+      "precision": "fp16",
+      "compute_units": "CPU_ONLY",
+      "inputs": [
+        { "name": "d_en",      "shape": [1, 512, "T_token"] },
+        { "name": "s",         "shape": [1, 128] },
+        { "name": "text_mask", "shape": [1, "T_token"] }
+      ],
+      "outputs": [
+        { "name": "d",                "shape": [1, "T_token", 640] },
+        { "name": "duration_logits",  "shape": [1, "T_token", 50] }
+      ]
+    },
+    {
+      "name": "f0n_predictor",
+      "package": "packages/f0n_predictor_fp16.mlpackage",
+      "precision": "fp16",
+      "compute_units": "CPU_AND_NE",
+      "inputs": [
+        { "name": "en", "shape": [1, 640, "T_frame"] },
+        { "name": "s",  "shape": [1, 128] }
+      ],
+      "outputs": [
+        { "name": "f0_pred", "shape": [1, "F0_LEN"] },
+        { "name": "n_pred",  "shape": [1, "F0_LEN"] }
+      ],
+      "note": "F0_LEN = 2 * T_frame."
+    },
+    {
+      "name": "har_source",
+      "package": "packages/har_source.mlpackage",
+      "precision": "fp32",
+      "compute_units": "CPU_AND_GPU",
+      "inputs": [
+        { "name": "f0", "shape": [1, "F0_LEN"] }
+      ],
+      "outputs": [
+        { "name": "har", "shape": [1, 1, "HAR_LEN"] }
+      ],
+      "note": "HAR_LEN = 300 * F0_LEN. fp32 required: computes sin(2π · cumsum(f0)) at audio rate; fp16 cumsum drifts ~10 bits over 74400 samples and produces audible phase distortion."
+    },
+    {
+      "name": "decoder_pre",
+      "package": "packages/decoder_pre_fp16.mlpackage",
+      "precision": "fp16",
+      "compute_units": "CPU_AND_NE",
+      "inputs": [
+        { "name": "asr",     "shape": [1, 512, "T_frame"] },
+        { "name": "f0_pred", "shape": [1, "F0_LEN"] },
+        { "name": "n_pred",  "shape": [1, "F0_LEN"] },
+        { "name": "ref",     "shape": [1, 128] }
+      ],
+      "outputs": [
+        { "name": "x_pre", "shape": [1, 512, "T_frame2"] }
+      ],
+      "note": "T_frame2 = 2 * T_frame. Splits the HiFi-GAN decoder: pre-stage (AdaIN encode/decode + F0/N convs) is ANE-clean."
+    },
+    {
+      "name": "decoder_upsample",
+      "package": "packages/decoder_upsample_fp16.mlpackage",
+      "precision": "fp16",
+      "compute_units": "CPU_ONLY",
+      "inputs": [
+        { "name": "x_pre",      "shape": [1, 512, "T_frame2"] },
+        { "name": "ref",        "shape": [1, 128] },
+        { "name": "har_source", "shape": [1, 1, "HAR_LEN"] }
+      ],
+      "outputs": [
+        { "name": "audio", "shape": [1, 1, "AUDIO_LEN"] }
+      ],
+      "note": "HiFi-GAN Generator (ConvTranspose1d ups stack). ANE compile fails (ANECCompile() FAILED), CPU_ONLY is the most predictable. Tail-trim 50 samples."
+    }
+  ],
+  "pipeline_order": [
+    "text_encoder",
+    "bert",
+    "ref_encoder",
+    "diffusion_unet (×N steps × 2 dispatches under ADPM2)",
+    "duration_predictor",
+    "f0n_predictor",
+    "har_source",
+    "decoder_pre",
+    "decoder_upsample"
+  ],
+  "non_coreml_pipeline_steps": [
+    "espeak-ng phonemize + StyleTTS2 TextCleaner tokenize",
+    "Karras sigma schedule (CPU)",
+    "ADPM2 step loop (5 steps default; each step = 2 diffusion_unet dispatches + RNG noise add)",
+    "Style blend: ref = α · s_pred[:, :128] + (1-α) · ref_s[:, :128]; s = β · s_pred[:, 128:] + (1-β) · ref_s[:, 128:]",
+    "Reference mel: librosa.load(sr=24000) → librosa.effects.trim(top_db=30) → mel(n_fft=2048, hop=300, win=1200, n_mels=80, fmin=0, fmax=8000)",
+    "pred_aln_trg construction from rounded predicted durations (data-dependent)",
+    "en/asr matmul: en = d.transpose(-1,-2) @ pred_aln_trg; asr = t_en @ pred_aln_trg",
+    "HiFi-GAN tail shift: roll asr/en right by one frame, repeat first frame"
+  ],
+  "totals": {
+    "n_stages": 9,
+    "disk_size_mb": 258,
+    "warm_predict_ms_typical": 390,
+    "rtfx_typical": 9.4,
+    "cold_start_s_typical": 13,
+    "cold_start_breakdown": {
+      "anecompiler_first_call": "12s (Apple ANE compilation cache miss)",
+      "fp16_load": "~1s warm"
+    }
+  },
+  "voices": {
+    "directory": "voices/",
+    "type": "zero-shot reference clips (any 3-10s mono 24 kHz WAV; the model copies timbre + prosody)",
+    "samples": [
+      {"file": "Yinghao.wav",  "lang": "en",   "note": "neutral male"},
+      {"file": "Nima.wav",     "lang": "en",   "note": "neutral male"},
+      {"file": "Gavin.wav",    "lang": "en",   "note": "neutral male"},
+      {"file": "Vinay.wav",    "lang": "en",   "note": "neutral male"},
+      {"file": "amused.wav",   "lang": "en",   "note": "amused emotion"},
+      {"file": "anger.wav",    "lang": "en",   "note": "angry emotion"},
+      {"file": "disgusted.wav","lang": "en",   "note": "disgusted emotion"},
+      {"file": "sleepy.wav",   "lang": "en",   "note": "sleepy emotion"},
+      {"file": "696_92939_000016_000006.wav", "lang": "en", "note": "LibriTTS sample, default reference"},
+      {"file": "1221-135767-0014.wav",        "lang": "en", "note": "LibriTTS sample"},
+      {"file": "1789_142896_000022_000005.wav","lang":"en", "note": "LibriTTS sample"},
+      {"file": "4077-13754-0000.wav",         "lang": "en", "note": "LibriTTS sample"},
+      {"file": "5639-40744-0020.wav",         "lang": "en", "note": "LibriTTS sample"},
+      {"file": "908-157963-0027.wav",         "lang": "en", "note": "LibriTTS sample"},
+      {"file": "3.wav",                       "lang": "en", "note": "misc reference"},
+      {"file": "4.wav",                       "lang": "en", "note": "misc reference"},
+      {"file": "5.wav",                       "lang": "en", "note": "misc reference"}
+    ]
+  },
+  "samples": {
+    "directory": "samples/",
+    "files": [
+      {"file": "sample_swift.wav",  "text": "Hello, this is StyleTTS 2.", "voice": "696_92939_000016_000006.wav", "produced_by": "Swift CoreML driver", "duration_s": 3.02},
+      {"file": "sample_python.wav", "text": "StyleTTS 2 is a text to speech model.", "voice": "696_92939_000016_000006.wav", "produced_by": "Python CoreML pipeline (coreml/inference.py)"}
+    ]
+  },
+  "platform_requirements": {
+    "macos_min": "14.0",
+    "ios_min": "17.0 (mlprogram macOS15 deployment target — verify on iOS)",
+    "deployment_target": "macOS15",
+    "hardware": "Apple Silicon recommended"
+  }
+}

iteration_1/packages/.DS_Store ADDED Viewed

Binary file (10.2 kB). View file

iteration_1/packages/bert_fp16.mlpackage/Data/com.apple.CoreML/model.mlmodel ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:92c06d63856f46e8788c54fb2f2e7228d7da9798e2192c3078fb96a5f1de4074
+size 85458

iteration_1/packages/bert_fp16.mlpackage/Data/com.apple.CoreML/weights/weight.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fc4a9fb3870729f9572b0830993351524b04b99eba6cab982cef2a17507d9ba0
+size 12090496

iteration_1/packages/bert_fp16.mlpackage/Manifest.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+    "fileFormatVersion": "1.0.0",
+    "itemInfoEntries": {
+        "514C9E67-3E15-43D6-AE2B-6179B9113D2E": {
+            "author": "com.apple.CoreML",
+            "description": "CoreML Model Weights",
+            "name": "weights",
+            "path": "com.apple.CoreML/weights"
+        },
+        "BED7A6A1-56C6-4FB3-AB4B-06ADAD7C844E": {
+            "author": "com.apple.CoreML",
+            "description": "CoreML Model Specification",
+            "name": "model.mlmodel",
+            "path": "com.apple.CoreML/model.mlmodel"
+        }
+    },
+    "rootModelIdentifier": "BED7A6A1-56C6-4FB3-AB4B-06ADAD7C844E"
+}

iteration_1/packages/decoder_pre_fp16.mlpackage/Data/com.apple.CoreML/model.mlmodel ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:753dbab37d3232a69b52d48f5d0732632e9307d388ed5224736e9c585db6029c
+size 55933

iteration_1/packages/decoder_pre_fp16.mlpackage/Data/com.apple.CoreML/weights/weight.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:db81849a38ce1959ea345219332051947f22f00dc2445cb9b7a119673ca4bf93
+size 67190976

iteration_1/packages/decoder_pre_fp16.mlpackage/Manifest.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+    "fileFormatVersion": "1.0.0",
+    "itemInfoEntries": {
+        "211DC47B-E839-4B47-B64D-EE04F9C081B9": {
+            "author": "com.apple.CoreML",
+            "description": "CoreML Model Specification",
+            "name": "model.mlmodel",
+            "path": "com.apple.CoreML/model.mlmodel"
+        },
+        "BE7D7840-FCB4-4491-B2ED-0D81B5FD33AA": {
+            "author": "com.apple.CoreML",
+            "description": "CoreML Model Weights",
+            "name": "weights",
+            "path": "com.apple.CoreML/weights"
+        }
+    },
+    "rootModelIdentifier": "211DC47B-E839-4B47-B64D-EE04F9C081B9"
+}

iteration_1/packages/decoder_upsample_fp16.mlpackage/Data/com.apple.CoreML/model.mlmodel ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ff29829e3c92a4208ef07d307293fd576c4484c6048e519b90cd32ee80180038
+size 491796

iteration_1/packages/decoder_upsample_fp16.mlpackage/Data/com.apple.CoreML/weights/weight.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:43161151f001bb951c34952465adfc3c4f5fb8ab2845f31903be09ea9f1a6bc5
+size 41400320

iteration_1/packages/decoder_upsample_fp16.mlpackage/Manifest.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+    "fileFormatVersion": "1.0.0",
+    "itemInfoEntries": {
+        "26E8FCA8-BD9B-4185-B59E-00453487B2B3": {
+            "author": "com.apple.CoreML",
+            "description": "CoreML Model Specification",
+            "name": "model.mlmodel",
+            "path": "com.apple.CoreML/model.mlmodel"
+        },
+        "BFFB197D-D576-4F27-85E5-48F5438F08C2": {
+            "author": "com.apple.CoreML",
+            "description": "CoreML Model Weights",
+            "name": "weights",
+            "path": "com.apple.CoreML/weights"
+        }
+    },
+    "rootModelIdentifier": "26E8FCA8-BD9B-4185-B59E-00453487B2B3"
+}

iteration_1/packages/diffusion_unet_fp16.mlpackage/Data/com.apple.CoreML/model.mlmodel ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f9638ea3705d5cc55e8b5572e3c38562536b8c20656bcb4fa1047edbb8af375b
+size 54989

iteration_1/packages/diffusion_unet_fp16.mlpackage/Data/com.apple.CoreML/weights/weight.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:17ba48a8bdc68851289a23593b223573aaddd1b445e8c77765f5350feed8a251
+size 49873792

iteration_1/packages/diffusion_unet_fp16.mlpackage/Manifest.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+    "fileFormatVersion": "1.0.0",
+    "itemInfoEntries": {
+        "97A6E9E7-9101-417E-A712-61EF425AB960": {
+            "author": "com.apple.CoreML",
+            "description": "CoreML Model Specification",
+            "name": "model.mlmodel",
+            "path": "com.apple.CoreML/model.mlmodel"
+        },
+        "F9ED6F9B-AAC4-4FAA-90E0-E2C4593DDE7D": {
+            "author": "com.apple.CoreML",
+            "description": "CoreML Model Weights",
+            "name": "weights",
+            "path": "com.apple.CoreML/weights"
+        }
+    },
+    "rootModelIdentifier": "97A6E9E7-9101-417E-A712-61EF425AB960"
+}

iteration_1/packages/duration_predictor_fp16.mlpackage/Data/com.apple.CoreML/model.mlmodel ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9b60eccf1aff0c09069d4eeebb5611c11caee89788229d0780ef606ac8fa1384
+size 29886

iteration_1/packages/duration_predictor_fp16.mlpackage/Data/com.apple.CoreML/weights/weight.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:75ba0b7b2f7dc6a687e9ec01d226c300b09f07832d8e4aac2705a16b5079910c
+size 15543524

iteration_1/packages/duration_predictor_fp16.mlpackage/Manifest.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+    "fileFormatVersion": "1.0.0",
+    "itemInfoEntries": {
+        "EA4FC14C-8DE2-414B-A6C4-B93190F89ED0": {
+            "author": "com.apple.CoreML",
+            "description": "CoreML Model Weights",
+            "name": "weights",
+            "path": "com.apple.CoreML/weights"
+        },
+        "EAAA83DE-C745-4884-AE8D-1ED5C06BC490": {
+            "author": "com.apple.CoreML",
+            "description": "CoreML Model Specification",
+            "name": "model.mlmodel",
+            "path": "com.apple.CoreML/model.mlmodel"
+        }
+    },
+    "rootModelIdentifier": "EAAA83DE-C745-4884-AE8D-1ED5C06BC490"
+}

iteration_1/packages/f0n_predictor_fp16.mlpackage/Data/com.apple.CoreML/model.mlmodel ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:578305e49608b3685aac87a7f45aa188709e27b1f10b096a0a6ae0a66170871d
+size 62172

iteration_1/packages/f0n_predictor_fp16.mlpackage/Data/com.apple.CoreML/weights/weight.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b21f183d2ff876842ea2df14cdc033c8935a1805382b70b241c4f5a1bf32b3a8
+size 16822272

iteration_1/packages/f0n_predictor_fp16.mlpackage/Manifest.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+    "fileFormatVersion": "1.0.0",
+    "itemInfoEntries": {
+        "85A98E5E-641F-442C-9B6C-DCFEFD1BB71F": {
+            "author": "com.apple.CoreML",
+            "description": "CoreML Model Weights",
+            "name": "weights",
+            "path": "com.apple.CoreML/weights"
+        },
+        "C8FFE55D-6CFE-4EFD-9798-D2D005C4676F": {
+            "author": "com.apple.CoreML",
+            "description": "CoreML Model Specification",
+            "name": "model.mlmodel",
+            "path": "com.apple.CoreML/model.mlmodel"
+        }
+    },
+    "rootModelIdentifier": "C8FFE55D-6CFE-4EFD-9798-D2D005C4676F"
+}

iteration_1/packages/har_source.mlpackage/Data/com.apple.CoreML/model.mlmodel ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:49dae5b07689818410c81a0fb8af58a586d88ef211be419ccdc8fd5dc6467ae5
+size 6956

iteration_1/packages/har_source.mlpackage/Manifest.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+    "fileFormatVersion": "1.0.0",
+    "itemInfoEntries": {
+        "43EF7B77-88D8-4FB5-B59A-B9551E121DB3": {
+            "author": "com.apple.CoreML",
+            "description": "CoreML Model Specification",
+            "name": "model.mlmodel",
+            "path": "com.apple.CoreML/model.mlmodel"
+        },
+        "C511A11E-3A7D-41FC-82E5-3BEB08F2D35D": {
+            "author": "com.apple.CoreML",
+            "description": "CoreML Model Weights",
+            "name": "weights",
+            "path": "com.apple.CoreML/weights"
+        }
+    },
+    "rootModelIdentifier": "43EF7B77-88D8-4FB5-B59A-B9551E121DB3"
+}

iteration_1/packages/ref_encoder_fp16.mlpackage/Data/com.apple.CoreML/model.mlmodel ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5cbd0cf223b874ed6b2de35606a5690bc6355b4890ea32ec30119db5dc00497e
+size 68843

iteration_1/packages/ref_encoder_fp16.mlpackage/Data/com.apple.CoreML/weights/weight.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:011d14fdb46589dfb79efb619d63846430be4e4ac86372f8819f35f5e0157391
+size 55386048

iteration_1/packages/ref_encoder_fp16.mlpackage/Manifest.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+    "fileFormatVersion": "1.0.0",
+    "itemInfoEntries": {
+        "32FE6195-7355-4635-AECB-58D9F49F1E17": {
+            "author": "com.apple.CoreML",
+            "description": "CoreML Model Weights",
+            "name": "weights",
+            "path": "com.apple.CoreML/weights"
+        },
+        "343F4722-A338-4705-8547-09E9A93DE8EC": {
+            "author": "com.apple.CoreML",
+            "description": "CoreML Model Specification",
+            "name": "model.mlmodel",
+            "path": "com.apple.CoreML/model.mlmodel"
+        }
+    },
+    "rootModelIdentifier": "343F4722-A338-4705-8547-09E9A93DE8EC"
+}

iteration_1/packages/text_encoder_fp16.mlpackage/Data/com.apple.CoreML/model.mlmodel ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d88b74cb84892f7ff1e4d013517dd3d4dab56688b0a0fb4d920f72d0caf9e961
+size 16587

iteration_1/packages/text_encoder_fp16.mlpackage/Data/com.apple.CoreML/weights/weight.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0d7f6e5869bb9d523956183e0facdff160c301d28113290efa329ae7bf72d3ce
+size 11208000

iteration_1/packages/text_encoder_fp16.mlpackage/Manifest.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+    "fileFormatVersion": "1.0.0",
+    "itemInfoEntries": {
+        "7F3243AB-2AFC-40E5-A6DE-069619301D63": {
+            "author": "com.apple.CoreML",
+            "description": "CoreML Model Specification",
+            "name": "model.mlmodel",
+            "path": "com.apple.CoreML/model.mlmodel"
+        },
+        "F67A2205-52AD-4B8E-A19F-A7FB9AEB48F9": {
+            "author": "com.apple.CoreML",
+            "description": "CoreML Model Weights",
+            "name": "weights",
+            "path": "com.apple.CoreML/weights"
+        }
+    },
+    "rootModelIdentifier": "7F3243AB-2AFC-40E5-A6DE-069619301D63"
+}

iteration_1/samples/sample_python.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0aa2e0b8bd1b89e8d1db8c38666d6d16b970a58eb19c056b9075eece852d422a
+size 176344

iteration_1/samples/sample_swift.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f95f71e282b55d77fd70ac68cc3b41280337a60dff0179481ae85950f69d0cdd
+size 145144

iteration_1/voices/1221-135767-0014.wav ADDED Viewed

Binary file (96 kB). View file

iteration_1/voices/1789_142896_000022_000005.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0afdfcafb65ee88a6db67dc83c53e1e1c73346813df381afc9a0812c43f8ddbd
+size 150284

iteration_1/voices/3.wav ADDED Viewed

Binary file (96 kB). View file

iteration_1/voices/4.wav ADDED Viewed

Binary file (96 kB). View file

iteration_1/voices/4077-13754-0000.wav ADDED Viewed

Binary file (96 kB). View file

iteration_1/voices/5.wav ADDED Viewed

Binary file (96 kB). View file

iteration_1/voices/5639-40744-0020.wav ADDED Viewed

Binary file (96 kB). View file

iteration_1/voices/696_92939_000016_000006.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6a7d39beddd2c24d864163ce38e799b261ab0bc23cbea492f0ece046feb131f1
+size 145484

iteration_1/voices/908-157963-0027.wav ADDED Viewed

Binary file (96 kB). View file

iteration_1/voices/Gavin.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:912208b6beaeff83cd6307bacf6b3842a4b32c9f0780f95146ea6806af436c83
+size 998740

iteration_1/voices/Nima.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:44695a7c2723a6d857a6c075d75f57b525febe601f9162984adda8c713bc1ad4
+size 758318

iteration_1/voices/Vinay.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cc194f600ad9a7fff3c8b8914851006fabea010c48258602933f92c9b0b8bbf1
+size 694194

iteration_1/voices/Yinghao.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1d37acfa68e59401afec39c89b17509dda48b40f7ac60650e0e668145355799b
+size 404574

iteration_1/voices/amused.wav ADDED Viewed

Binary file (96 kB). View file

iteration_1/voices/anger.wav ADDED Viewed

Binary file (96 kB). View file

iteration_1/voices/disgusted.wav ADDED Viewed

Binary file (96 kB). View file

iteration_1/voices/sleepy.wav ADDED Viewed

Binary file (96 kB). View file