Upload 4 files

Files changed (2) hide show

README.md CHANGED Viewed

@@ -56,8 +56,8 @@ pip install -e ".[audio]"
 ```python
 from scripts.inference import ParakeetCoreML
-# Load model
-model = ParakeetCoreML("./model")
 # Transcribe with TDT (higher quality)
 text = model.transcribe("audio.wav", mode="tdt")
@@ -72,10 +72,10 @@ print(text)
 ```bash
 # TDT decoding (default, higher quality)
-uv run scripts/inference.py --audio audio.wav --model-dir ./model
 # CTC decoding (faster, good for keyword spotting)
-uv run scripts/inference.py --audio audio.wav --model-dir ./model --mode ctc
 ```
 ## Model Conversion
@@ -98,14 +98,17 @@ This will:
 ## File Structure
 ```
-model/
 ├── Preprocessor.mlpackage    # Audio → Mel spectrogram
 ├── Encoder.mlpackage         # Mel → Encoder features
 ├── CTCHead.mlpackage         # Encoder → CTC log probs
 ├── Decoder.mlpackage         # TDT prediction network
 ├── JointDecision.mlpackage   # TDT joint network
 ├── vocab.json                # Token vocabulary (1024 tokens)
-└── metadata.json             # Model configuration
 ```
 ## Decoding Modes

 ```python
 from scripts.inference import ParakeetCoreML
+# Load model (from current directory with .mlpackage files)
+model = ParakeetCoreML(".")
 # Transcribe with TDT (higher quality)
 text = model.transcribe("audio.wav", mode="tdt")
 ```bash
 # TDT decoding (default, higher quality)
+uv run scripts/inference.py --audio audio.wav
 # CTC decoding (faster, good for keyword spotting)
+uv run scripts/inference.py --audio audio.wav --mode ctc
 ```
 ## Model Conversion
 ## File Structure
 ```
+./
 ├── Preprocessor.mlpackage    # Audio → Mel spectrogram
 ├── Encoder.mlpackage         # Mel → Encoder features
 ├── CTCHead.mlpackage         # Encoder → CTC log probs
 ├── Decoder.mlpackage         # TDT prediction network
 ├── JointDecision.mlpackage   # TDT joint network
 ├── vocab.json                # Token vocabulary (1024 tokens)
+├── metadata.json             # Model configuration
+├── pyproject.toml            # Python dependencies
+├── uv.lock                   # Locked dependencies
+└── scripts/                  # Inference & conversion scripts
 ```
 ## Decoding Modes

inference.py CHANGED Viewed

@@ -279,7 +279,7 @@ def main():
         help="Path to audio file (WAV, MP3, etc.)"
     )
     parser.add_argument(
-        "--model-dir", type=str, default="./model",
         help="Directory containing CoreML model files"
     )
     parser.add_argument(

         help="Path to audio file (WAV, MP3, etc.)"
     )
     parser.add_argument(
+        "--model-dir", type=str, default=".",
         help="Directory containing CoreML model files"
     )
     parser.add_argument(