Spaces:

miyuiu
/

microbe-model

Running

Miyu Horiuchi commited on 12 days ago

Commit

3b4d471

1 Parent(s): a4202fc

Deploy hybrid catalog predictions

Files changed (4) hide show

.gitignore CHANGED Viewed

@@ -38,6 +38,7 @@ artifacts/*
 !artifacts/phase_c.log
 !artifacts/phase_e.log
 !artifacts/uncultured_predictions.parquet
 !artifacts/embedding_results.json
 !artifacts/v1_vs_v2_comparison.md
 !artifacts/train_v2.log
@@ -46,6 +47,23 @@ artifacts/*
 !artifacts/score_uncultured_media.log
 !artifacts/train_combined.log
 !artifacts/combined_results.json
 # Trained recommender models — needed for scripts/recommend.py to work after clone
 !models/
@@ -67,6 +85,11 @@ notebooks/scratch/
 *.swp
 .DS_Store
 # Agent / tool state
 .claude/
 .letta/

 !artifacts/phase_c.log
 !artifacts/phase_e.log
 !artifacts/uncultured_predictions.parquet
+!artifacts/hybrid_predictions.parquet
 !artifacts/embedding_results.json
 !artifacts/v1_vs_v2_comparison.md
 !artifacts/train_v2.log
 !artifacts/score_uncultured_media.log
 !artifacts/train_combined.log
 !artifacts/combined_results.json
+!artifacts/baseline_results_pre_pme.json
+!artifacts/retrain_with_pme.log
+!artifacts/materialize_pme.log
+!artifacts/extract_seqs_smoke.log
+!artifacts/extract_seqs_full.log
+!artifacts/lora_smoke.log
+!artifacts/lora_smoke2.log
+!artifacts/lora_fold0_real.log
+!artifacts/lora/
+artifacts/lora/*
+!artifacts/lora/fold0_results_smoke.json
+!artifacts/lora/fold0_results.json
+!artifacts/lora/lambda_fold0_1ep_20260517T033023Z.log
+!artifacts/lora/fold0_results_oxygen.json
+!artifacts/lora/lambda_fold0_oxygen_1ep_20260517T103524Z.log
+!artifacts/lora_vs_baseline.md
+!artifacts/lora_oxygen_vs_all_task.md
 # Trained recommender models — needed for scripts/recommend.py to work after clone
 !models/
 *.swp
 .DS_Store
+# Cerebrium build artifacts (HMM data files are duplicated from data/ for the image build)
+cerebrium/*/kofam_relevant.hmm
+cerebrium/*/ko_thresholds.tsv
+cerebrium/*/markers.hmm
 # Agent / tool state
 .claude/
 .letta/

Dockerfile CHANGED Viewed

@@ -47,6 +47,7 @@ COPY --chown=user:user src/ ./src/
 COPY --chown=user:user scripts/recommend.py ./scripts/recommend.py
 COPY --chown=user:user models/ ./models/
 COPY --chown=user:user artifacts/uncultured_predictions.parquet ./artifacts/uncultured_predictions.parquet
 COPY --chown=user:user data/media_metadata.parquet ./data/media_metadata.parquet
 COPY --chown=user:user data/media_recipes.parquet ./data/media_recipes.parquet
 COPY --chown=user:user pyproject.toml README.md ./

 COPY --chown=user:user scripts/recommend.py ./scripts/recommend.py
 COPY --chown=user:user models/ ./models/
 COPY --chown=user:user artifacts/uncultured_predictions.parquet ./artifacts/uncultured_predictions.parquet
+COPY --chown=user:user artifacts/hybrid_predictions.parquet ./artifacts/hybrid_predictions.parquet
 COPY --chown=user:user data/media_metadata.parquet ./data/media_metadata.parquet
 COPY --chown=user:user data/media_recipes.parquet ./data/media_recipes.parquet
 COPY --chown=user:user pyproject.toml README.md ./

README.md CHANGED Viewed

@@ -143,6 +143,20 @@ PYTHONPATH=src uv run --python 3.11 --extra dev --extra embeddings python script
     --marker-sequences data/marker_sequences.jsonl \
     --device mps \
     --output artifacts/hybrid_predictions.parquet
 ```
 For overnight runs, `scripts/run_train_and_eval.sh` chains the core pipeline. The HMM,

     --marker-sequences data/marker_sequences.jsonl \
     --device mps \
     --output artifacts/hybrid_predictions.parquet
+# Chunked uncultured-catalog run; keeps tabular values and replaces oxygen with LoRA.
+PYTHONPATH=src uv run --python 3.11 --extra dev --extra embeddings python scripts/39_predict_hybrid.py \
+    --features artifacts/uncultured_predictions.parquet \
+    --marker-sequences data/uncultured_marker_sequences.jsonl \
+    --join left \
+    --reuse-existing-tabular \
+    --device mps \
+    --batch-size 2 \
+    --chunk-size 250 \
+    --chunk-output-dir artifacts/hybrid_chunks \
+    --resume-chunks \
+    --progress-every 25 \
+    --output artifacts/hybrid_predictions.parquet
 ```
 For overnight runs, `scripts/run_train_and_eval.sh` chains the core pipeline. The HMM,

artifacts/hybrid_predictions.parquet ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:3fd96774ad62b8166daec2db080c93a3f5b7e7757be7bf290c8868dd7bd67def
+size 327854