Spaces:

pzweuj
/

TransVarWeb

Running

App Files Files Community

pzweuj commited on Mar 20

Commit

b44ba53

verified ·

1 Parent(s): 4d1536e

Update Dockerfile

Browse files

Files changed (1) hide show

Dockerfile +28 -35

Dockerfile CHANGED Viewed

@@ -1,15 +1,5 @@
 # TransVar API for HuggingFace Spaces
 # 仓库: https://github.com/pzweuj/TransVar2API
-#
-# 使用方法:
-# 1. 首次构建: 设置 HF_DATASET="" (从UCSC下载)
-# 2. 后续构建: 设置 HF_DATASET="your-username/transvar_db" (从Dataset下载)
-#
-# 数据集需要包含以下结构:
-#   hg38/hg38.fa
-#   hg38/ncbiRefSeq.txt.gz
-#   hg19/hg19.fa
-#   hg19/ncbiRefSeq.txt.gz
 FROM python:3.9-slim
@@ -49,36 +39,39 @@ RUN pip3 install --no-cache-dir transvar
 # 创建数据目录
 RUN mkdir -p /data/transvar_db/refseq_hg38 /data/transvar_db/refseq_hg19
-# ========== 下载/复制参考基因组数据 ==========
-WORKDIR /data
 # 如果设置了 HF_DATASET，从数据集下载
 RUN if [ -n "$HF_DATASET" ]; then \
-    echo "Downloading from HF Dataset: $HF_DATASET"; \
-    python3 -c "
 import os
-import sys
-from huggingface_hub import hf_hub_download
 dataset = os.environ.get('HF_DATASET', '')
-files = {
-    'hg38/hg38.fa': 'refseq_hg38/hg38.fa',
-    'hg38/ncbiRefSeq.txt.gz': 'refseq_hg38/ncbiRefSeq.txt.gz',
-    'hg19/hg19.fa': 'refseq_hg19/hg19.fa',
-    'hg19/ncbiRefSeq.txt.gz': 'refseq_hg19/ncbiRefSeq.txt.gz',
-}
-for remote, local in files.items():
-    try:
-        path = hf_hub_download(repo_id=dataset, filename=remote, repo_type='dataset')
-        os.makedirs(os.path.dirname(f'/data/transvar_db/{local}'), exist_ok=True)
-        import shutil
-        shutil.copy(path, f'/data/transvar_db/{local}')
-        print(f'Downloaded: {remote}')
-    except Exception as e:
-        print(f'Failed to download {remote}: {e}')
-        sys.exit(1)
-"; fi
 # 如果没有设置 HF_DATASET，从 UCSC 下载（首次构建）
 WORKDIR /data/transvar_db/refseq_hg38

 # TransVar API for HuggingFace Spaces
 # 仓库: https://github.com/pzweuj/TransVar2API
 FROM python:3.9-slim
 # 创建数据目录
 RUN mkdir -p /data/transvar_db/refseq_hg38 /data/transvar_db/refseq_hg19
+# ========== 下载数据脚本 ==========
 # 如果设置了 HF_DATASET，从数据集下载
 RUN if [ -n "$HF_DATASET" ]; then \
+    echo "Downloading from HF Dataset: $HF_DATASET" && \
+    python3 << 'PYEOF'
 import os
+from huggingface_hub import hf_hub_download, snapshot_download
 dataset = os.environ.get('HF_DATASET', '')
+target_dir = '/data/transvar_db'
+# 尝试使用 snapshot_download 下载整个目录
+try:
+    local_path = snapshot_download(repo_id=dataset, repo_type='dataset', cache_dir='/tmp/hf_cache')
+    # 复制到目标目录
+    os.system(f'cp -r {local_path}/* {target_dir}/')
+    print(f'Downloaded from Dataset: {local_path}')
+except Exception as e:
+    print(f'snapshot_download failed: {e}')
+    # 尝试单独下载文件
+    files = ['hg38/hg38.fa', 'hg38/ncbiRefSeq.txt.gz', 'hg19/hg19.fa', 'hg19/ncbiRefSeq.txt.gz']
+    for f in files:
+        try:
+            path = hf_hub_download(repo_id=dataset, filename=f, repo_type='dataset')
+            subdir = f.split('/')[0]  # hg38 or hg19
+            filename = f.split('/')[1]
+            os.makedirs(f'{target_dir}/refseq_{subdir}', exist_ok=True)
+            os.system(f'cp {path} {target_dir}/refseq_{subdir}/{filename}')
+            print(f'Downloaded: {f}')
+        except Exception as e2:
+            print(f'Failed to download {f}: {e2}')
+PYEOF
+fi
 # 如果没有设置 HF_DATASET，从 UCSC 下载（首次构建）
 WORKDIR /data/transvar_db/refseq_hg38