Spaces:

PharC
/

FasterPrimer

Sleeping

App Files Files Community

PharC commited on Jan 4

Commit

4bedae3

verified ·

1 Parent(s): 03357ec

Update app.py

Browse files

Files changed (1) hide show

app.py +30 -10

app.py CHANGED Viewed

@@ -23,27 +23,47 @@ def get_ready_for_primers(gene_symbol, species="human"):
             return {"error": f"未找到基因: {gene_symbol}"}
         gene_id = record["IdList"][0]
-        # 2. 改进的 Link 获取逻辑：兼容 NM_, NR_, XM_, XR_ 等所有转录本
-        # 不再使用复杂的 term 过滤，直接获取所有关联的核苷酸序列
         link_handle = Entrez.elink(dbfrom="gene", db="nucleotide", id=gene_id)
         link_record = Entrez.read(link_handle)
-        nucl_id = None
-        # 深度遍历：寻找存储在 'gene_nucleotide' 链接中的 ID
         for link_set in link_record[0].get("LinkSetDb", []):
-            # 通常 RefSeq 序列存储在名为 'gene_nucleotide' 或 'gene_nucleotide_refseq' 的链接中
             if "nucleotide" in link_set["DbTo"]:
-                nucl_id = link_set["Link"][0]["Id"]
                 break
         if not nucl_id:
-            return {"error": f"基因 {gene_symbol} 找不到关联的核苷酸序列 ID"}
-        # 3. 下载数据
         handle = Entrez.efetch(db="nucleotide", id=nucl_id, rettype="gb", retmode="text")
         seq_record = SeqIO.read(handle, "genbank")
-        # 4. 提取外显子（逻辑同前）
         junctions = []
         current_pos = 0
         for feature in seq_record.features:
@@ -61,7 +81,7 @@ def get_ready_for_primers(gene_symbol, species="human"):
             "junctions": junctions
         }
     except Exception as e:
-        return {"error": f"获取基因 {gene_symbol} 信息失败: {str(e)}"}
 def design_qpcr_primers(gene_data):
     """设计qPCR引物，包含失败重试机制"""

             return {"error": f"未找到基因: {gene_symbol}"}
         gene_id = record["IdList"][0]
+        # 2. 获取关联序列
+        # 注意：不再使用 term，避免 NCBI 内部过滤器的不确定性
         link_handle = Entrez.elink(dbfrom="gene", db="nucleotide", id=gene_id)
         link_record = Entrez.read(link_handle)
+        # 3. 筛选高质量的 RefSeq 序列 (NM_ 或 NR_)
+        all_ids = []
         for link_set in link_record[0].get("LinkSetDb", []):
             if "nucleotide" in link_set["DbTo"]:
+                all_ids.extend([link["Id"] for link in link_set["Link"]])
+        if not all_ids:
+            return {"error": "找不到关联序列"}
+        # 使用 esummary 批量检查这些 ID 哪个是我们要的 RefSeq 转录本
+        summary_handle = Entrez.esummary(db="nucleotide", id=",".join(all_ids))
+        summaries = Entrez.read(summary_handle)
+        nucl_id = None
+        for summary in summaries:
+            accession = summary.get('Caption', '')
+            # 关键：只选择以 NM_ (编码) 或 NR_ (非编码) 开头的 RefSeq 序列
+            if accession.startswith('NM_') or accession.startswith('NR_'):
+                nucl_id = summary['Id']
                 break
+        # 如果没找到 NM/NR，退而求其次找 XM/XR (预测的转录本)
+        if not nucl_id:
+            for summary in summaries:
+                if summary.get('Caption', '').startswith(('XM_', 'XR_')):
+                    nucl_id = summary['Id']
+                    break
         if not nucl_id:
+            return {"error": f"基因 {gene_symbol} 找不到标准的 RefSeq 转录本 (NM_/NR_)"}
+        # 4. 下载并解析序列
         handle = Entrez.efetch(db="nucleotide", id=nucl_id, rettype="gb", retmode="text")
         seq_record = SeqIO.read(handle, "genbank")
+        # 5. 提取外显子
         junctions = []
         current_pos = 0
         for feature in seq_record.features:
             "junctions": junctions
         }
     except Exception as e:
+        return {"error": f"处理出错: {str(e)}"}
 def design_qpcr_primers(gene_data):
     """设计qPCR引物，包含失败重试机制"""