Upload folder using huggingface_hub

Browse files

Files changed (6) hide show

.gitattributes +1 -0
get_data/central_dogma.csv +3 -0
get_data/convert_lucaone_data.ipynb +373 -0
get_data/get_dna_protein_pair_rand.ipynb +412 -0
get_data/get_lucaone_data.ipynb +108 -0
get_data/get_protein_dna_pair.py +183 -0

.gitattributes CHANGED Viewed

@@ -45,3 +45,4 @@ train_data/ja_wiki_4g.txt filter=lfs diff=lfs merge=lfs -text
 train_data/ko_wiki_4g.txt filter=lfs diff=lfs merge=lfs -text
 train_data/protein_4g.txt filter=lfs diff=lfs merge=lfs -text
 train_data/zh_wiki_4g.txt filter=lfs diff=lfs merge=lfs -text

 train_data/ko_wiki_4g.txt filter=lfs diff=lfs merge=lfs -text
 train_data/protein_4g.txt filter=lfs diff=lfs merge=lfs -text
 train_data/zh_wiki_4g.txt filter=lfs diff=lfs merge=lfs -text
+get_data/central_dogma.csv filter=lfs diff=lfs merge=lfs -text

get_data/central_dogma.csv ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cdf03ee452e252ac282c561121a06cff89c80544f34c03a77a8558b46c14e228
+size 42416200

get_data/convert_lucaone_data.ipynb ADDED Viewed

	@@ -0,0 +1,373 @@

+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "id": "f3ad096d-492a-4da2-a390-03c7e7453821",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/home/maris/miniconda3/envs/dnagpt/lib/python3.11/site-packages/tqdm/auto.py:21: TqdmWarning: IProgress not found. Please update jupyter and ipywidgets. See https://ipywidgets.readthedocs.io/en/stable/user_install.html\n",
+      "  from .autonotebook import tqdm as notebook_tqdm\n",
+      "Generating train split: 25600 examples [00:00, 82207.06 examples/s]\n"
+     ]
+    },
+    {
+     "data": {
+      "text/plain": [
+       "DatasetDict({\n",
+       "    train: Dataset({\n",
+       "        features: ['seq_id_a', 'seq_id_b', 'seq_type_a', 'seq_type_b', 'seq_a', 'seq_b', 'label'],\n",
+       "        num_rows: 25600\n",
+       "    })\n",
+       "})"
+      ]
+     },
+     "execution_count": 1,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "from datasets import load_dataset\n",
+    "from transformers import AutoTokenizer, DataCollatorWithPadding\n",
+    "from transformers import Trainer\n",
+    "import evaluate\n",
+    "import numpy as np\n",
+    "from transformers import TrainingArguments\n",
+    "from transformers import AutoModelForSequenceClassification\n",
+    "\n",
+    "raw_datasets = load_dataset('csv', data_files='central_dogma.csv')\n",
+    "raw_datasets"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 3,
+   "id": "8d89ca1d-1968-43d3-8d47-f9f87b02cd02",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "'LKIELASSYGFCFGVKRAIKIAENAGDAATIGPLIHNNEEINRLATNFNVKTLHGINELKDEKKAIIRTHGITKSDLAELKKTDIKVIDATCPFVTKPQQICEDMSNAGYDVVIFGDENHPEVKGVKSYASGKVYVVLDESELEGVKFRQKVALVSQTTRKVEKFMQIANYLMLRVKEVRVFNTICNATFENQEAVKNLAKRADVMIVIGGKNSSNTKQLYLISKNFCEDSYLIESEHEVEKSWFEGKNLCGISAGASTPDWIIQKVVDAIEKF*'"
+      ]
+     },
+     "execution_count": 3,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "from Bio.Seq import Seq\n",
+    "\n",
+    "def translate_dna_to_protein_biopython(dna_sequence):\n",
+    "    \"\"\"Translate a DNA sequence into its corresponding protein sequence using Biopython.\"\"\"\n",
+    "    # 确保输入的是大写的DNA序列\n",
+    "    dna_seq = Seq(dna_sequence.upper())\n",
+    "    \n",
+    "    # 使用Biopython内置方法进行翻译\n",
+    "    protein_seq = dna_seq.translate(to_stop=False)  # 如果需要在终止密码子处停止，请设置to_stop=True\n",
+    "    \n",
+    "    return str(protein_seq)\n",
+    "\n",
+    "def trim_sequence(sequence, front, length):\n",
+    "    \"\"\"Trim the specified number of characters from the start and end of a string.\"\"\"\n",
+    "    # if len(sequence) <= front + back:\n",
+    "    #     raise ValueError(\"The sequence is too short to trim the specified number of characters.\")\n",
+    "    # return sequence[front:-back] if back > 0 else sequence[front:]\n",
+    "    return sequence[front:front+length]\n",
+    "\n",
+    "translate_dna_to_protein_biopython(\"TTGAAGATTGAGCTTGCTAGCAGCTACGGCTTTTGCTTTGGGGTAAAGCGCGCCATAAAGATAGCCGAAAATGCGGGCGATGCCGCTACTATCGGGCCTCTCATACATAATAACGAAGAGATAAACCGCCTGGCTACGAATTTCAATGTCAAGACCCTCCACGGCATAAATGAGCTAAAGGACGAGAAAAAGGCCATCATACGCACTCACGGTATCACAAAAAGCGATCTGGCCGAGCTTAAAAAGACCGATATCAAAGTCATAGACGCCACTTGCCCGTTCGTGACCAAGCCGCAGCAAATTTGCGAGGATATGAGCAACGCAGGATACGATGTCGTGATATTTGGCGATGAAAATCATCCCGAAGTCAAAGGAGTGAAGTCCTATGCCAGCGGAAAGGTTTATGTCGTGCTCGATGAGAGCGAGCTTGAGGGAGTGAAATTTAGACAAAAGGTAGCACTCGTCAGTCAAACGACGCGCAAAGTCGAAAAATTTATGCAAATAGCGAACTACTTGATGCTACGCGTCAAAGAGGTGCGAGTTTTCAACACTATCTGCAACGCGACCTTCGAGAATCAGGAGGCGGTCAAAAATTTAGCCAAAAGAGCCGATGTGATGATAGTCATCGGTGGTAAAAATAGCTCTAATACAAAGCAGCTTTATCTGATATCTAAAAATTTCTGCGAGGACAGCTACCTGATAGAGAGCGAACACGAAGTCGAGAAAAGCTGGTTTGAAGGCAAGAATTTATGCGGTATAAGTGCGGGAGCGAGCACGCCTGATTGGATCATACAAAAAGTCGTCGACGCGATAGAGAAATTTTAA\")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 11,
+   "id": "682a14ef-7492-434e-bed0-af0f5c03db86",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/home/maris/miniconda3/envs/dnagpt/lib/python3.11/site-packages/Bio/Seq.py:2879: BiopythonWarning: Partial codon, len(sequence) not a multiple of three. Explicitly trim the sequence or add trailing N before translation. This may become an error in future.\n",
+      "  warnings.warn(\n"
+     ]
+    }
+   ],
+   "source": [
+    "#获得完全匹配的正例\n",
+    "not_match_list = []\n",
+    "pos_select_list = [] #正例\n",
+    "neg_select_list = [] #负例\n",
+    "\n",
+    "for item in raw_datasets[\"train\"]:\n",
+    "    example_dna = item[\"seq_a\"]\n",
+    "    example_protein = item[\"seq_b\"]\n",
+    "    label = item[\"label\"]\n",
+    "\n",
+    "    if 0==label: #负例都要\n",
+    "        neg_select_list.append(item)\n",
+    "    \n",
+    "    dna_length = len(example_protein)*3\n",
+    "    trimmed_sequence = trim_sequence(example_dna,100,dna_length)\n",
+    "    protein_trans = translate_dna_to_protein_biopython(trimmed_sequence)\n",
+    "\n",
+    "    if 1==label:\n",
+    "        if protein_trans[1:-2]!=example_protein[1:-2]: #运行有前后1个字符不一样的\n",
+    "            not_match_list.append(item)\n",
+    "        else:\n",
+    "            pos_select_list.append(item)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 12,
+   "id": "9abb1e66-5d3a-4d87-9bf3-577cec8efcf9",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "最长的蛋白质序列: MARRPLVMGNWKLNGSKAFTKELITGLKDELNAVSGCDVAIAPPVMYLAEAETALVSSDIALGTQNVDLNKQGAFTGDISTEMLKDFGVKYVIIGHSERRQYHHESDEFIAKKFGVLKDAGLVPVLCIGESEAENEAGKTEEVCARQIDAVMNTLGVEAFNGAVIAYEPIWAIGTGKSATPAQAQAVHAFIRGHIAKQSQAVAERVIIQYGGSVNDANAAELFTQPDIDGALVGGASLKASAFAVIVKAAAKAKN\n"
+     ]
+    }
+   ],
+   "source": [
+    "from Bio.Seq import Seq\n",
+    "\n",
+    "def find_longest_orf(dna_sequence_str):\n",
+    "    dna_sequence = Seq(dna_sequence_str)\n",
+    "    # 定义可能的终止密码子\n",
+    "    stop_codons = ['TAA', 'TAG', 'TGA']\n",
+    "    \n",
+    "    # 初始化最长ORF和其长度\n",
+    "    longest_orf = ''\n",
+    "    longest_length = 0\n",
+    "    \n",
+    "    # 遍历正向链的三个阅读框\n",
+    "    for frame in range(3):\n",
+    "        seq = dna_sequence[frame:]\n",
+    "        start = None\n",
+    "        for i in range(0, len(seq) - 2, 3):\n",
+    "            codon = seq[i:i+3]\n",
+    "            if codon == 'ATG' and start is None:\n",
+    "                start = i\n",
+    "            if codon in stop_codons and start is not None:\n",
+    "                orf = seq[start:i+3]\n",
+    "                if len(orf) > longest_length:\n",
+    "                    longest_orf = orf\n",
+    "                    longest_length = len(orf)\n",
+    "                start = None\n",
+    "    \n",
+    "    # 遍历反向互补链的三个阅读框\n",
+    "    rev_seq = dna_sequence.reverse_complement()\n",
+    "    for frame in range(3):\n",
+    "        seq = rev_seq[frame:]\n",
+    "        start = None\n",
+    "        for i in range(0, len(seq) - 2, 3):\n",
+    "            codon = seq[i:i+3]\n",
+    "            if codon == 'ATG' and start is None:\n",
+    "                start = i\n",
+    "            if codon in stop_codons and start is not None:\n",
+    "                orf = seq[start:i+3]\n",
+    "                if len(orf) > longest_length:\n",
+    "                    longest_orf = orf\n",
+    "                    longest_length = len(orf)\n",
+    "                start = None\n",
+    "    \n",
+    "    # 翻译最长ORF，去除终止符号\n",
+    "    if longest_orf:\n",
+    "        protein_sequence = longest_orf.translate(to_stop=True)\n",
+    "        return str(protein_sequence)\n",
+    "    else:\n",
+    "        return \"-\"\n",
+    "\n",
+    "# 示例DNA序列\n",
+    "dna_sequence = \"TCAGTTTTTTGCTTTCGCCGCCGCTTTAACAATGACAGCGAACGCTGACGCTTTTAACGATGCACCACCAACTAATGCACCATCAATATCAGGCTGAGTAAACAATTCTGCTGCATTTGCATCATTGACGGAACCGCCATATTGAATAATTACCCGTTCAGCAACGGCTTGGCTTTGTTTTGCAATATGACCTCGAATAAAGGCATGTACTGCTTGTGCTTGAGCTGGAGTCGCCGATTTACCTGTACCGATAGCCCAAATCGGTTCATAAGCGATTACTGCACCGTTAAATGCTTCAACACCTAGTGTATTCATCACCGCATCAATTTGACGTGCACAAACCTCTTCCGTTTTGCCTGCTTCATTTTCAGCTTCGCTTTCACCGATACATAATACAGGAACTAAACCAGCATCTTTTAACACACCAAATTTTTTCGCAATAAATTCATCACTTTCATGATGATATTGACGTCGCTCAGAATGACCGATAATGACATATTTTACACCAAAGTCTTTTAACATTTCTGTTGAAATATCACCGGTAAATGCACCTTGTTTGTTTAAATCAACATTTTGAGTACCTAAAGCAATATCACTGCTGACCAGTGCAGTTTCAGCTTCCGCTAAATACATGACAGGCGGTGCAATTGCCACATCACAGCCTGACACCGCATTAAGTTCATCTTTTAAACCGGTAATAAGTTCTTTTGTAAAGGCTTTACTACCATTTAATTTCCAGTTACCCATGACTAAAGGACGACGAGCCAT\"\n",
+    "\n",
+    "# 获取最长的蛋白质序列\n",
+    "protein_sequence = find_longest_orf(dna_sequence)\n",
+    "print(\"最长的蛋白质序列:\", protein_sequence)\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 13,
+   "id": "f42457cf-f946-46e5-9d31-b3c8947c0182",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "#获得ORF完全匹配的\n",
+    "not_match_list1 = []\n",
+    "for item in not_match_list:\n",
+    "    example_dna = item[\"seq_a\"]\n",
+    "    example_protein = item[\"seq_b\"]\n",
+    "    label = item[\"label\"]\n",
+    "    \n",
+    "    protein_trans = find_longest_orf(example_dna)\n",
+    "\n",
+    "    if 1==label:\n",
+    "        if example_protein.find(protein_trans[1:-2])==-1:#包含即可,前后可以相差几个字母\n",
+    "            not_match_list1.append(item)\n",
+    "        else:\n",
+    "            pos_select_list.append(item)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 14,
+   "id": "4116c8f9-277d-41eb-bd4b-e66e20336ab5",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "#ORF匹配较多的\n",
+    "from Bio import Align\n",
+    "\n",
+    "# 创建PairwiseAligner对象\n",
+    "aligner = Align.PairwiseAligner()\n",
+    "\n",
+    "# 设置比对模式为全局比对\n",
+    "aligner.mode = \"global\"\n",
+    "\n",
+    "for item in not_match_list1:\n",
+    "    example_dna = item[\"seq_a\"]\n",
+    "    example_protein = item[\"seq_b\"]\n",
+    "    label = item[\"label\"]\n",
+    "    \n",
+    "    protein_trans = find_longest_orf(example_dna)\n",
+    "\n",
+    "    \n",
+    "    if 1==label:\n",
+    "\n",
+    "        alignments = aligner.align(example_protein, protein_trans)\n",
+    "        score = alignments[0].score\n",
+    "        protein_trans_len = len(protein_trans)\n",
+    "\n",
+    "        sim_score = score/protein_trans_len\n",
+    "\n",
+    "        \n",
+    "        if sim_score > 0.8:#匹配较高的\n",
+    "            pos_select_list.append(item)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 15,
+   "id": "b7a303cc-1bfc-4fe4-9428-addca7b000ea",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "17067 6309\n"
+     ]
+    }
+   ],
+   "source": [
+    "print(len(neg_select_list),len(pos_select_list))"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 9,
+   "id": "37ee3361-2fd6-441b-bb59-f355a95debae",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "target            0 MA--ES-REPR-GAVE----A----EL-DPVEYTLRK------R-----L------P-H-\n",
+      "                  0 |---|--|----||------|----|--|-------|------|-----|------|-|-\n",
+      "query             0 M-WQE-AR---HGA--WHRRATSGSE-QD-------KKKFIGGRWSHTPLVQKTTVPVHG\n",
+      "\n",
+      "target           28 ---RLP--R-RPN-DVYVNMKTDFK-AQL------A----RCQKLLDCG-ARG-------\n",
+      "                 60 ---|-|--|-|---|------|----|--------|----|-----|---|-|-------\n",
+      "query            45 HGER-PTSRGR--QD------T---TA--PRTPSSAGSVPR-----D--VA-GGPPRRLA\n",
+      "\n",
+      "target           62 Q-SACSEIYIHGLG-L----AIN----RA--INIA-LQLQAGS-F---GALQ--VAAN--\n",
+      "                120 |-|-------|-|--|----|------|---|--|-|-|-----|---|-----|-----\n",
+      "query            83 QKS-------H-L-WLGYWGA--TLKTR-MWI--AEL-L----RFRITG---SRV---SV\n",
+      "\n",
+      "target          101 ------TS-TVELVDELEPE--TDT-RE-PVI-------RN-----RNNS--AIHIRVF-\n",
+      "                180 ------||-|||-|--|-----|---|--|---------|------|-----|---|---\n",
+      "query           118 SGSSSSTSSTVE-V--L---AAT--CR-AP--KLPACSCR-AMLMAR---LMA---R--P\n",
+      "\n",
+      "target          135 RVAPQ-- 140\n",
+      "                240 |--|--- 247\n",
+      "query           158 R--P-WM 162\n",
+      "\n",
+      "比对得分: 55.0\n",
+      "查询序列: MWQEARHGAWHRRATSGSEQDKKKFIGGRWSHTPLVQKTTVPVHGHGERPTSRGRQDTTAPRTPSSAGSVPRDVAGGPPRRLAQKSHLWLGYWGATLKTRMWIAELLRFRITGSRVSVSGSSSSTSSTVEVLAATCRAPKLPACSCRAMLMARLMARPRPWM\n",
+      "目标序列: MAESREPRGAVEAELDPVEYTLRKRLPHRLPRRPNDVYVNMKTDFKAQLARCQKLLDCGARGQSACSEIYIHGLGLAINRAINIALQLQAGSFGALQVAANTSTVELVDELEPETDTREPVIRNRNNSAIHIRVFRVAPQ\n",
+      "-----------------------------------------------------------\n",
+      "\n"
+     ]
+    }
+   ],
+   "source": [
+    "from Bio import Align\n",
+    "\n",
+    "# 创建PairwiseAligner对象\n",
+    "aligner = Align.PairwiseAligner()\n",
+    "\n",
+    "# 设置比对模式为全局比对\n",
+    "aligner.mode = \"global\"\n",
+    "\n",
+    "\n",
+    "# 示例蛋白质序列\n",
+    "seq1 = \"MAESREPRGAVEAELDPVEYTLRKRLPHRLPRRPNDVYVNMKTDFKAQLARCQKLLDCGARGQSACSEIYIHGLGLAINRAINIALQLQAGSFGALQVAANTSTVELVDELEPETDTREPVIRNRNNSAIHIRVFRVAPQ\"\n",
+    "seq2 = \"MWQEARHGAWHRRATSGSEQDKKKFIGGRWSHTPLVQKTTVPVHGHGERPTSRGRQDTTAPRTPSSAGSVPRDVAGGPPRRLAQKSHLWLGYWGATLKTRMWIAELLRFRITGSRVSVSGSSSSTSSTVEVLAATCRAPKLPACSCRAMLMARLMARPRPWM\"\n",
+    "\n",
+    "\n",
+    "# 执行比对\n",
+    "alignments = aligner.align(seq1, seq2)\n",
+    "\n",
+    "# 输出比对结果\n",
+    "for alignment in alignments:\n",
+    "    print(alignment)\n",
+    "    print(f\"比对得分: {alignment.score}\")\n",
+    "    print(f\"查询序列: {alignment.query}\")\n",
+    "    print(f\"目标序列: {alignment.target}\")\n",
+    "    print(\"-----------------------------------------------------------\\n\")\n",
+    "    break"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "a3499a28-f01d-4e48-9c49-916763cde800",
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3 (ipykernel)",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.11.9"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 5
+}

get_data/get_dna_protein_pair_rand.ipynb ADDED Viewed

	@@ -0,0 +1,412 @@

+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "cabe185c-850a-45be-a1fe-a0913bf921a3",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "#获得dna-蛋白质数据"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "id": "9ff80573-0411-4244-8fdc-488f1592e5cf",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "--2025-02-15 18:51:21--  ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/complete/uniprot_sprot.fasta.gz\n",
+      "           => ‘uniprot_sprot.fasta.gz’\n",
+      "Resolving ftp.uniprot.org (ftp.uniprot.org)... 128.175.240.195\n",
+      "Connecting to ftp.uniprot.org (ftp.uniprot.org)|128.175.240.195|:21... connected.\n",
+      "Logging in as anonymous ... Logged in!\n",
+      "==> SYST ... done.    ==> PWD ... done.\n",
+      "==> TYPE I ... done.  ==> CWD (1) /pub/databases/uniprot/current_release/knowledgebase/complete ... done.\n",
+      "==> SIZE uniprot_sprot.fasta.gz ... 92924866\n",
+      "==> PASV ... done.    ==> RETR uniprot_sprot.fasta.gz ... done.\n",
+      "Length: 92924866 (89M) (unauthoritative)\n",
+      "\n",
+      "uniprot_sprot.fasta 100%[===================>]  88.62M   284KB/s    in 3m 38s  \n",
+      "\n",
+      "2025-02-15 18:55:02 (417 KB/s) - ‘uniprot_sprot.fasta.gz’ saved [92924866]\n",
+      "\n",
+      "tar: This does not look like a tar archive\n",
+      "tar: Skipping to next header\n",
+      "tar: Exiting with failure status due to previous errors\n"
+     ]
+    }
+   ],
+   "source": [
+    "#获得蛋白质fasta数据\n",
+    "!wget ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/complete/uniprot_sprot.fasta.gz"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "id": "476f187e-7c70-4c19-bb81-9df4b4360529",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "!gunzip uniprot_sprot.fasta.gz"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 3,
+   "id": "2c4bf4a6-8f82-4b12-aa66-f5dd89929cf2",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "!grep \">sp\" uniprot_sprot.fasta|awk -F \"|\" '{print $2}' > uniprot_sprot.fasta.id"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "id": "36ff4e11-0d8e-46a5-956e-26cac817783b",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/home/maris/miniconda3/envs/dnagpt/lib/python3.11/site-packages/Bio/pairwise2.py:278: BiopythonDeprecationWarning: Bio.pairwise2 has been deprecated, and we intend to remove it in a future release of Biopython. As an alternative, please consider using Bio.Align.PairwiseAligner as a replacement, and contact the Biopython developers if you still need the Bio.pairwise2 module.\n",
+      "  warnings.warn(\n"
+     ]
+    }
+   ],
+   "source": [
+    "from Bio import Entrez, SeqIO\n",
+    "from Bio.Seq import Seq\n",
+    "import requests\n",
+    "from io import StringIO\n",
+    "import re\n",
+    "from Bio import pairwise2\n",
+    "from Bio.pairwise2 import format_alignment\n",
+    "\n",
+    "Entrez.email = \"wangliang.f@gmail.com\" #ncbi自己注册一个邮箱。https://www.ncbi.nlm.nih.gov/account/login/"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 6,
+   "id": "2513d8b9-edfb-4e34-8615-57d291f53557",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "'MAFSAEDVLKEYDRRRRMEALLLSLYYPNDRKLLDYKEWSPPRVQVECPKAPVEWNNPPSEKGLIVGHFSGIKYKGEKAQASEVDVNKMCCWVSKFKDAMRRYQGIQTCKIPGKVLSDLDAKIKAYNLTVEGVEGFVRYSRVTKQHVAAFLKELRHSKQYENVNLIHYILTDKRVDIQHLEKDLVKDFKALVESAHRMRQGHMINVKYILYQLLKKHGHGPDGPDILTVKTGSKGVLYDDSFRKIYTDLGWKFTPL'"
+      ]
+     },
+     "execution_count": 6,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "#step 1,获得完整的fasta数据\n",
+    "def fetch_uniprot_protein_sequence(uniprot_id):\n",
+    "    url = f\"https://www.uniprot.org/uniprot/{uniprot_id}.fasta\"\n",
+    "    response = requests.get(url)\n",
+    "    if response.status_code == 200:\n",
+    "        fasta_data = response.text\n",
+    "        record = SeqIO.read(StringIO(fasta_data), \"fasta\")\n",
+    "        return str(record.seq)\n",
+    "    else:\n",
+    "        raise ValueError(f\"未能从 UniProt 获取蛋白质序列，状态码：{response.status_code}\")\n",
+    "\n",
+    "uniprot_id = \"Q6GZX4\" #第一条数据为例\n",
+    "protein_sequence = fetch_uniprot_protein_sequence(uniprot_id)\n",
+    "protein_sequence"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 7,
+   "id": "01805f1f-213e-4212-8873-2c0a83206840",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "'81941549'"
+      ]
+     },
+     "execution_count": 7,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "#step 2, 获得ncbi的蛋白质id，注意这个蛋白质id和uniprot的不一样\n",
+    "handle = Entrez.esearch(db=\"protein\", term=uniprot_id)\n",
+    "record = Entrez.read(handle)\n",
+    "handle.close()\n",
+    "\n",
+    "protein_ncbi_id = record[\"IdList\"][0]\n",
+    "protein_ncbi_id"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 21,
+   "id": "746deb4d-40ec-4235-9ec4-c45c84889da9",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "AY548484.1\n"
+     ]
+    }
+   ],
+   "source": [
+    "#step 3，获得ncbi中的数据使用ncbi id\n",
+    "def extract_first_xref_id(info_string):\n",
+    "    \"\"\"\n",
+    "    从给定的字符串中提取 xrefs: 后面的第一个 ID。\n",
+    "    \n",
+    "    参数:\n",
+    "    - info_string (str): 包含 UniProtKB 信息的字符串\n",
+    "    \n",
+    "    返回:\n",
+    "    - str 或 None: 如果找到，则返回第一个 ID；否则返回 None。\n",
+    "    \"\"\"\n",
+    "    # 使用正则表达式查找 'xrefs:' 后面的第一个 ID\n",
+    "    match = re.search(r'xrefs:\\s*([\\w.-]+)', info_string)\n",
+    "    if match:\n",
+    "        return match.group(1)  # 返回匹配到的第一个 ID\n",
+    "    else:\n",
+    "        return None\n",
+    "\n",
+    "\n",
+    "def fetch_ncbi_genbank_data(protein_ncbi_id):\n",
+    "    #STEP 1, 获得protein 数据\n",
+    "    handle = Entrez.efetch(db=\"protein\", id=protein_ncbi_id, rettype=\"gb\", retmode=\"text\")\n",
+    "    genbank_data = handle.read()\n",
+    "    handle.close()\n",
+    "\n",
+    "    #获得dna的id\n",
+    "    rec = SeqIO.parse(StringIO(genbank_data), \"genbank\")\n",
+    "    for item in rec:\n",
+    "        record = item\n",
+    "        break\n",
+    "\n",
+    "    db_source = record.annotations[\"db_source\"]\n",
+    "    xref_id = extract_first_xref_id(db_source)\n",
+    "\n",
+    "    print(xref_id)\n",
+    "    \n",
+    "\n",
+    "    #step2，获得dna数据\n",
+    "    r_handle = Entrez.efetch(id=xref_id, db='nucleotide', rettype='gb', retmode='text')\n",
+    "    dna_data = r_handle.read()\n",
+    "    r_handle.close()\n",
+    "    \n",
+    "    return dna_data\n",
+    "\n",
+    "genbank_data = fetch_ncbi_genbank_data(protein_ncbi_id)\n",
+    "#print(genbank_data)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 15,
+   "id": "90be7571-db8d-4bc8-b6ee-0b734a4d112e",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "LOCUS       001R_FRG3G               256 aa            linear   VRL 08-NOV-2023\n",
+      "DEFINITION  RecName: Full=Putative transcription factor 001R.\n",
+      "ACCESSION   Q6GZX4\n",
+      "VERSION     Q6GZX4.1\n",
+      "DBSOURCE    UniProtKB: locus 001R_FRG3G, accession Q6GZX4;\n",
+      "            class: standard.\n",
+      "            created: Jun 28, 2011.\n",
+      "            sequence updated: Jul 19, 2004.\n",
+      "            annotation updated: Nov 8, 2023.\n",
+      "            xrefs: AY548484.1, AAT09660.1, YP_031579.1\n",
+      "            xrefs (non-sequence databases): SwissPalm:Q6GZX4, GeneID:2947773,\n",
+      "            KEGG:vg:2947773, Proteomes:UP000008770, GO:0046782,\n",
+      "            InterPro:IPR007031, Pfam:PF04947\n",
+      "KEYWORDS    Activator; Reference proteome; Transcription; Transcription\n",
+      "            regulation.\n",
+      "SOURCE      Frog virus 3 (isolate Goorha)\n",
+      "  ORGANISM  Frog virus 3 (isolate Goorha)\n",
+      "            Viruses; Varidnaviria; Bamfordvirae; Nucleocytoviricota;\n",
+      "            Megaviricetes; Pimascovirales; Iridoviridae; Alphairidovirinae;\n",
+      "            Ranavirus; Frog virus 3.\n",
+      "REFERENCE   1  (residues 1 to 256)\n",
+      "  AUTHORS   Tan,W.G., Barkman,T.J., Gregory Chinchar,V. and Essani,K.\n",
+      "  TITLE     Comparative genomic analyses of frog virus 3, type species of the\n",
+      "            genus Ranavirus (family Iridoviridae)\n",
+      "  JOURNAL   Virology 323 (1), 70-84 (2004)\n",
+      "   PUBMED   15165820\n",
+      "  REMARK    NUCLEOTIDE SEQUENCE [LARGE SCALE GENOMIC DNA].\n",
+      "COMMENT     [FUNCTION] Transcription activation. {ECO:0000305}.\n",
+      "FEATURES             Location/Qualifiers\n",
+      "     source          1..256\n",
+      "                     /organism=\"Frog virus 3 (isolate Goorha)\"\n",
+      "                     /host=\"Dryophytes versicolor (chameleon treefrog)\"\n",
+      "                     /host=\"Lithobates pipiens (Northern leopard frog) (Rana\n",
+      "                     pipiens)\"\n",
+      "                     /host=\"Lithobates sylvaticus (Wood frog) (Rana sylvatica)\"\n",
+      "                     /host=\"Notophthalmus viridescens (Eastern newt) (Triturus\n",
+      "                     viridescens)\"\n",
+      "                     /db_xref=\"taxon:654924\"\n",
+      "     gene            1..256\n",
+      "                     /locus_tag=\"FV3-001R\"\n",
+      "     Protein         1..256\n",
+      "                     /product=\"Putative transcription factor 001R\"\n",
+      "                     /UniProtKB_evidence=\"Predicted\"\n",
+      "     Region          1..256\n",
+      "                     /region_name=\"Mature chain\"\n",
+      "                     /note=\"Putative transcription factor 001R.\n",
+      "                     /id=PRO_0000410512.\"\n",
+      "     Region          81..253\n",
+      "                     /region_name=\"Pox_VLTF3\"\n",
+      "                     /note=\"Poxvirus Late Transcription Factor VLTF3 like;\n",
+      "                     pfam04947\"\n",
+      "                     /db_xref=\"CDD:282761\"\n",
+      "ORIGIN      \n",
+      "        1 mafsaedvlk eydrrrrmea lllslyypnd rklldykews pprvqvecpk apvewnnpps\n",
+      "       61 ekglivghfs gikykgekaq asevdvnkmc cwvskfkdam rryqgiqtck ipgkvlsdld\n",
+      "      121 akikaynltv egvegfvrys rvtkqhvaaf lkelrhskqy envnlihyil tdkrvdiqhl\n",
+      "      181 ekdlvkdfka lvesahrmrq ghminvkyil yqllkkhghg pdgpdiltvk tgskgvlydd\n",
+      "      241 sfrkiytdlg wkftpl\n",
+      "//\n",
+      "\n",
+      "\n"
+     ]
+    }
+   ],
+   "source": [
+    "#分步测试，STEP 1, 获得protein 数据 这个里面应该有对应的dna数据CDS的,但其实没有。。\n",
+    "handle = Entrez.efetch(db=\"protein\", id=\"81941549\", rettype=\"gb\", retmode=\"text\")\n",
+    "genbank_data_protein = handle.read()\n",
+    "handle.close()\n",
+    "print(genbank_data_protein) #需要其中的db_source中xrefs里面的数据中的第1个，也就是AY548484.1"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 17,
+   "id": "1b3c03e0-ea22-4ec4-aa4d-4994485114f1",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "def calculate_similarity(seq1, seq2):\n",
+    "    \"\"\"使用局部比对计算两个序列之间的相似度得分\"\"\"\n",
+    "    alignments = pairwise2.align.localxx(seq1, seq2)\n",
+    "    best_score = max(aln.score for aln in alignments) if alignments else 0\n",
+    "    return best_score\n",
+    "\n",
+    "def extract_cds_and_translate(genbank_data, protein_seq_ori=None):\n",
+    "    results = []\n",
+    "    record = None\n",
+    "\n",
+    "    # 使用 StringIO 加载 GenBank 数据\n",
+    "    for rec in SeqIO.parse(StringIO(genbank_data), \"genbank\"):\n",
+    "        record = rec\n",
+    "        break\n",
+    "\n",
+    " \n",
+    "    if not record:\n",
+    "        raise ValueError(\"未能成功解析 GenBank 数据\")\n",
+    "\n",
+    "    gene_id = record.id\n",
+    "\n",
+    "    for feature in record.features:\n",
+    "        if feature.type == \"CDS\":\n",
+    "            cds_start = feature.location.start\n",
+    "            cds_end = feature.location.end\n",
+    "            cds_sequence = record.seq[cds_start:cds_end]\n",
+    "            protein_sequence = feature.qualifiers[\"translation\"][0]\n",
+    "            protein_id = feature.qualifiers[\"protein_id\"][0]\n",
+    "            \n",
+    "            sim_score = calculate_similarity(protein_sequence, protein_seq_ori)\n",
+    "            results.append({\n",
+    "                \"protein_id\":protein_id,\n",
+    "                \"gene_id\": gene_id ,\n",
+    "                \"cds_start\": cds_start,\n",
+    "                \"cds_end\": cds_end,\n",
+    "                \"dna_sequence\": str(cds_sequence),\n",
+    "                \"protein_sequence\": str(protein_sequence),\n",
+    "                \"sim\":sim_score\n",
+    "            })\n",
+    "    # 使用 sorted() 函数并指定 key 和 reverse 参数\n",
+    "    sorted_results = sorted(results, key=lambda x: x['sim'], reverse=True)\n",
+    "    return sorted_results\n",
+    "\n",
+    "cds_data_list = extract_cds_and_translate(genbank_data, protein_sequence)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 19,
+   "id": "fdd02166-9af8-433e-a6c6-051482759623",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "{'protein_id': 'AAT09660.1',\n",
+       " 'gene_id': 'AY548484.1',\n",
+       " 'cds_start': ExactPosition(271),\n",
+       " 'cds_end': ExactPosition(1042),\n",
+       " 'dna_sequence': 'ATGGCATTCTCGGCAGAAGATGTGCTGAAGGAGTACGACAGGAGACGGAGGATGGAGGCCCTCTTGCTCAGCCTGTACTACCCAAACGACCGCAAGCTCCTAGACTACAAAGAGTGGTCTCCGCCCAGGGTTCAGGTAGAGTGTCCCAAAGCCCCCGTGGAGTGGAACAACCCTCCGTCAGAAAAGGGTCTCATCGTGGGGCACTTTAGCGGCATAAAGTACAAGGGGGAAAAGGCTCAGGCATCCGAGGTAGACGTCAACAAGATGTGCTGCTGGGTGTCCAAGTTTAAAGACGCCATGAGGAGGTACCAGGGCATACAGACTTGCAAGATCCCCGGCAAGGTCCTGTCGGACCTCGACGCCAAAATAAAGGCTTACAACCTCACCGTTGAGGGCGTAGAGGGTTTCGTGAGGTACTCACGAGTGACCAAGCAGCACGTAGCAGCTTTCCTCAAGGAGCTCAGGCACTCTAAGCAGTACGAAAACGTCAACCTCATCCACTACATCCTCACCGACAAGAGGGTAGACATTCAGCACCTGGAAAAGGATCTTGTCAAGGATTTTAAGGCGCTGGTGGAATCTGCTCACAGGATGAGGCAGGGCCACATGATCAACGTAAAGTACATACTCTACCAGCTCCTCAAGAAGCACGGTCACGGGCCAGACGGTCCAGACATCCTGACCGTAAAGACTGGAAGCAAGGGAGTCTTGTACGACGATTCCTTTCGCAAGATTTACACGGACCTCGGGTGGAAGTTTACCCCCCTATGA',\n",
+       " 'protein_sequence': 'MAFSAEDVLKEYDRRRRMEALLLSLYYPNDRKLLDYKEWSPPRVQVECPKAPVEWNNPPSEKGLIVGHFSGIKYKGEKAQASEVDVNKMCCWVSKFKDAMRRYQGIQTCKIPGKVLSDLDAKIKAYNLTVEGVEGFVRYSRVTKQHVAAFLKELRHSKQYENVNLIHYILTDKRVDIQHLEKDLVKDFKALVESAHRMRQGHMINVKYILYQLLKKHGHGPDGPDILTVKTGSKGVLYDDSFRKIYTDLGWKFTPL',\n",
+       " 'sim': 256.0}"
+      ]
+     },
+     "execution_count": 19,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "cds_data_list[0]"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "58031699-a779-44f8-b88e-2efb6b53d757",
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3 (ipykernel)",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.11.9"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 5
+}

get_data/get_lucaone_data.ipynb ADDED Viewed

	@@ -0,0 +1,108 @@

+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "id": "36cb4bfb-c6e0-4924-a91d-57dfccd63801",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "#获得lucaone的中心法则相关数据"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "id": "01c3e3cc-7f70-4f9f-89f4-ed236845e64e",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "--2025-02-15 11:56:31--  http://47.93.21.181/lucaone/DownstreamTasksDataset/dataset/CentralDogma/gene_protein/binary_class/train/train.csv\n",
+      "Connecting to 47.93.21.181:80... connected.\n",
+      "HTTP request sent, awaiting response... 200 OK\n",
+      "Length: 5302028 (5.1M) [application/octet-stream]\n",
+      "Saving to: ‘train.csv’\n",
+      "\n",
+      "train.csv           100%[===================>]   5.06M  12.7MB/s    in 0.4s    \n",
+      "\n",
+      "2025-02-15 11:56:31 (12.7 MB/s) - ‘train.csv’ saved [5302028/5302028]\n",
+      "\n",
+      "--2025-02-15 11:56:31--  http://47.93.21.181/lucaone/DownstreamTasksDataset/dataset/CentralDogma/gene_protein/binary_class/test/test.csv\n",
+      "Connecting to 47.93.21.181:80... connected.\n",
+      "HTTP request sent, awaiting response... 200 OK\n",
+      "Length: 33131633 (32M) [application/octet-stream]\n",
+      "Saving to: ‘test.csv’\n",
+      "\n",
+      "test.csv            100%[===================>]  31.60M  9.59MB/s    in 3.3s    \n",
+      "\n",
+      "2025-02-15 11:56:35 (9.59 MB/s) - ‘test.csv’ saved [33131633/33131633]\n",
+      "\n",
+      "--2025-02-15 11:56:35--  http://47.93.21.181/lucaone/DownstreamTasksDataset/dataset/CentralDogma/gene_protein/binary_class/dev/dev.csv\n",
+      "Connecting to 47.93.21.181:80... connected.\n",
+      "HTTP request sent, awaiting response... 200 OK\n",
+      "Length: 3982657 (3.8M) [application/octet-stream]\n",
+      "Saving to: ‘dev.csv’\n",
+      "\n",
+      "dev.csv             100%[===================>]   3.80M  8.46MB/s    in 0.4s    \n",
+      "\n",
+      "2025-02-15 11:56:35 (8.46 MB/s) - ‘dev.csv’ saved [3982657/3982657]\n",
+      "\n"
+     ]
+    }
+   ],
+   "source": [
+    "!wget http://47.93.21.181/lucaone/DownstreamTasksDataset/dataset/CentralDogma/gene_protein/binary_class/train/train.csv\n",
+    "!wget http://47.93.21.181/lucaone/DownstreamTasksDataset/dataset/CentralDogma/gene_protein/binary_class/test/test.csv\n",
+    "!wget http://47.93.21.181/lucaone/DownstreamTasksDataset/dataset/CentralDogma/gene_protein/binary_class/dev/dev.csv"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 3,
+   "id": "23d39250-50a6-4557-9cb9-2d637ce52835",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "#合并文件\n",
+    "# 先复制第一个文件的内容（包括表头）\n",
+    "!cp train.csv central_dogma.csv\n",
+    "\n",
+    "# 然后将后续文件的内容（跳过表头）追加到combined.csv中\n",
+    "!tail -n +2 test.csv >> central_dogma.csv\n",
+    "!tail -n +2 dev.csv >> central_dogma.csv"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "d54081eb-d30c-4b3f-8a6d-0d1b53c37fd7",
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3 (ipykernel)",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.11.9"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 5
+}

get_data/get_protein_dna_pair.py ADDED Viewed

	@@ -0,0 +1,183 @@

+from Bio import Entrez, SeqIO
+from Bio.Seq import Seq
+import requests
+from io import StringIO
+import re
+from Bio import pairwise2
+from Bio.pairwise2 import format_alignment
+Entrez.email = "wangliang.f@gmail.com"
+def calculate_similarity(seq1, seq2):
+    """使用局部比对计算两个序列之间的相似度得分"""
+    alignments = pairwise2.align.localxx(seq1, seq2)
+    best_score = max(aln.score for aln in alignments) if alignments else 0
+    return best_score
+def extract_first_xref_id(info_string):
+    """
+    从给定的字符串中提取 xrefs: 后面的第一个 ID。
+    参数:
+    - info_string (str): 包含 UniProtKB 信息的字符串
+    返回:
+    - str 或 None: 如果找到，则返回第一个 ID；否则返回 None。
+    """
+    # 使用正则表达式查找 'xrefs:' 后面的第一个 ID
+    match = re.search(r'xrefs:\s*([\w.-]+)', info_string)
+    if match:
+        return match.group(1)  # 返回匹配到的第一个 ID
+    else:
+        return None
+def fetch_uniprot_protein_sequence(uniprot_id):
+    url = f"https://www.uniprot.org/uniprot/{uniprot_id}.fasta"
+    response = requests.get(url)
+    if response.status_code == 200:
+        fasta_data = response.text
+        record = SeqIO.read(StringIO(fasta_data), "fasta")
+        return str(record.seq)
+    else:
+        raise ValueError(f"未能从 UniProt 获取蛋白质序列，状态码：{response.status_code}")
+def fetch_ncbi_genbank_data(protein_ncbi_id):
+    #STEP 1, 获得protein 数据
+    handle = Entrez.efetch(db="protein", id=protein_ncbi_id, rettype="gb", retmode="text")
+    genbank_data = handle.read()
+    handle.close()
+    #获得dna的id
+    rec = SeqIO.parse(StringIO(genbank_data), "genbank")
+    for item in rec:
+        record = item
+        break
+    #protein_seq = str(record.seq)
+    db_source = record.annotations["db_source"]
+    #print("db_source", db_source)
+    xref_id = extract_first_xref_id(db_source)
+    print("xref_id", xref_id)
+    #step2，获得dna数据
+    r_handle = Entrez.efetch(id=xref_id, db='nucleotide', rettype='gb', retmode='text')
+    dna_data = r_handle.read()
+    r_handle.close()
+    return dna_data
+def extract_cds_and_translate(genbank_data, protein_seq_ori=None):
+    results = []
+    record = None
+    # 使用 StringIO 加载 GenBank 数据
+    for rec in SeqIO.parse(StringIO(genbank_data), "genbank"):
+        record = rec
+        break
+    if not record:
+        raise ValueError("未能成功解析 GenBank 数据")
+    gene_id = record.id
+    for feature in record.features:
+        if feature.type == "CDS":
+            #protein_sequence =  features.qualifiers["translation"][0]
+            # if protein_id and "protein_id" in feature.qualifiers:
+            #     if protein_id != feature.qualifiers["protein_id"][0]:
+            #         continue
+            cds_start = feature.location.start
+            cds_end = feature.location.end
+            cds_sequence = record.seq[cds_start:cds_end]
+            #protein_sequence = cds_sequence.translate(to_stop=True)
+            protein_sequence = feature.qualifiers["translation"][0]
+            protein_id = feature.qualifiers["protein_id"][0]
+            sim_score = calculate_similarity(protein_sequence, protein_seq_ori)
+            #if p_s==protein_seq: #只要1个
+            results.append({
+                "gene_id":gene_id,
+                "protein_id":protein_id,
+                "cds_start": cds_start,
+                "cds_end": cds_end,
+                "dna_sequence": str(cds_sequence),
+                "protein_sequence": str(protein_sequence),
+                "sim":sim_score
+            })
+    # 使用 sorted() 函数并指定 key 和 reverse 参数
+    sorted_results = sorted(results, key=lambda x: x['sim'], reverse=True)
+    return sorted_results
+def get_protein_and_dna_sequences(uniprot_id):
+    """
+    主函数，根据蛋白质id，获得dna和蛋白质匹配对
+    :param uniprot_id:
+    :return:
+    """
+    try:
+        print(f"正在获取 UniProt ID: {uniprot_id} 的蛋白质序列...")
+        protein_sequence = fetch_uniprot_protein_sequence(uniprot_id)
+        print("正在获取 NCBI 数据...")
+        handle = Entrez.esearch(db="protein", term=uniprot_id)
+        record = Entrez.read(handle)
+        handle.close()
+        if not record["IdList"]:
+            raise ValueError("未找到对应的蛋白质记录")
+        protein_ncbi_id = record["IdList"][0]
+        #print("protein_ncbi_id", protein_ncbi_id)
+        genbank_data = fetch_ncbi_genbank_data(protein_ncbi_id)
+        #print("genbank_data", genbank_data)
+        print("正在提取 DNA 和蛋白质序列...")
+        cds_data = extract_cds_and_translate(genbank_data, protein_sequence)
+        return {
+            "uniprot_id": uniprot_id,
+            "protein_sequence": protein_sequence,
+            "cds_data": cds_data,
+        }
+    except Exception as e:
+        print(f"发生错误：{e}")
+        return {"error": str(e)}
+def process_data(uniprot_id):
+    # 示例：获取蛋白质和 DNA 序列
+    result = get_protein_and_dna_sequences(uniprot_id)
+    if "error" in result:
+        print(f"错误：{result['error']}")
+        return -1
+    else:
+        #print(result)
+        if len(result["cds_data"])>0:
+            gene_data = result["cds_data"][0]
+            data = {
+                "seq_id_a":gene_data["gene_id"],
+                "seq_type_a":"gene",
+                "seq_a":gene_data["dna_sequence"],
+                "seq_id_b":uniprot_id,
+                "seq_type_b":"pro",
+                "seq_b":gene_data["protein_sequence"],
+                "protein_id":gene_data["protein_id"],
+            }
+            return data
+        else:
+            return -1
+if __name__=="__main__":
+    ret = process_data("Q9Z3S1")
+    print(ret)