sangdal
/

ChatBot

+{
+  "nbformat": 4,
+  "nbformat_minor": 0,
+  "metadata": {
+    "colab": {
+      "provenance": []
+    },
+    "kernelspec": {
+      "name": "python3",
+      "display_name": "Python 3"
+    },
+    "language_info": {
+      "name": "python"
+    }
+  },
+  "cells": [
+    {
+      "cell_type": "code",
+      "source": [
+        "!pip install torch transformers"
+      ],
+      "metadata": {
+        "colab": {
+          "base_uri": "https://localhost:8080/"
+        },
+        "id": "5YNG-J8gp0zo",
+        "outputId": "427f945a-a7ad-4bcf-8b75-2f205c95c1de"
+      },
+      "execution_count": 7,
+      "outputs": [
+        {
+          "output_type": "stream",
+          "name": "stdout",
+          "text": [
+            "Requirement already satisfied: torch in /usr/local/lib/python3.10/dist-packages (2.0.1+cu118)\n",
+            "Requirement already satisfied: transformers in /usr/local/lib/python3.10/dist-packages (4.31.0)\n",
+            "Requirement already satisfied: filelock in /usr/local/lib/python3.10/dist-packages (from torch) (3.12.2)\n",
+            "Requirement already satisfied: typing-extensions in /usr/local/lib/python3.10/dist-packages (from torch) (4.7.1)\n",
+            "Requirement already satisfied: sympy in /usr/local/lib/python3.10/dist-packages (from torch) (1.11.1)\n",
+            "Requirement already satisfied: networkx in /usr/local/lib/python3.10/dist-packages (from torch) (3.1)\n",
+            "Requirement already satisfied: jinja2 in /usr/local/lib/python3.10/dist-packages (from torch) (3.1.2)\n",
+            "Requirement already satisfied: triton==2.0.0 in /usr/local/lib/python3.10/dist-packages (from torch) (2.0.0)\n",
+            "Requirement already satisfied: cmake in /usr/local/lib/python3.10/dist-packages (from triton==2.0.0->torch) (3.25.2)\n",
+            "Requirement already satisfied: lit in /usr/local/lib/python3.10/dist-packages (from triton==2.0.0->torch) (16.0.6)\n",
+            "Requirement already satisfied: huggingface-hub<1.0,>=0.14.1 in /usr/local/lib/python3.10/dist-packages (from transformers) (0.16.4)\n",
+            "Requirement already satisfied: numpy>=1.17 in /usr/local/lib/python3.10/dist-packages (from transformers) (1.22.4)\n",
+            "Requirement already satisfied: packaging>=20.0 in /usr/local/lib/python3.10/dist-packages (from transformers) (23.1)\n",
+            "Requirement already satisfied: pyyaml>=5.1 in /usr/local/lib/python3.10/dist-packages (from transformers) (6.0.1)\n",
+            "Requirement already satisfied: regex!=2019.12.17 in /usr/local/lib/python3.10/dist-packages (from transformers) (2022.10.31)\n",
+            "Requirement already satisfied: requests in /usr/local/lib/python3.10/dist-packages (from transformers) (2.27.1)\n",
+            "Requirement already satisfied: tokenizers!=0.11.3,<0.14,>=0.11.1 in /usr/local/lib/python3.10/dist-packages (from transformers) (0.13.3)\n",
+            "Requirement already satisfied: safetensors>=0.3.1 in /usr/local/lib/python3.10/dist-packages (from transformers) (0.3.1)\n",
+            "Requirement already satisfied: tqdm>=4.27 in /usr/local/lib/python3.10/dist-packages (from transformers) (4.65.0)\n",
+            "Requirement already satisfied: fsspec in /usr/local/lib/python3.10/dist-packages (from huggingface-hub<1.0,>=0.14.1->transformers) (2023.6.0)\n",
+            "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.10/dist-packages (from jinja2->torch) (2.1.3)\n",
+            "Requirement already satisfied: urllib3<1.27,>=1.21.1 in /usr/local/lib/python3.10/dist-packages (from requests->transformers) (1.26.16)\n",
+            "Requirement already satisfied: certifi>=2017.4.17 in /usr/local/lib/python3.10/dist-packages (from requests->transformers) (2023.7.22)\n",
+            "Requirement already satisfied: charset-normalizer~=2.0.0 in /usr/local/lib/python3.10/dist-packages (from requests->transformers) (2.0.12)\n",
+            "Requirement already satisfied: idna<4,>=2.5 in /usr/local/lib/python3.10/dist-packages (from requests->transformers) (3.4)\n",
+            "Requirement already satisfied: mpmath>=0.19 in /usr/local/lib/python3.10/dist-packages (from sympy->torch) (1.3.0)\n"
+          ]
+        }
+      ]
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "import torch\n",
+        "from argparse import ArgumentParser\n",
+        "from tokenizers import SentencePieceBPETokenizer\n",
+        "from transformers import GPT2LMHeadModel, AutoModel, AutoTokenizer, AutoModelForCausalLM\n",
+        "\n",
+        "parser = ArgumentParser()\n",
+        "parser.add_argument(\"-m\", \"--model-path\", type=str, required=True)\n",
+        "parser.add_argument(\"-o\", \"--output-path\", type=str, required=True)\n",
+        "parser.add_argument(\"-b\", \"--num-beams\", type=int, default=5)\n",
+        "\n",
+        "'''\n",
+        "언어 생성 모델에서 빔서치(Beam Search)를 사용할 때 빔의 개수를 지정하는 옵션입니다.\n",
+        "빔서치는 생성 모델이 다음 ��어를 예측할 때 사용되는 방법 중 하나로,\n",
+        "여러 개의 후보 단어를 유지하고 확률적으로 가장 적합한 단어를 선택합니다.\n",
+        "'''\n",
+        "\n",
+        "\n",
+        "def generate_question(context, num_beams=5):\n",
+        "\n",
+        "    # 모델 경로 위치 잡기\n",
+        "    model = GPT2LMHeadModel.from_pretrained(\"sangdal/ChatBot\")\n",
+        "    device = torch.device(\"cuda:0\" if torch.cuda.is_available() else \"cpu\")\n",
+        "    model = model.to(device)\n",
+        "\n",
+        "    # tokenizer폴더 경로위치 잡기\n",
+        "    tokenizer = SentencePieceBPETokenizer.from_file(\n",
+        "        vocab_filename=\"/content/drive/MyDrive/프로젝트(web)/tokenizer/vocab.json\", merges_filename=\"/content/drive/MyDrive/프로젝트(web)/tokenizer/merges.txt\", add_prefix_space=False\n",
+        "    )\n",
+        "\n",
+        "    example = {\"context\": context, \"question\": \"\", \"answer\": \"\"}\n",
+        "    # example = {\"context\": context, \"question\": \"당신의 장점은? \", \"answer\": \"착함\"}\n",
+        "\n",
+        "    inputs = tokenizer.encode(example[\"context\"])\n",
+        "    input_ids = torch.tensor(inputs.ids, dtype=torch.long).unsqueeze(0).to(device)  # Specify dtype as torch.long\n",
+        "\n",
+        "\n",
+        "    model = model.to(device)\n",
+        "    model.eval()\n",
+        "\n",
+        "    generated_results = []\n",
+        "\n",
+        "    origin_seq_len = input_ids.size(-1)\n",
+        "\n",
+        "    decoded_sequences = model.generate(\n",
+        "        input_ids=input_ids,\n",
+        "        max_length=origin_seq_len + 100, # 질문의 최대길이\n",
+        "        min_length=origin_seq_len + 5, # 질문의 최소길이\n",
+        "        pad_token_id=0,\n",
+        "        bos_token_id=1,\n",
+        "        eos_token_id=2,\n",
+        "        num_beams=num_beams,\n",
+        "        repetition_penalty=1.3,\n",
+        "        no_repeat_ngram_size=3,\n",
+        "        num_return_sequences=1,\n",
+        "    )\n",
+        "\n",
+        "    for decoded_tokens in decoded_sequences.tolist():\n",
+        "        decoded_question_text = tokenizer.decode(decoded_tokens[origin_seq_len:])\n",
+        "        decoded_question_text = decoded_question_text.split(\"</s>\")[0].replace(\"<s>\", \"\")\n",
+        "        decoded_question_text = decoded_question_text.split(\"질문:\")[-1]\n",
+        "        generated_results.append(decoded_question_text)\n",
+        "\n",
+        "    return generated_results\n",
+        "\n",
+        "\n",
+        "\n",
+        "if __name__ == \"__main__\":\n",
+        "    context = input(\"문맥을 입력하세요: \")\n",
+        "    # num_beams = int(input(\"num_beams를 입력하세요 (기본값: 5): \") or 5)\n",
+        "\n",
+        "    generated_question = generate_question(context)\n",
+        "\n",
+        "    print(f\"생성된 질문: {generated_question}\")\n",
+        "\n",
+        "    # print(generated_question)\n",
+        "    # print(type(generated_question))\n",
+        "\n"
+      ],
+      "metadata": {
+        "colab": {
+          "base_uri": "https://localhost:8080/"
+        },
+        "id": "_5CCqm65p1fG",
+        "outputId": "bd143207-0ed0-434c-aeb2-6a26f19f507e"
+      },
+      "execution_count": 9,
+      "outputs": [
+        {
+          "output_type": "stream",
+          "name": "stdout",
+          "text": [
+            "문맥을 입력하세요: 스스로가 학업에 집중하면서도 봉사, 파트타임직, 인턴 등 수많은 활동을 성실히 수행해 왔습니다. 1년간 빵집에서 제조 기사로 일하며 재료 발주부터 포장까지의 전 과정을 담당해 보기도 하고, 2년간 외국 학생들의 생활을 돕는 버디로서 커뮤니케이션 역량을 쌓기도 했습니다. 책임감과 높은 목표치를 기반으로 다양한 분야에서 활동해 왔습니다. 또한 제 성격으로, 저를 가장 잘 표현할 수 있는 단어는 ‘배려’입니다. 평범하지만 그만큼 정감 있고 누군가를 상대함에 있어 필수 요건입니다. 저는 대화의 자리에 임할 때 제 언행이 상대방에게 어떤 영향을 미칠지를 항상 생각합니다. 가끔은 이 배려가 지나쳐 상대에게 부담을 줄 수 있다는 점이 단점이겠으나, 그렇다고 협상의 자리에서 먼저 물러나거나 공동체 이익에 반하는 선택을 하진 않습니다. 제 자신의 의견은 확실히 전달하면서도 ‘상대를 위한 커뮤니케이션’이라는 나름의 원칙을 지키는 것입니다.\n",
+            "생성된 질문: ['주먹이 운다에서 2년간 무엇을 통해 커뮤니케이션 능력을 쌓았는가?']\n"
+          ]
+        }
+      ]
+    },
+    {
+      "cell_type": "code",
+      "source": [],
+      "metadata": {
+        "id": "78M6fCldqS7f"
+      },
+      "execution_count": null,
+      "outputs": []
+    }
+  ]
+}