oddsends
/

KCMII_LLM

Model card Files Files and versions

xet

Community

byminHugging commited on May 18, 2025

Commit

07afcbb

verified ·

1 Parent(s): a854264

Delete kcmii_lm_rag.ipynb

Browse files

Files changed (1) hide show

kcmii_lm_rag.ipynb +0 -483

kcmii_lm_rag.ipynb DELETED Viewed

@@ -1,483 +0,0 @@
-{
- "cells": [
-  {
-   "cell_type": "markdown",
-   "id": "9d6fc17a-d548-4ab6-b5d3-51e4b60960bb",
-   "metadata": {},
-   "source": [
-    "### full-fine-tuning 하기에 학습 시간이 너무 오래걸림\n",
-    "### RAG 검색 기반 활용해 개발해보는 것으로 진행"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "id": "33f8253d-352f-4ac6-9205-59b0e773be77",
-   "metadata": {},
-   "source": [
-    "### 키워드 기반의 RAG 구축  \n",
-    "\n",
-    "### 흐름\n",
-    "[입력: 전공명 3개]  \n",
-    "     ↓  \n",
-    "[CSV 문서에서 3개 전공 정보 추출] ← (Keyword-based Retriever)  \n",
-    "     ↓  \n",
-    "[전공 정보들을 연결하여 프롬프트 생성] ← (Prompt Composer)  \n",
-    "     ↓  \n",
-    "[LLM에게 전달하여 생기부 문구 생성] ← (Generator)"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 4,
-   "id": "cbe0926d-ccec-4942-8a9e-bf5f940d1a0b",
-   "metadata": {},
-   "outputs": [
-    {
-     "data": {
-      "text/plain": [
-       "(61,\n",
-       " '[전공명: 어문학]\\n전공설명: 동서양 언어의 구조와 문학적 표현을 체계적으로 탐구하고, 다양한 문화적 맥락을 이해하는 학문이다.\\n요구역량: 언어적 감각, 논리적 사고력, 비판적 분석 능력\\n전공관심: 언어와 문학, 다양한 국가의 사회·문화적 특성\\n관련진로: 소설가, 방송작가, 번역가, 문학비평가, 통역사, 언어학자')"
-      ]
-     },
-     "execution_count": 4,
-     "metadata": {},
-     "output_type": "execute_result"
-    }
-   ],
-   "source": [
-    "# 사용자로부터 전공명 3개 입력 받기\n",
-    "# csv 데이터에서 해당 전공 3개의 정보 추출\n",
-    "# 추출된 정보를 기반으로 프롬프트 구성\n",
-    "import pandas as pd\n",
-    "\n",
-    "file_path = \"dataset/kcmii_major_rag.csv\"\n",
-    "df = pd.read_csv(file_path)\n",
-    "\n",
-    "def make_major_prompt(df, majors : list) :\n",
-    "    parts = []\n",
-    "    for i, major in enumerate(major, 1) : # enumerate(major, 1) 스타팅 넘버 설정\n",
-    "        row = df[df['전공명']==major]\n",
-    "        if row.empty:\n",
-    "            continue\n",
-    "        r = row.iloc[o]\n",
-    "        \n",
-    "전공설명: {row['전공설명']}\n",
-    "요구역량: {row['요구역량']}\n",
-    "전공관심: {row['전공관심']}\n",
-    "관련진로: {row['관련진로']}\"\"\"\n",
-    "\n",
-    "# 문서 리스트 생성\n",
-    "documents = df.apply(format_row_as_document, axis=1).tolist()\n",
-    "\n",
-    "# 문서 수 확인 및 샘플 출력\n",
-    "len(documents), documents[0]"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 35,
-   "id": "dbd6f8a1-aca2-44df-9d37-7377025c7126",
-   "metadata": {},
-   "outputs": [
-    {
-     "data": {
-      "text/plain": [
-       "pandas.core.series.Series"
-      ]
-     },
-     "execution_count": 35,
-     "metadata": {},
-     "output_type": "execute_result"
-    }
-   ],
-   "source": []
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 5,
-   "id": "52fe7db0-e1e2-4f86-9eb7-55bf794ecb3d",
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "import pandas as pd\n",
-    "file_path = \"dataset/kcmii_major_rag.csv\"\n",
-    "df = pd.read_csv(file_path)\n",
-    "\n",
-    "majors = [\"심리\", \"교육\", \"사회복지\"]\n",
-    "parts = []\n",
-    "for i, major in enumerate(majors, 1):\n",
-    "    row = df[df['전공명']==major]\n",
-    "    r = row.iloc[0] # 시리즈 변환\n",
-    "    part = f\"\"\"{i}. {major}\n",
-    "전공설명: {r['전공설명']}\n",
-    "요구역량: {r['요구역량']}\n",
-    "전공관심: {r['전공관심']}\n",
-    "관련진로: {r['관련진로']}\n",
-    "\"\"\"\n",
-    "    parts.append(part)\n",
-    "\n",
-    "majors_str = \", \".join(majors)\n",
-    "prompt = f\"\"\"OO 학생은 아래의 세 전공 분야({majors_str})에 대해 흥미 수준이 높습니다.\n",
-    "각 전공에 대한 정보를 바탕으로, 고등학생 생활기록부 문구를 작성해주세요:\n",
-    "\n",
-    "{chr(10).join(parts)}\n",
-    "\"\"\""
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 6,
-   "id": "17933069-cd0d-4b15-b424-410b83063dbc",
-   "metadata": {},
-   "outputs": [
-    {
-     "data": {
-      "text/plain": [
-       "['1. 심리\\n전공설명: 인간의 행동과 정신 과정을 과학적으로 탐구하는 학문이다.\\n요구역량: 공감 능력, 분석력, 관찰력\\n전공관심: 인간 행동, 감정, 인지 기능\\n관련진로: 임상심리사, 상담사, 조직심리전문가, 연구원, 교수\\n',\n",
-       " '2. 교육\\n전공설명: 인간의 학습과 발달을 연구하고 효과적인 교수법과 교육 제도를 탐구하는 학문이다.\\n요구역량: 소통 능력, 인내심, 관찰력\\n전공관심: 교육과정, 아동 발달, 교수 학습 방법\\n관련진로: 교사, 교육행정가, 교육연구원, 교수, 교육컨설턴트\\n',\n",
-       " '3. 사회복지\\n전공설명: 사회복지는 다양한 사회 구성원의 복지와 삶의 질 향상을 위한 제도와 실천 방법을 연구하는 학문이다.\\n요구역량: 공감 능력, 대인관계능력, 문제 해결력\\n전공관심: 사회적 약자 지원, 복지 정책, 인간 존엄성\\n관련진로: 사회복지사, 청소년지도사, 복지행정가, 가족상담사, 다문화전문가\\n']"
-      ]
-     },
-     "execution_count": 6,
-     "metadata": {},
-     "output_type": "execute_result"
-    }
-   ],
-   "source": [
-    "parts"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 7,
-   "id": "09768d88-b7a6-4ef6-bd3d-e58f23f8e82b",
-   "metadata": {},
-   "outputs": [
-    {
-     "data": {
-      "text/plain": [
-       "'OO 학생은 아래의 세 전공 분야(심리, 교육, 사회복지)에 대해 흥미 수준이 높습니다.\\n각 전공에 대한 정보를 바탕으로, 고등학생 생활기록부 문구를 작성해주세요:\\n\\n1. 심리\\n전공설명: 인간의 행동과 정신 과정을 과학적으로 탐구하는 학문이다.\\n요구역량: 공감 능력, 분석력, 관찰력\\n전공관심: 인간 행동, 감정, 인지 기능\\n관련진로: 임상심리사, 상담사, 조직심리전문가, 연구원, 교수\\n\\n2. 교육\\n전공설명: 인간의 학습과 발달을 연구하고 효과적인 교수법과 교육 제도를 탐구하는 학문이다.\\n요구역량: 소통 능력, 인내심, 관찰력\\n전공관심: 교육과정, 아동 발달, 교수 학습 방법\\n관련진로: 교사, 교육행정가, 교육연구원, 교수, 교육컨설턴트\\n\\n3. 사회복지\\n전공설명: 사회복지는 다양한 사회 구성원의 복지와 삶의 질 향상을 위한 제도와 실천 방법을 연구하는 학문이다.\\n요구역량: 공감 능력, 대인관계능력, 문제 해결력\\n전공관심: 사회적 약자 지원, 복지 정책, 인간 존엄성\\n관련진로: 사회복지사, 청소년지도사, 복지행정가, 가족상담사, 다문화전문가\\n\\n'"
-      ]
-     },
-     "execution_count": 7,
-     "metadata": {},
-     "output_type": "execute_result"
-    }
-   ],
-   "source": [
-    "prompt\n",
-    "# 너무 길게나와서 학습시킬때 불안함..."
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 17,
-   "id": "b178159f-cf48-4989-be66-85af3e7ec510",
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "# 선호 전공 3개의 간략한 정보만 추출해 나오는 프롬프트로 수정\n",
-    "file_path = \"dataset/kcmii_major_rag_summarized.csv\"\n",
-    "df = pd.read_csv(file_path)\n",
-    "\n",
-    "import pandas as pd\n",
-    "\n",
-    "def make_major_prompt(df, majors: list) -> str:\n",
-    "    parts = []\n",
-    "    for i, major in enumerate(majors, 1):\n",
-    "        row = df[df['전공명'] == major]\n",
-    "        if row.empty:\n",
-    "            continue\n",
-    "        summary = row.iloc[0]['요약']\n",
-    "        parts.append(f\"{i}. {major}: {summary}\")\n",
-    "\n",
-    "    majors_str = \", \".join(majors)\n",
-    "    prompt = f\"\"\"OO 학생은 아래의 세 전공 분야({majors_str})에 흥미를 가지고 있습니다.\n",
-    "이 전공들에 대한 요약 정보를 참고하여, 학생의 활동 속에서 드러난 관심과 역량 또는 융합 가능성을 고려하여 고등학생 생활기록부 문구를 서술형으로 작성해주세요:\n",
-    "\n",
-    "{chr(10).join(parts)}\n",
-    "\"\"\"\n",
-    "    return prompt"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 18,
-   "id": "6c24ded3-2a88-47ad-89c3-40b5e7c0dc01",
-   "metadata": {},
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "OO 학생은 아래의 세 전공 분야(심리, 교육, 사회복지)에 흥미를 가지고 있습니다.\n",
-      "이 전공들에 대한 요약 정보를 참고하여, 학생의 활동 속에서 드러난 관심과 역량 또는 융합 가능성을 고려하여 고등학생 생활기록부 문구를 서술형으로 작성해주세요:\n",
-      "\n",
-      "1. 심리: 인간의 행동과 정신 과정을 과학적으로 탐구하는 학문이다. (주요 역량: 공감 능력, 관심 분야: 인간 행동)\n",
-      "2. 교육: 인간의 학습과 발달을 연구하고 효과적인 교수법과 교육 제도를 탐구하는 학문이다. (주요 역량: 소통 능력, 관심 분야: 교육과정)\n",
-      "3. 사회복지: 사회복지는 다양한 사회 구성원의 복지와 삶의 질 향상을 위한 제도와 실천 방법을 연구하는 학문이다. (주요 역량: 공감 능력, 관심 분야: 사회적 약자 지원)\n",
-      "\n"
-     ]
-    }
-   ],
-   "source": [
-    "example_majors = [\"심리\", \"교육\", \"사회복지\"]\n",
-    "prompt = make_major_prompt(df, example_majors)\n",
-    "print(prompt)"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "id": "6467b751-3228-4948-9042-de65f1a3f118",
-   "metadata": {},
-   "source": [
-    "### 50개 전공은 너무 많으니 공통적으로 묶이는 전공(유사분야) 케이스 10개만 분리해 학습데이터 생성\n",
-    "### LoRA 경략 학습으로 먼저 테스트"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 24,
-   "id": "bc8b0f50-c6e4-49fe-98a4-3ee8d8ef4b83",
-   "metadata": {},
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "사용 중인 디바이스: mps\n"
-     ]
-    },
-    {
-     "name": "stdin",
-     "output_type": "stream",
-     "text": [
-      "The repository for LGAI-EXAONE/EXAONE-3.5-2.4B-Instruct contains custom code which must be executed to correctly load the model. You can inspect the repository content at https://hf.co/LGAI-EXAONE/EXAONE-3.5-2.4B-Instruct.\n",
-      "You can avoid this prompt in future by passing the argument `trust_remote_code=True`.\n",
-      "\n",
-      "Do you wish to run the custom code? [y/N]  y\n"
-     ]
-    },
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "A new version of the following files was downloaded from https://huggingface.co/LGAI-EXAONE/EXAONE-3.5-2.4B-Instruct:\n",
-      "- configuration_exaone.py\n",
-      ". Make sure to double-check they do not contain any added malicious code. To avoid downloading new versions of the code file, you can pin a revision.\n"
-     ]
-    },
-    {
-     "name": "stdin",
-     "output_type": "stream",
-     "text": [
-      "The repository for LGAI-EXAONE/EXAONE-3.5-2.4B-Instruct contains custom code which must be executed to correctly load the model. You can inspect the repository content at https://hf.co/LGAI-EXAONE/EXAONE-3.5-2.4B-Instruct.\n",
-      "You can avoid this prompt in future by passing the argument `trust_remote_code=True`.\n",
-      "\n",
-      "Do you wish to run the custom code? [y/N]  y\n"
-     ]
-    },
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "A new version of the following files was downloaded from https://huggingface.co/LGAI-EXAONE/EXAONE-3.5-2.4B-Instruct:\n",
-      "- modeling_exaone.py\n",
-      ". Make sure to double-check they do not contain any added malicious code. To avoid downloading new versions of the code file, you can pin a revision.\n",
-      "Fetching 2 files: 100%|██████████| 2/2 [02:39<00:00, 79.72s/it] \n",
-      "Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00, 37.62it/s]\n"
-     ]
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\n",
-      "📄 생성된 문장:\n",
-      "\n",
-      "### 명령:\n",
-      "다음 전공 정보를 바탕으로 학생의 흥미와 활동을 반영한 생기부 문구를 작성하세요.\n",
-      "\n",
-      "### 입력:\n",
-      "1. 심리: 인간의 행동과 정신 과정을 과학적으로 탐구하는 학문이다. (주요 역량: 공감능력, 관심 분야: 감정)\n",
-      "2. 교육: 인간의 학습과 발달을 연구하고 효과적인 교수법을 탐색하는 학문이다. (주요 역량: 소통능력, 관심 분야: 아동 발달)\n",
-      "3. 사회복지: 다양한 사회 구성원의 삶의 질 향상을 위한 제도와 실천 방법을 연구하는 학문이다. (주요 역량: 대인관계능력, 관심 분야: 사회적 약자 지원)\n",
-      "\n",
-      "### 출력:\n",
-      "\"심리학의 따뜻함 속에서 깊이 있게 감정에 귀 기울이며, 교육 현장에서는 아이들의 성장을 이끄는 지혜로운 멘토가 되고 싶습니다. 또한, 사회적 약자들에게 희망의 빛을 전해주기 위해 노력하는 따뜻한 사회복지사가 되어, 모든 사람이 존중받고 행복할 수 있도록 돕고 싶습니다.\"\n"
-     ]
-    }
-   ],
-   "source": [
-    "# 허깅페이스에 있는 모델을 임포트 및 토크나이저 로딩용 도구 불러서 테스트\n",
-    "import torch\n",
-    "from transformers import AutoTokenizer, AutoModelForCausalLM\n",
-    "\n",
-    "device = torch.device(\"mps\" if torch.backends.mps.is_available() else \"cpu\")\n",
-    "print(\"사용 중인 디바이스:\", device)\n",
-    "\n",
-    "# 모델 불러오기\n",
-    "model_name = \"LGAI-EXAONE/EXAONE-3.5-2.4B-Instruct\"\n",
-    "tokenizer = AutoTokenizer.from_pretrained(model_name)\n",
-    "model = AutoModelForCausalLM.from_pretrained(model_name).to(device)\n",
-    "\n",
-    "# 사용자가 입력할 텍스트 또는 입력값\n",
-    "prompt = \"\"\"### 명령:\n",
-    "다음 전공 정보를 바탕으로 학생의 흥미와 활동을 반영한 생기부 문구를 작성하세요.\n",
-    "\n",
-    "### 입력:\n",
-    "1. 심리: 인간의 행동과 정신 과정을 과학적으로 탐구하는 학문이다. (주요 역량: 공감능력, 관심 분야: 감정)\n",
-    "2. 교육: 인간의 학습과 발달을 연구하고 효과적인 교수법을 탐색하는 학문이다. (주요 역량: 소통능력, 관심 분야: 아동 발달)\n",
-    "3. 사회복��: 다양한 사회 구성원의 삶의 질 향상을 위한 제도와 실천 방법을 연구하는 학문이다. (주요 역량: 대인관계능력, 관심 분야: 사회적 약자 지원)\n",
-    "\n",
-    "### 출력:\n",
-    "\"\"\"\n",
-    "\n",
-    "# 입력값을 토크나이저를 통해 숫자 토큰으로 변환\n",
-    "# return_tensors=\"pt\" 입력값을 숫자 토큰화하여 파이토지 텐서 형태로 리턴\n",
-    "inputs = tokenizer(prompt, return_tensors=\"pt\").to(device)\n",
-    "\n",
-    "# gpt는 입력 자체가 항상 하나의 연속된 문장 스퀀스이기 때문에 문장 구분이 필요없음\n",
-    "if 'token_type_ids' in inputs:\n",
-    "    inputs.pop('token_type_ids')\n",
-    "\n",
-    "# torch.no_grad() 추론 시에는 기울기 게산하지 않게하여 속도/메모리 절약 -> 왜 이렇게 해야하나?\n",
-    "with torch.no_grad():\n",
-    "    # model.generate() 주어진 입력에 대해 텍스트를 생성함\n",
-    "    ## 자세한 내용과 이해는 노션 참고\n",
-    "    outputs = model.generate(\n",
-    "        **inputs,\n",
-    "        # 최대 80개의 새로운 토큰 생성\n",
-    "        ## 모델이 새로 생성할 최대 토큰의 개수\n",
-    "        max_new_tokens=150,\n",
-    "        # 확률 기반 샘플링 활성화\n",
-    "        ## 모델이 다음 토큰을 선택할 때 가장 확률 높은 단어를 무조건 고르는 것이 아니라 확률 분포에서 무작위로 하나 샘플링\n",
-    "        do_sample=True,\n",
-    "        # 확률 높은 상위 50개 중에서 선택\n",
-    "        ## 샘플링할 때 상위 k개의 단어만으로 후보를 제한\n",
-    "        top_k=50,\n",
-    "        # 누적 확률 95%까지 포함한 후보군에서 선택\n",
-    "        ## 상위 단위들의 누적화률이 95% 넘을 때까지 후보군을 누적시킴, 그 안에서 샘플링\n",
-    "        top_p=0.95,\n",
-    "        # 창의성 조절 값\n",
-    "        temperature=0.8,\n",
-    "        repetition_penalty=1.1\n",
-    "    )\n",
-    "\n",
-    "# 토큰을 텍스트로 디코딩\n",
-    "# 모델이 생성한 토큰 시퀀스 중 첫번 째 결과를\n",
-    "# skip_special_tokens=True 특수토큰 제거\n",
-    "result = tokenizer.decode(outputs[0], skip_special_tokens=True)\n",
-    "print(\"\\n📄 생성된 문장:\\n\")\n",
-    "print(result)"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 25,
-   "id": "382ea67d-298b-4d78-b16c-9f66f3052e21",
-   "metadata": {},
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "\n",
-      "📄 생성된 문장:\n",
-      "\n",
-      "### 명령:\n",
-      "다음 전공 정보를 바탕으로 학생의 흥미와 활동을 반영한 생기부 문구를 작성하세요.\n",
-      "\n",
-      "### 입력:\n",
-      "1. 심리: 인간의 행동과 정신 과정을 과학적으로 탐구하는 학문이다. (주요 역량: 공감능력, 관심 분야: 감정)\n",
-      "2. 교육: 인간의 학습과 발달을 연구하고 효과적인 교수법을 탐색하는 학문이다. (주요 역량: 소통능력, 관심 분야: 아동 발달)\n",
-      "3. 사회복지: 다양한 사회 구성원의 삶의 질 향상을 위한 제도와 실천 방법을 연구하는 학문이다. (주요 역량: 대인관계능력, 관심 분야: 사회적 약자 지원)\n",
-      "\n",
-      "### 출력:\n",
-      "\"심리학을 통해 섬세한 감정의 깊이를 느끼고, 교육은 아이들의 잠재력을 깨우며 성장시키는 데 큰 기쁨을 느꼈습니다. 사회복지에서는 복잡한 사회 문제 속에서도 따뜻한 손길로 어려움을 겪는 이들을 돕는 것이 큰 보람이었습니다.\"\n"
-     ]
-    }
-   ],
-   "source": [
-    "# 사용자가 입력할 텍스트 또는 입력값\n",
-    "prompt = \"\"\"### 명령:\n",
-    "다음 전공 정보를 바탕으로 학생의 흥미와 활동을 반영한 생기부 문구를 작성하세요.\n",
-    "\n",
-    "### 입력:\n",
-    "1. 심리: 인간의 행동과 정신 과정을 과학적으로 탐구하는 학문이다. (주요 역량: 공감능력, 관심 분야: 감정)\n",
-    "2. 교육: 인간의 학습과 발달을 연구하고 효과적인 교수법을 탐색하는 학문이다. (주요 역량: 소통능력, 관심 분야: 아동 발달)\n",
-    "3. 사회복지: 다양한 사회 구성원의 삶의 질 향상을 위한 제도와 실천 방법을 연구하는 학문이다. (주요 역량: 대인관계능력, 관심 분야: 사회적 약자 지원)\n",
-    "\n",
-    "### 출력:\n",
-    "\"\"\"\n",
-    "\n",
-    "# 입력값을 토크나이저를 통해 숫자 토큰으로 변환\n",
-    "# return_tensors=\"pt\" 입력값을 숫자 토큰화하여 파이토지 텐서 형태로 리턴\n",
-    "inputs = tokenizer(prompt, return_tensors=\"pt\").to(device)\n",
-    "\n",
-    "# gpt는 입력 자체가 항상 하나의 연속된 문장 스퀀스이기 때문에 문장 구분이 필요��음\n",
-    "if 'token_type_ids' in inputs:\n",
-    "    inputs.pop('token_type_ids')\n",
-    "\n",
-    "# torch.no_grad() 추론 시에는 기울기 게산하지 않게하여 속도/메모리 절약 -> 왜 이렇게 해야하나?\n",
-    "with torch.no_grad():\n",
-    "    # model.generate() 주어진 입력에 대해 텍스트를 생성함\n",
-    "    ## 자세한 내용과 이해는 노션 참고\n",
-    "    outputs = model.generate(\n",
-    "        **inputs,\n",
-    "        # 최대 80개의 새로운 토큰 생성\n",
-    "        ## 모델이 새로 생성할 최대 토큰의 개수\n",
-    "        max_new_tokens=150,\n",
-    "        # 확률 기반 샘플링 활성화\n",
-    "        ## 모델이 다음 토큰을 선택할 때 가장 확률 높은 단어를 무조건 고르는 것이 아니라 확률 분포에서 무작위로 하나 샘플링\n",
-    "        do_sample=True,\n",
-    "        # 확률 높은 상위 50개 중에서 선택\n",
-    "        ## 샘플링할 때 상위 k개의 단어만으로 후보를 제한\n",
-    "        top_k=50,\n",
-    "        # 누적 확률 95%까지 포함한 후보군에서 선택\n",
-    "        ## 상위 단위들의 누적화률이 95% 넘을 때까지 후보군을 누적시킴, 그 안에서 샘플링\n",
-    "        top_p=0.95,\n",
-    "        # 창의성 조절 값\n",
-    "        temperature=0.8,\n",
-    "        repetition_penalty=1.1\n",
-    "    )\n",
-    "\n",
-    "# 토큰을 텍스트로 디코딩\n",
-    "# 모델이 생성한 토큰 시퀀스 중 첫번 째 결과를\n",
-    "# skip_special_tokens=True 특수토큰 제거\n",
-    "result = tokenizer.decode(outputs[0], skip_special_tokens=True)\n",
-    "print(\"\\n📄 생성된 문장:\\n\")\n",
-    "print(result)"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "id": "7f17e54f-824f-4c2c-9318-bfcf92c03315",
-   "metadata": {},
-   "outputs": [],
-   "source": []
-  }
- ],
- "metadata": {
-  "kernelspec": {
-   "display_name": "Python [conda env:base] *",
-   "language": "python",
-   "name": "conda-base-py"
-  },
-  "language_info": {
-   "codemirror_mode": {
-    "name": "ipython",
-    "version": 3
-   },
-   "file_extension": ".py",
-   "mimetype": "text/x-python",
-   "name": "python",
-   "nbconvert_exporter": "python",
-   "pygments_lexer": "ipython3",
-   "version": "3.12.7"
-  }
- },
- "nbformat": 4,
- "nbformat_minor": 5
-}