Spaces:

Jeonggggg
/

AI_research_note_summary_example

Configuration error

App Files Files Community

test commited on Sep 3, 2025

Commit

20f56bb

1 Parent(s): 5bb27ac

Add Gradio app for AI research note summary

Browse files

Files changed (4) hide show

0903_ai_memo.bak +89 -0
0903_ai_memo.py +89 -0
0903_ai_memo_test.py +99 -0
requirements.txt +116 -0

0903_ai_memo.bak ADDED Viewed

	@@ -0,0 +1,89 @@

+# AI 학습/연구 메모 요약기
+# 기능: 사용자가 긴 글(논문 초록, 블로그 글, 수업 필기)을 입력 → LLaMA 모델로 핵심 요약 + 키워드 추출
+# 추가: OpenAPI로 사전/위키 검색해서 어려운 용어 간단 설명 붙여주기
+# 결과: Gradio UI에서 "원문 / 요약 / 키워드 / 추가설명" 탭으로 보기
+# -*- coding: utf-8 -*-
+import gradio as gr
+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
+from sklearn.feature_extraction.text import TfidfVectorizer
+import numpy as np
+import re
+# =========================
+# 1) 모델 로드 (한국어 요약)
+# =========================
+summarizer_model_name = "lcw99/t5-base-korean-text-summary"
+summarizer_tokenizer = AutoTokenizer.from_pretrained(summarizer_model_name)
+summarizer_model = AutoModelForSeq2SeqLM.from_pretrained(summarizer_model_name)
+# =========================
+# 2) 키워드 추출 함수 (TF-IDF 기반)
+# =========================
+def extract_keywords_korean(text, top_n=5):
+    # 한글 명사 중심 단어만 추출
+    text = re.sub(r"[^가-힣\s]", "", text)
+    stop_words = ['은','는','이','가','을','를','에','의','와','과','도','으로','까지','하다','있다','있음']
+    vectorizer = TfidfVectorizer(stop_words=stop_words)
+    try:
+        X = vectorizer.fit_transform([text])
+    except ValueError:
+        return "키워드 추출 불가 (글이 너무 짧음)"
+    indices = np.argsort(vectorizer.idf_)[::-1]
+    features = vectorizer.get_feature_names_out()
+    keywords = [features[i] for i in indices[:top_n]]
+    return ", ".join(keywords)
+# =========================
+# 3) 요약 + 키워드 함수
+# =========================
+def summarize_and_extract_keywords(text):
+    if not text.strip():
+        return "원문을 입력하세요.", "", ""
+    # -------------------------
+    # 1) 요약
+    # -------------------------
+    inputs = summarizer_tokenizer(text, return_tensors="pt", max_length=512, truncation=True)
+    summary_ids = summarizer_model.generate(
+        inputs['input_ids'],
+        max_length=200,
+        min_length=50,
+        num_beams=4,
+        early_stopping=True
+    )
+    summary = summarizer_tokenizer.decode(summary_ids[0], skip_special_tokens=True)
+    # -------------------------
+    # 2) 키워드 추출
+    # -------------------------
+    keywords = extract_keywords_korean(text, top_n=5)
+    return text, summary, keywords
+# =========================
+# 4) Gradio UI
+# =========================
+with gr.Blocks() as demo:
+    gr.Markdown("## 📝 한국어 AI 요약 & 키워드 추출기")
+    inp = gr.Textbox(lines=12, placeholder="여기에 한국어 텍스트를 붙여넣으세요.", label="원문 입력")
+    btn = gr.Button("실행")
+    with gr.Tabs():
+        with gr.Tab("원문"):
+            out_original = gr.Textbox(label="원문", lines=8)
+        with gr.Tab("요약"):
+            out_summary = gr.Textbox(label="요약", lines=8)
+        with gr.Tab("키워드"):
+            out_keywords = gr.Textbox(label="키워드", lines=4)
+    btn.click(summarize_and_extract_keywords, inputs=inp, outputs=[out_original, out_summary, out_keywords])
+# =========================
+# 5) 실행
+# =========================
+if __name__ == "__main__":
+    demo.launch()

0903_ai_memo.py ADDED Viewed

	@@ -0,0 +1,89 @@

+# AI 학습/연구 메모 요약기
+# 기능: 사용자가 긴 글(논문 초록, 블로그 글, 수업 필기)을 입력 → LLaMA 모델로 핵심 요약 + 키워드 추출
+# 추가: OpenAPI로 사전/위키 검색해서 어려운 용어 간단 설명 붙여주기
+# 결과: Gradio UI에서 "원문 / 요약 / 키워드 / 추가설명" 탭으로 보기
+# -*- coding: utf-8 -*-
+import gradio as gr
+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
+from sklearn.feature_extraction.text import TfidfVectorizer
+import numpy as np
+import re
+# =========================
+# 1) 모델 로드 (한국어 요약)
+# =========================
+summarizer_model_name = "lcw99/t5-base-korean-text-summary"
+summarizer_tokenizer = AutoTokenizer.from_pretrained(summarizer_model_name)
+summarizer_model = AutoModelForSeq2SeqLM.from_pretrained(summarizer_model_name)
+# =========================
+# 2) 키워드 추출 함수 (TF-IDF 기반)
+# =========================
+def extract_keywords_korean(text, top_n=5):
+    # 한글 명사 중심 단어만 추출
+    text = re.sub(r"[^가-힣\s]", "", text)
+    stop_words = ['은','는','이','가','을','를','에','의','와','과','도','으로','까지','하다','있다','있음']
+    vectorizer = TfidfVectorizer(stop_words=stop_words)
+    try:
+        X = vectorizer.fit_transform([text])
+    except ValueError:
+        return "키워드 추출 불가 (글이 너무 짧음)"
+    indices = np.argsort(vectorizer.idf_)[::-1]
+    features = vectorizer.get_feature_names_out()
+    keywords = [features[i] for i in indices[:top_n]]
+    return ", ".join(keywords)
+# =========================
+# 3) 요약 + 키워드 함수
+# =========================
+def summarize_and_extract_keywords(text):
+    if not text.strip():
+        return "원문을 입력하세요.", "", ""
+    # -------------------------
+    # 1) 요약
+    # -------------------------
+    inputs = summarizer_tokenizer(text, return_tensors="pt", max_length=512, truncation=True)
+    summary_ids = summarizer_model.generate(
+        inputs['input_ids'],
+        max_length=200,
+        min_length=50,
+        num_beams=4,
+        early_stopping=True
+    )
+    summary = summarizer_tokenizer.decode(summary_ids[0], skip_special_tokens=True)
+    # -------------------------
+    # 2) 키워드 추출
+    # -------------------------
+    keywords = extract_keywords_korean(text, top_n=5)
+    return text, summary, keywords
+# =========================
+# 4) Gradio UI
+# =========================
+with gr.Blocks() as demo:
+    gr.Markdown("## 📝 한국어 AI 요약 & 키워드 추출기")
+    inp = gr.Textbox(lines=12, placeholder="여기에 한국어 텍스트를 붙여넣으세요.", label="원문 입력")
+    btn = gr.Button("실행")
+    with gr.Tabs():
+        with gr.Tab("원문"):
+            out_original = gr.Textbox(label="원문", lines=8)
+        with gr.Tab("요약"):
+            out_summary = gr.Textbox(label="요약", lines=8)
+        with gr.Tab("키워드"):
+            out_keywords = gr.Textbox(label="키워드", lines=4)
+    btn.click(summarize_and_extract_keywords, inputs=inp, outputs=[out_original, out_summary, out_keywords])
+# =========================
+# 5) 실행
+# =========================
+if __name__ == "__main__":
+    demo.launch()

0903_ai_memo_test.py ADDED Viewed

	@@ -0,0 +1,99 @@

+# AI 학습/연구 메모 요약기
+# 기능: 사용자가 긴 글(논문 초록, 블로그 글, 수업 필기)을 입력 → LLaMA 모델로 핵심 요약
+# 결과: Gradio UI에서 "원문 / 요약 탭으로 보기
+# -*- coding: utf-8 -*-
+import gradio as gr
+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
+# =========================
+# 1) 모델 로드 (한국어 요약)
+# =========================
+summarizer_model_name = "lcw99/t5-base-korean-text-summary"
+summarizer_tokenizer = AutoTokenizer.from_pretrained(summarizer_model_name)
+summarizer_model = AutoModelForSeq2SeqLM.from_pretrained(summarizer_model_name)
+# =========================
+# 2) 요약 함수
+# =========================
+def summarize_text(text, length_option="보통"):
+    text = text.strip()
+    # 짧은 글 예외 처리
+    if len(text) < 100:
+        return text
+    if length_option == "짧게":
+        max_len, min_len = 80, 30
+    else:  # 보통
+        max_len, min_len = 200, 50
+    inputs = summarizer_tokenizer(
+        text,
+        return_tensors="pt",
+        max_length=1024,
+        truncation=True
+    )
+    summary_ids = summarizer_model.generate(
+        inputs['input_ids'],
+        max_length=max_len,
+        min_length=min_len,
+        num_beams=4,
+        early_stopping=True,
+        no_repeat_ngram_size=3
+    )
+    summary = summarizer_tokenizer.decode(summary_ids[0], skip_special_tokens=True)
+    return summary
+def summarize_and_process(text, length_option):
+    text = text.strip()
+    original_len = len(text)
+    if not text:
+        return "원문을 입력하세요.", ""
+    summary = summarize_text(text, length_option)
+    summary_len = len(summary)
+    out_original = f"{text}\n\n(총 글자수: {original_len})"
+    out_summary = f"{summary}\n\n(총 글자수: {summary_len})"
+    return out_original, out_summary
+# =========================
+# 3) Gradio UI
+# =========================
+with gr.Blocks() as demo:
+    gr.Markdown("## 📝 한국어 AI 요약 (예시 글 입력해놨음)")
+    inp = gr.Textbox(
+        lines=12,
+        placeholder="여기에 한국어 텍스트를 붙여넣으세요. 100글자 이상",
+        label="원문 입력",
+        value="""트랜스포머 모델은 2017년에 소개된 딥러닝 모델로, 자연어 처리에서 큰 혁신을 가져왔다.
+이 모델은 셀프 어텐션(Self-Attention) 메커니즘을 사용하여 입력 시퀀스를 병렬로 처리할 수 있다.
+기존의 RNN과 달리 장기 의존성 문제를 효과적으로 해결할 수 있어 번역, 요약, 질문응답 등 다양한 NLP 태스크에서 우수한 성능을 보인다.
+트랜스포머 기반의 모델들은 이후 BERT, GPT, T5 등 여러 파생 모델의 기초가 되었으며, 현재 자연어 처리 연구에서 표준으로 자리 잡았다.
+이러한 발전 덕분에 챗봇, 기계번역, 자동 요약 등 실제 서비스에 바로 활용할 수 있는 수준까지 도달하였다."""
+    )
+    length_option = gr.Radio(["짧게", "보통"], label="요약 길이 선택", value="보통")
+    btn = gr.Button("실행")
+    with gr.Tabs():
+        with gr.Tab("원문"):
+            out_original = gr.Textbox(label="원문 + 글자수", lines=8)
+        with gr.Tab("요약"):
+            out_summary = gr.Textbox(label="요약 + 글자수", lines=8)
+    btn.click(
+        summarize_and_process,
+        inputs=[inp, length_option],
+        outputs=[out_original, out_summary]
+    )
+# =========================
+# 4) 실행
+# =========================
+if __name__ == "__main__":
+    demo.launch(share=True)

requirements.txt ADDED Viewed

	@@ -0,0 +1,116 @@

+aiofiles==23.2.1
+annotated-types==0.7.0
+anyio==4.5.2
+beautifulsoup4==4.13.5
+bidict==0.23.1
+blinker==1.8.2
+boto3==1.37.38
+botocore==1.37.38
+bs4==0.0.2
+certifi==2025.8.3
+charset-normalizer==3.4.3
+click==8.1.8
+cmudict==1.0.33
+colorama==0.4.6
+contourpy==1.1.1
+cycler==0.12.1
+diskcache==5.6.3
+Distance==0.1.3
+distro==1.9.0
+emoji==1.2.0
+exceptiongroup==1.3.0
+fastapi==0.116.1
+ffmpy==0.5.0
+filelock==3.16.1
+Flask==3.0.3
+fonttools==4.57.0
+fsspec==2025.3.0
+gradio==4.44.1
+gradio_client==1.3.0
+h11==0.16.0
+hangul-jamo==1.0.1
+httpcore==1.0.9
+httpx==0.28.1
+huggingface-hub==0.34.4
+idna==3.10
+importlib_metadata==8.5.0
+importlib_resources==6.4.5
+iniconfig==2.1.0
+itsdangerous==2.2.0
+jamo==0.4.1
+Jinja2==3.1.6
+jiter==0.9.1
+jmespath==1.0.1
+joblib==1.4.2
+jpype1==1.6.0
+keybert==0.9.0
+kiwisolver==1.4.7
+kollocate==0.0.2
+konlpy==0.6.0
+koparadigm==0.10.0
+kss==6.0.5
+llama_cpp_python==0.3.16
+lxml==6.0.1
+markdown-it-py==3.0.0
+MarkupSafe==2.1.5
+matplotlib==3.7.5
+mdurl==0.1.2
+mpmath==1.3.0
+networkx==3.1
+numpy==1.24.4
+openai==1.102.0
+orjson==3.10.15
+packaging==25.0
+pandas==2.0.3
+pecab==1.0.8
+pillow==10.4.0
+pluggy==1.5.0
+predictor==0.1.2
+pyarrow==17.0.0
+pydantic==2.10.6
+pydantic_core==2.27.2
+pydub==0.25.1
+Pygments==2.19.2
+pyparsing==3.1.4
+pytest==8.3.5
+python-dateutil==2.9.0.post0
+python-multipart==0.0.20
+pytz==2025.2
+PyYAML==6.0.2
+regex==2024.11.6
+requests==2.32.4
+rich==14.1.0
+ruff==0.12.10
+s3transfer==0.11.5
+safetensors==0.5.3
+scikit-learn==1.3.2
+scipy==1.10.1
+semantic-version==2.10.0
+sentence-transformers==3.2.1
+sentencepiece==0.2.0
+shellingham==1.5.4
+six==1.17.0
+sniffio==1.3.1
+soupsieve==2.7
+starlette==0.44.0
+sympy==1.13.3
+threadpoolctl==3.5.0
+tokenizers==0.20.3
+tomli==2.2.1
+tomlkit==0.12.0
+torch==2.4.1
+torchvision==0.19.1
+tossi==0.3.1
+tqdm==4.67.1
+transformers==4.46.3
+typer==0.16.1
+typing_extensions==4.13.2
+tzdata==2025.2
+Unidecode==1.4.0
+urllib3==2.2.3
+uvicorn==0.33.0
+websockets==12.0
+Werkzeug==3.0.6
+Whoosh==2.7.4
+xlrd==1.2.0
+zipp==3.20.2