word2vec

Sleeping

App Files Files Community

kkosmi commited on Nov 17, 2024

Commit

1ed0340

verified ·

1 Parent(s): 73a0a7b

Update app.py

Browse files

Files changed (1) hide show

app.py +32 -99

app.py CHANGED Viewed

@@ -5,71 +5,18 @@ from gensim.models import Word2Vec
 import gradio as gr
 from sklearn.decomposition import PCA
 import plotly.graph_objects as go
-import nltk
-from nltk.tokenize import word_tokenize
-from nltk.corpus import stopwords
-from nltk.stem import PorterStemmer, WordNetLemmatizer
-from nltk.tag import pos_tag
-from docs import NOVEL_TEXT
-def download_nltk_library():
-    try:
-        nltk.download('punkt')
-        nltk.download('stopwords')
-        nltk.download('wordnet')
-        nltk.download('averaged_perceptron_tagger')
-        nltk.download('punkt_tab')
-        return True
-    except:
-        return False
-# Function to process each sentence
-def process_text(text):
-    lemmatizer = WordNetLemmatizer()
-    stop_words = set(stopwords.words('english'))
-    # Tokenization
-    tokens = word_tokenize(text.lower())
-    # Remove stop words and apply lemmatization
-    processed_tokens = [
-        lemmatizer.lemmatize(token)
-        for token in tokens if token.isalnum() and token not in stop_words
-    ]
-    return processed_tokens
 # Word2Vec 모델 학습 함수
 def train_word2vec(sentences):
-    model = Word2Vec(sentences, vector_size=100, window=3, min_count=2, workers=4, sg=0, epochs=100)
     return model
-# def preprocess_text(file_path):
-#     with open(file_path, 'r', encoding='utf-8') as file:
-#         text = file.read()
-#     # 토큰화 및 품사 태깅
-#     tokens = word_tokenize(text)
-#     tagged = pos_tag(tokens)
-#     # 명사만 추출 (NN, NNS, NNP, NNPS)
-#     nouns = [word.lower() for word, pos in tagged if pos.startswith('NN')]
-#     # 중복 제거 및 정렬
-#     unique_nouns = sorted(set(nouns))
-#     # 간단한 문장 생성 (각 명사를 개별 문장으로 취급)
-#     sentences = [[noun] for noun in unique_nouns]
-#     return sentences, unique_nouns
 def apply_pca(word_vectors):
     pca = PCA(n_components=3)
     return pca.fit_transform(word_vectors)
-# def process_text(file_path, target_word):
 def get_unique(model):
     vocablist1=list(model.wv.index_to_key)
@@ -89,7 +36,8 @@ def train_model(sentence):
     return  model, unique_words
 def process_model(target_word):
     # Word2Vec 모델 로드
     model = Word2Vec.load("word2vec.model")
     unique_words = get_unique(model)
@@ -122,6 +70,7 @@ def process_model(target_word):
         for idx in dissimilar_word_indices:
             colors[idx] = 'rgba(138, 43, 226, 0.8)'  # 가장 먼 단어들을 보라색으로 표시
     # Plotly를 사용한 3D 산점도 생성
     fig = go.Figure(data=[go.Scatter3d(
         x=word_vectors_3d[:, 0],
@@ -143,76 +92,60 @@ def process_model(target_word):
             yaxis_title="Y",
             zaxis_title="Z"
         ),
-        width=800,
-        height=800
     )
     # 가장 가까운 단어 10개 목록 생성
     similar_words_text = ""
     if target_word in model.wv:
-        similar_words_text = "가장 가까운 단어 10개:\n" + "\n".join([f"{word}: {score:.4f}" for word, score in similar_words])
-    dissimilar_words_text = ""
     if target_word in model.wv:
-        dissimilar_words_text = "가장 먼 단어 10개:\n" + "\n".join([f"{word}: {score:.4f}" for word, score in dissimilar_words])
     return fig, similar_words_text, dissimilar_words_text
-def change_button_state_true():
-    # If the first button is clicked, enable or disable the second button based on its state
-    return gr.update(interactive=True)
-def change_button_state_false():
-    # If the first button is clicked, enable or disable the second button based on its state
-    return gr.update(interactive=False)
 # Gradio 인터페이스 수정
 with gr.Blocks(css=".plot-box {width: 70%; height: 500px;}") as iface:
     gr.Markdown("# Word Embedding 3D 시각화")
-    gr.Markdown("단어를 입력하세요. Word2Vec과 PCA를 사용하여 단어 임베딩을 3D로 시각화합니다. 입력한 단어는 빨간색으로, 가장 유사한 10개 단어는 초록색, 가장 먼 단어는 보라색으로 강조됩니다. 유사한 단어 목록은 그래프 아래에 표시됩니다.")
-    download_nltk_library()
     with gr.Row():
-            word_input = gr.Textbox(label="**강조할 단어 입력**", elem_id="input-box", placeholder="단어를 입력하세요", lines=1, interactive=False)
-            with gr.Column(scale=1):
         # 사용자 입력 박스를 강조하기 위해 스타일을 변경
-            # word_input = gr.Textbox(label="**강조할 단어 입력**", elem_id="input-box", placeholder="단어를 입력하세요", lines=1)
-                load_btn = gr.Button("모델 로딩", elem_id="submit-btn")
-                submit_btn = gr.Button("단어 입력", elem_id="submit-btn", interactive=False)
     with gr.Row():
         # 시각화 화면의 크기를 CSS로 증가
         plot_output = gr.Plot(label="Word Embedding 3D 시각화", elem_id="plot-box")
         with gr.Column(scale=0.3):  # 컬럼의 너비를 줄이기 위해 scale 값을 낮춤
-            similar_words_output = gr.Textbox(label="유사한 단어", interactive=False, lines=5)
-            dissimilar_words_output = gr.Textbox(label="유사하지 않은 단어", interactive=False, lines=5)
-    load_btn.click(
-        fn=process_model,
-        inputs=[word_input],
-        outputs=[plot_output, similar_words_output, dissimilar_words_output]
-    )
-    load_btn.click(
-        fn=change_button_state_true,
-        outputs=submit_btn
-    )
-    load_btn.click(
-        fn=change_button_state_true,
-        outputs=word_input
-    )
     submit_btn.click(
-        fn=process_model,
         inputs=[word_input],
-        outputs=[plot_output, similar_words_output, dissimilar_words_output]
-    )
-    submit_btn.click(
-        fn=change_button_state_false,
-        outputs=load_btn
-    )
 if __name__ == "__main__":
-    iface.launch()

 import gradio as gr
 from sklearn.decomposition import PCA
 import plotly.graph_objects as go
 # Word2Vec 모델 학습 함수
 def train_word2vec(sentences):
+    # model = Word2Vec(sentences, vector_size=100, window=4, min_count=6, workers=4, sg=0, epochs=100)
+    model = Word2Vec(sentences, vector_size=50, window=4, min_count=1, sg=0, epochs=100)
     return model
 def apply_pca(word_vectors):
     pca = PCA(n_components=3)
     return pca.fit_transform(word_vectors)
 def get_unique(model):
     vocablist1=list(model.wv.index_to_key)
     return  model, unique_words
 def process_model(target_word):
+    target_word =target_word.lower()        #################
     # Word2Vec 모델 로드
     model = Word2Vec.load("word2vec.model")
     unique_words = get_unique(model)
         for idx in dissimilar_word_indices:
             colors[idx] = 'rgba(138, 43, 226, 0.8)'  # 가장 먼 단어들을 보라색으로 표시
     # Plotly를 사용한 3D 산점도 생성
     fig = go.Figure(data=[go.Scatter3d(
         x=word_vectors_3d[:, 0],
             yaxis_title="Y",
             zaxis_title="Z"
         ),
+        width=1100,
+        height=900
     )
     # 가장 가까운 단어 10개 목록 생성
     similar_words_text = ""
     if target_word in model.wv:
+        similar_words_text = "\n".join([f"{word}: {score:.4f}" for word, score in similar_words])
+    dissimlar_words_Text=""
     if target_word in model.wv:
+        dissimilar_words_text = "\n".join([f"{word}: {score:.4f}" for word, score in dissimilar_words])
     return fig, similar_words_text, dissimilar_words_text
 # Gradio 인터페이스 수정
 with gr.Blocks(css=".plot-box {width: 70%; height: 500px;}") as iface:
     gr.Markdown("# Word Embedding 3D 시각화")
+    gr.Markdown("<Inside Out 2> 단어 의미 지도(임베딩 벡터) 3D 시각화 도구")
     with gr.Row():
         # 사용자 입력 박스를 강조하기 위해 스타일을 변경
+        with gr.Column():
+            word_input = gr.Textbox(label="**단어 입력**", elem_id="input-box", placeholder="ex. emotion, puberty, hockey, friend, anxiety, memory, ...", lines=1)
+            submit_btn = gr.Button("제출", elem_id="submit-btn")
+        bulletin = gr.Textbox(label="사용법 안내", interactive=False, lines=4,  value="1. 소설에 나온 단어를 입력하고 [제출] 버튼이나 [Enter]를 누르세요 \n2.  입력 단어는 빨간색, 가까운 단어들은 주황색, 먼 단어들은 보라색으로 강조됩니다. \n3.  <Error>가 나타나는 경우, 다른 단어를 입력해보세요.\n4.  마우스 드래그 및 스크롤을 활용하여 3D 화면을 살펴보세요. \n5.  단어 입력창에 다른 단어들도 입력해보세요.")
     with gr.Row():
         # 시각화 화면의 크기를 CSS로 증가
         plot_output = gr.Plot(label="Word Embedding 3D 시각화", elem_id="plot-box")
         with gr.Column(scale=0.3):  # 컬럼의 너비를 줄이기 위해 scale 값을 낮춤
+            similar_words_output = gr.Textbox(label="가장 가까운 단어 10개", interactive=False, lines=5)
+            dissimilar_words_output = gr.Textbox(label="가장 먼 단어 10개", interactive=False, lines=5)
+            gr.Image(value="https://compote.slate.com/images/8324cd2e-21f5-4b20-84d5-f08ece97ac38.jpeg?crop=1560%2C1040%2Cx0%2Cy0&width=1280", label="URL 이미지", interactive=False)
     submit_btn.click(
+        fn=process_text,
+        # word_input = word_input.lower(),
         inputs=[word_input],
+        outputs=[plot_output, similar_words_output, dissimilar_words_output],
+        # preprocess=lambda word: word.lower() if word else ""  # None 체크 후 소문자 변환
+        )
+        # "Enter" 키 입력 시 동작 설정
+    word_input.submit(
+        fn=process_text,
+        # word_input = word_input.lower(),
+        inputs=[word_input],
+        outputs=[plot_output, similar_words_output, dissimilar_words_output],
+        preprocess=lambda word: word.lower() if word else ""  # None 체크 후 소문자 변환
+    )
 if __name__ == "__main__":
+    iface.launch()