Spaces:
Sleeping
Sleeping
| # -*- coding: utf-8 -*- | |
| import sys | |
| import re | |
| from sklearn.feature_extraction.text import CountVectorizer | |
| import os | |
| def process_keywords(text): | |
| """ テキストからN-gramを生成してリストとして返す """ | |
| # 文字列を正規化して、カンマと改行を空白に変換 | |
| text = re.sub(r"[,\n]+", " ", text) | |
| # CountVectorizerを用いてN-gramを生成 | |
| vectorizer = CountVectorizer(ngram_range=(1, 3)) | |
| X = vectorizer.fit_transform([text]) | |
| features = vectorizer.get_feature_names_out() | |
| return features | |
| def save_keywords(keywords, filename="output1.txt"): | |
| """ キーワードをファイルに保存 """ | |
| with open(filename, 'w', encoding='utf-8') as file: | |
| for keyword in keywords: | |
| file.write(keyword + "\n") | |
| if __name__ == "__main__": | |
| if len(sys.argv) > 1: | |
| input_keywords = sys.argv[1] # コマンドラインからその他のキーワードを受け取る | |
| processed_keywords = process_keywords(input_keywords) # キーワードを処理 | |
| save_keywords(processed_keywords) # 処理したキーワードを保存 | |
| else: | |
| print("エラー: コマンドライン引数としてキーワードが提供されていません。") | |