Chatbot / Back-end /models /cluster /clustering_results /experiments_20250413_205608.log
same899's picture
Upload folder using huggingface_hub
5dde370 verified
================ 聚类实验 ================
开始时间: Sun Apr 13 20:56:08 HKT 2025
==========================================
运行实验: UMAP(2, n_neighbors=50) + KMEANS(自动寻找最佳K)
命令: python cluster_topic_exp.py --name umap2_nn50_kmeans_auto --dim_reduction umap --umap_components 2 --umap_neighbors 50 --umap_min_dist 0.2 --clustering kmeans --db_path /home/dyvm6xra/dyvm6xrauser11/workspace/projects/HKU/Chatbot/Data/database --output_dir ./clustering_results --use_gpu --kmeans_min_k 10 --kmeans_max_k 210 --kmeans_step 20
开始时间: Sun Apr 13 20:56:08 HKT 2025
正在加载embeddings...
从缓存文件加载embeddings,数据形状: (327212, 768)
使用 umap 进行降维...
使用 GPU 加速的 UMAP...
[2025-04-13 20:56:17.602] [CUML] [info] build_algo set to brute_force_knn because random_state is given
[2025-04-13 20:56:17.645] [CUML] [debug] Computing KNN Graph
[2025-04-13 20:56:22.015] [CUML] [debug] Computing fuzzy simplicial set
=== 寻找最佳K值 ===
寻找最佳K值...
最佳聚类数量: 30
=== K-means聚类 (最佳K) ===
使用K-means进行聚类...
使用 GPU 加速的 KMeans...
聚类数量: 30
轮廓系数: 0.3704
Calinski-Harabasz指数: 171740.8594
实验结果已保存至: ./clustering_results/umap2_nn50_kmeans_auto_results.json
结束时间: Sun Apr 13 20:56:54 HKT 2025
==========================================
运行实验: UMAP(4, n_neighbors=50) + KMEANS(自动寻找最佳K)
命令: python cluster_topic_exp.py --name umap4_nn50_kmeans_auto --dim_reduction umap --umap_components 4 --umap_neighbors 50 --umap_min_dist 0.2 --clustering kmeans --db_path /home/dyvm6xra/dyvm6xrauser11/workspace/projects/HKU/Chatbot/Data/database --output_dir ./clustering_results --use_gpu --kmeans_min_k 10 --kmeans_max_k 210 --kmeans_step 20
开始时间: Sun Apr 13 20:56:54 HKT 2025
正在加载embeddings...
从缓存文件加载embeddings,数据形状: (327212, 768)
使用 umap 进行降维...
使用 GPU 加速的 UMAP...
[2025-04-13 20:57:02.036] [CUML] [info] build_algo set to brute_force_knn because random_state is given
[2025-04-13 20:57:02.076] [CUML] [debug] Computing KNN Graph
[2025-04-13 20:57:06.437] [CUML] [debug] Computing fuzzy simplicial set
=== 寻找最佳K值 ===
寻找最佳K值...
最佳聚类数量: 10
=== K-means聚类 (最佳K) ===
使用K-means进行聚类...
使用 GPU 加速的 KMeans...
聚类数量: 10
轮廓系数: 0.2394
Calinski-Harabasz指数: 58360.0859
实验结果已保存至: ./clustering_results/umap4_nn50_kmeans_auto_results.json
结束时间: Sun Apr 13 20:57:36 HKT 2025
==========================================
运行实验: UMAP(16, n_neighbors=50) + KMEANS(自动寻找最佳K)
命令: python cluster_topic_exp.py --name umap16_nn50_kmeans_auto --dim_reduction umap --umap_components 16 --umap_neighbors 50 --umap_min_dist 0.2 --clustering kmeans --db_path /home/dyvm6xra/dyvm6xrauser11/workspace/projects/HKU/Chatbot/Data/database --output_dir ./clustering_results --use_gpu --kmeans_min_k 10 --kmeans_max_k 210 --kmeans_step 20
开始时间: Sun Apr 13 20:57:36 HKT 2025
正在加载embeddings...
从缓存文件加载embeddings,数据形状: (327212, 768)
使用 umap 进行降维...
使用 GPU 加速的 UMAP...
[2025-04-13 20:57:45.632] [CUML] [info] build_algo set to brute_force_knn because random_state is given
[2025-04-13 20:57:45.673] [CUML] [debug] Computing KNN Graph
[2025-04-13 20:57:50.045] [CUML] [debug] Computing fuzzy simplicial set
=== 寻找最佳K值 ===
寻找最佳K值...
最佳聚类数量: 30
=== K-means聚类 (最佳K) ===
使用K-means进行聚类...
使用 GPU 加速的 KMeans...
聚类数量: 30
轮廓系数: 0.1480
Calinski-Harabasz指数: 9298.5918
实验结果已保存至: ./clustering_results/umap16_nn50_kmeans_auto_results.json
结束时间: Sun Apr 13 20:58:17 HKT 2025
==========================================
运行实验: UMAP(32, n_neighbors=50) + KMEANS(自动寻找最佳K)
命令: python cluster_topic_exp.py --name umap32_nn50_kmeans_auto --dim_reduction umap --umap_components 32 --umap_neighbors 50 --umap_min_dist 0.2 --clustering kmeans --db_path /home/dyvm6xra/dyvm6xrauser11/workspace/projects/HKU/Chatbot/Data/database --output_dir ./clustering_results --use_gpu --kmeans_min_k 10 --kmeans_max_k 210 --kmeans_step 20
开始时间: Sun Apr 13 20:58:17 HKT 2025
正在加载embeddings...
从缓存文件加载embeddings,数据形状: (327212, 768)
使用 umap 进行降维...
使用 GPU 加速的 UMAP...
[2025-04-13 20:58:25.322] [CUML] [info] build_algo set to brute_force_knn because random_state is given
[2025-04-13 20:58:25.364] [CUML] [debug] Computing KNN Graph
[2025-04-13 20:58:29.709] [CUML] [debug] Computing fuzzy simplicial set
=== 寻找最佳K值 ===
寻找最佳K值...
最佳聚类数量: 90
=== K-means聚类 (最佳K) ===
使用K-means进行聚类...
使用 GPU 加速的 KMeans...
聚类数量: 90
轮廓系数: 0.1562
Calinski-Harabasz指数: 3143.6130
实验结果已保存至: ./clustering_results/umap32_nn50_kmeans_auto_results.json
结束时间: Sun Apr 13 20:59:02 HKT 2025
==========================================
所有实验完成,生成分析报告...
实验全部完成!
总结果保存在: ./clustering_results
您可以运行以下命令分析结果:
python ./clustering_results/analyze_results.py