| ================ 聚类实验 ================ |
| 开始时间: Sun Apr 13 20:56:08 HKT 2025 |
| ========================================== |
|
|
| 运行实验: UMAP(2, n_neighbors=50) + KMEANS(自动寻找最佳K) |
| 命令: python cluster_topic_exp.py --name umap2_nn50_kmeans_auto --dim_reduction umap --umap_components 2 --umap_neighbors 50 --umap_min_dist 0.2 --clustering kmeans --db_path /home/dyvm6xra/dyvm6xrauser11/workspace/projects/HKU/Chatbot/Data/database --output_dir ./clustering_results --use_gpu --kmeans_min_k 10 --kmeans_max_k 210 --kmeans_step 20 |
| 开始时间: Sun Apr 13 20:56:08 HKT 2025 |
| 正在加载embeddings... |
| 从缓存文件加载embeddings,数据形状: (327212, 768) |
| 使用 umap 进行降维... |
| 使用 GPU 加速的 UMAP... |
| [2025-04-13 20:56:17.602] [CUML] [info] build_algo set to brute_force_knn because random_state is given |
| [2025-04-13 20:56:17.645] [CUML] [debug] Computing KNN Graph |
| [2025-04-13 20:56:22.015] [CUML] [debug] Computing fuzzy simplicial set |
|
|
| === 寻找最佳K值 === |
| 寻找最佳K值... |
| 最佳聚类数量: 30 |
|
|
| === K-means聚类 (最佳K) === |
| 使用K-means进行聚类... |
| 使用 GPU 加速的 KMeans... |
| 聚类数量: 30 |
| 轮廓系数: 0.3704 |
| Calinski-Harabasz指数: 171740.8594 |
| 实验结果已保存至: ./clustering_results/umap2_nn50_kmeans_auto_results.json |
| 结束时间: Sun Apr 13 20:56:54 HKT 2025 |
| ========================================== |
|
|
| 运行实验: UMAP(4, n_neighbors=50) + KMEANS(自动寻找最佳K) |
| 命令: python cluster_topic_exp.py --name umap4_nn50_kmeans_auto --dim_reduction umap --umap_components 4 --umap_neighbors 50 --umap_min_dist 0.2 --clustering kmeans --db_path /home/dyvm6xra/dyvm6xrauser11/workspace/projects/HKU/Chatbot/Data/database --output_dir ./clustering_results --use_gpu --kmeans_min_k 10 --kmeans_max_k 210 --kmeans_step 20 |
| 开始时间: Sun Apr 13 20:56:54 HKT 2025 |
| 正在加载embeddings... |
| 从缓存文件加载embeddings,数据形状: (327212, 768) |
| 使用 umap 进行降维... |
| 使用 GPU 加速的 UMAP... |
| [2025-04-13 20:57:02.036] [CUML] [info] build_algo set to brute_force_knn because random_state is given |
| [2025-04-13 20:57:02.076] [CUML] [debug] Computing KNN Graph |
| [2025-04-13 20:57:06.437] [CUML] [debug] Computing fuzzy simplicial set |
|
|
| === 寻找最佳K值 === |
| 寻找最佳K值... |
| 最佳聚类数量: 10 |
|
|
| === K-means聚类 (最佳K) === |
| 使用K-means进行聚类... |
| 使用 GPU 加速的 KMeans... |
| 聚类数量: 10 |
| 轮廓系数: 0.2394 |
| Calinski-Harabasz指数: 58360.0859 |
| 实验结果已保存至: ./clustering_results/umap4_nn50_kmeans_auto_results.json |
| 结束时间: Sun Apr 13 20:57:36 HKT 2025 |
| ========================================== |
|
|
| 运行实验: UMAP(16, n_neighbors=50) + KMEANS(自动寻找最佳K) |
| 命令: python cluster_topic_exp.py --name umap16_nn50_kmeans_auto --dim_reduction umap --umap_components 16 --umap_neighbors 50 --umap_min_dist 0.2 --clustering kmeans --db_path /home/dyvm6xra/dyvm6xrauser11/workspace/projects/HKU/Chatbot/Data/database --output_dir ./clustering_results --use_gpu --kmeans_min_k 10 --kmeans_max_k 210 --kmeans_step 20 |
| 开始时间: Sun Apr 13 20:57:36 HKT 2025 |
| 正在加载embeddings... |
| 从缓存文件加载embeddings,数据形状: (327212, 768) |
| 使用 umap 进行降维... |
| 使用 GPU 加速的 UMAP... |
| [2025-04-13 20:57:45.632] [CUML] [info] build_algo set to brute_force_knn because random_state is given |
| [2025-04-13 20:57:45.673] [CUML] [debug] Computing KNN Graph |
| [2025-04-13 20:57:50.045] [CUML] [debug] Computing fuzzy simplicial set |
|
|
| === 寻找最佳K值 === |
| 寻找最佳K值... |
| 最佳聚类数量: 30 |
|
|
| === K-means聚类 (最佳K) === |
| 使用K-means进行聚类... |
| 使用 GPU 加速的 KMeans... |
| 聚类数量: 30 |
| 轮廓系数: 0.1480 |
| Calinski-Harabasz指数: 9298.5918 |
| 实验结果已保存至: ./clustering_results/umap16_nn50_kmeans_auto_results.json |
| 结束时间: Sun Apr 13 20:58:17 HKT 2025 |
| ========================================== |
|
|
| 运行实验: UMAP(32, n_neighbors=50) + KMEANS(自动寻找最佳K) |
| 命令: python cluster_topic_exp.py --name umap32_nn50_kmeans_auto --dim_reduction umap --umap_components 32 --umap_neighbors 50 --umap_min_dist 0.2 --clustering kmeans --db_path /home/dyvm6xra/dyvm6xrauser11/workspace/projects/HKU/Chatbot/Data/database --output_dir ./clustering_results --use_gpu --kmeans_min_k 10 --kmeans_max_k 210 --kmeans_step 20 |
| 开始时间: Sun Apr 13 20:58:17 HKT 2025 |
| 正在加载embeddings... |
| 从缓存文件加载embeddings,数据形状: (327212, 768) |
| 使用 umap 进行降维... |
| 使用 GPU 加速的 UMAP... |
| [2025-04-13 20:58:25.322] [CUML] [info] build_algo set to brute_force_knn because random_state is given |
| [2025-04-13 20:58:25.364] [CUML] [debug] Computing KNN Graph |
| [2025-04-13 20:58:29.709] [CUML] [debug] Computing fuzzy simplicial set |
|
|
| === 寻找最佳K值 === |
| 寻找最佳K值... |
| 最佳聚类数量: 90 |
|
|
| === K-means聚类 (最佳K) === |
| 使用K-means进行聚类... |
| 使用 GPU 加速的 KMeans... |
| 聚类数量: 90 |
| 轮廓系数: 0.1562 |
| Calinski-Harabasz指数: 3143.6130 |
| 实验结果已保存至: ./clustering_results/umap32_nn50_kmeans_auto_results.json |
| 结束时间: Sun Apr 13 20:59:02 HKT 2025 |
| ========================================== |
|
|
| 所有实验完成,生成分析报告... |
| 实验全部完成! |
| 总结果保存在: ./clustering_results |
| 您可以运行以下命令分析结果: |
| python ./clustering_results/analyze_results.py |
|
|