深度阅读

HDBSCAN 聚类的高性能实现

作者
作者
2023年08月22日
更新时间
5.5 分钟
阅读时间
0
阅读量

HDBSCAN - 基于分层密度的噪声应用空间聚类。对不同的 epsilon 值执行 DBSCAN 并整合结果以找到在 epsilon 上提供最佳稳定性的聚类。这允许 HDBSCAN 找到不同密度的集群(与 DBSCAN 不同),并且对参数选择更加稳健。

在实践中,这意味着 HDBSCAN 在很少或没有参数调整的情况下立即返回一个良好的聚类——主要参数,最小聚类大小,是直观且易于选择的。

HDBSCAN 是探索性数据分析的理想选择;这是一种快速而强大的算法,您可以信任它来返回有意义的集群(如果有的话)。

文档地址
hdbscan.readthedocs.io/en/latest/
项目地址
https://github.com/scikit-learn-contrib/hdbscan

示例如下

import hdbscan
from sklearn.datasets import make_blobs
data, _ = make_blobs(1000)
clusterer = hdbscan.HDBSCAN(min_cluster_size=10)
cluster_labels = clusterer.fit_predict(data)

相关标签

博客作者

热爱技术,乐于分享,持续学习。专注于Web开发、系统架构设计和人工智能领域。