流式聚类算法：DenStream 和 CluStream

Dec 1, 2024 in ALGORITHMS
denstream clustream clustering river
1 min read

Table of Content

直接说结论：全量聚类用 DBSCAN；无监督流式聚类用 DenStream；已知聚类数、按较大时间间隔获取聚类标签且对计算量敏感，用 CluStream.

GitHub 项目地址：stream-clustering

本文涉及的内容包括：

✨ 注意：运行以下代码依赖 utils.py 文件。

DBSCAN 是一种基于密度的聚类算法，用于从大量数据中识别出高密度区域并将其分为不同的簇。与传统的基于划分的聚类算法（如 K-means）不同，DBSCAN 不需要预先指定簇的数量，并且能够识别噪声数据和异常值。

DenStream 适合不知道具体的聚类数，且需要实时获取聚类标签的情况。

CluStream 是一种需要明确指定聚类数的算法。它在一段时间内的聚类效果不错，也就是说，如果你的需求是有时间间隔的，比如每 10 分钟获取一次聚类结果，CluStream 的效果是可以接受的。

轮廓系数是一种用于评估聚类效果的指标，它从单个样本的角度衡量其聚类的合理性。轮廓系数综合考虑了样本与其所属簇内点的相似性（紧密度）和样本与其最近簇的点的相似性（分离度）。