ValueError:标签数为1。使用Silhouette_score时,有效值为2到n_samples-1(包括1)

发布于 2021-01-29 17:18:12

silhouette score当我找到要创建的最佳群集数时,我正在尝试进行计算,但是出现错误消息:

ValueError: Number of labels is 1. Valid values are 2 to n_samples - 1 (inclusive)

我无法理解其原因。这是我用来聚类和计算的代码silhouette score

我阅读了包含要聚类的文本的csv,并K-Meansn聚类值上运行。我收到此错误的原因可能是什么?

  #Create cluster using K-Means
#Only creates graph
import matplotlib
#matplotlib.use('Agg')
import re
import os
import nltk, math, codecs
import csv
from nltk.corpus import stopwords
from gensim.models import Doc2Vec
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.metrics import silhouette_score

model_name = checkpoint_save_path
loaded_model = Doc2Vec.load(model_name)

#Load the test csv file
data = pd.read_csv(test_filename)
overview = data['overview'].astype('str').tolist()
overview = filter(bool, overview)
vectors = []

def split_words(text):
  return ''.join([x if x.isalnum() or x.isspace() else " " for x in text ]).split()

def preprocess_document(text):
  sp_words = split_words(text)
  return sp_words

for i, t in enumerate(overview):
  vectors.append(loaded_model.infer_vector(preprocess_document(t)))

sse = {}
silhouette = {}


for k in range(1,15):
  km = KMeans(n_clusters=k, max_iter=1000, verbose = 0).fit(vectors)
  sse[k] = km.inertia_
  #FOLLOWING LINE CAUSES ERROR
  silhouette[k] = silhouette_score(vectors, km.labels_, metric='euclidean')

best_cluster_size = 1
min_error = float("inf")

for cluster_size in sse:
    if sse[cluster_size] < min_error:
        min_error = sse[cluster_size]
        best_cluster_size = cluster_size

print(sse)
print("====")
print(silhouette)
关注者
0
被浏览
175
1 个回答
  • 面试哥
    面试哥 2021-01-29
    为面试而生,有面试问题,就找面试哥。

    *产生 *该错误 是因为您有一个循环,用于不同数量的群集n。在第一次迭代中, n_clusters is1
    这导致all(km.labels_ == 0)be True

    换句话说, 您只有一个标签为0的群集 (因此,np.unique(km.labels_)prints array([0], dtype=int32))。


    silhouette_score 需要超过1个群集标签 。这会导致错误。错误消息是明确的。


    例:

    from sklearn import datasets
    from sklearn.cluster import KMeans
    import numpy as np
    
    iris = datasets.load_iris()
    X = iris.data
    y = iris.target
    
    km = KMeans(n_clusters=3)
    km.fit(X,y)
    
    # check how many unique labels do you have
    np.unique(km.labels_)
    #array([0, 1, 2], dtype=int32)
    

    我们有3个不同的集群/集群标签。

    silhouette_score(X, km.labels_, metric='euclidean')
    0.38788915189699597
    

    该功能工作正常。


    现在,让我们引起错误:

    km2 = KMeans(n_clusters=1)
    km2.fit(X,y)
    
    silhouette_score(X, km2.labels_, metric='euclidean')
    
    ValueError: Number of labels is 1. Valid values are 2 to n_samples - 1
    

    (inclusive)



知识点
面圈网VIP题库

面圈网VIP题库全新上线,海量真题题库资源。 90大类考试,超10万份考试真题开放下载啦

去下载看看