在决策树中查找到决策边界的距离

发布于 2021-01-29 16:37:59

我想在scikit-learn中找到样本到经过训练的决策树分类器的决策边界的距离。特征都是数字的,特征空间可以是任何大小。

到目前为止,我已经基于此处的示例2D案例获得了这种可视化效果:

import numpy as np
import matplotlib.pyplot as plt

from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import make_moons

# Generate some example data
X, y = make_moons(noise=0.3, random_state=0)

# Train the classifier
clf = DecisionTreeClassifier(max_depth=2)

clf.fit(X, y)

# Plot
x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.1), np.arange(y_min, y_max, 0.1))

Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)

plt.contourf(xx, yy, Z, alpha=0.4)
plt.scatter(X[:, 0], X[:, 1], c=y, s=20, edgecolor='k')
plt.xlabel('a'); plt.ylabel('b');

在此处输入图片说明

据我所知,对于某些其它分类像SVM,该距离可以在数学上计算[
123
]。训练决策树后学到的规则定义的界限,也可能是有用的算法计算出的距离[
456 ]:

# Plot the trained tree
from sklearn import tree
import graphviz 
dot_data = tree.export_graphviz(clf, feature_names=['a', 'b'],  class_names=['1', '2'], filled=True)  
graph = graphviz.Source(dot_data)

在此处输入图片说明

关注者
0
被浏览
167
1 个回答
  • 面试哥
    面试哥 2021-01-29
    为面试而生,有面试问题,就找面试哥。

    由于一个样本周围可能有多个决策边界,因此我将假设距离是指到最近决策边界的距离。

    解决方案是递归树遍历算法。请注意,决策树不允许样本位于边界上,例如SVM,要素空间中的每个样本都必须属于其中一个类。因此,在这里,我们将继续一步一步地修改样本的特征,并且只要该区域导致一个带有不同标签的区域(而不是经过训练的分类器最初分配给该样本的区域),我们就认为我们已经达到了决策边界。

    详细地说,像任何递归算法一样,我们要考虑两种主要情况:

    1. 基本情况,即我们在叶节点。我们只需检查当前样本是否具有不同的标签:如果是,则返回它,否则返回None
    2. 非叶节点。有两个分支,我们将样本发送到两个分支。我们不会修改示例以将其发送到自然需要的分支。但是在将其发送到另一个分支之前,我们先查看节点的(特征,阈值)对,并修改样本的给定特征,使其恰好将其推向阈值的另一侧。

    完整的python代码:

    def f(node,x,orig_label):
        global dt,tree
        if tree.children_left[node]==tree.children_right[node]: #Meaning node is a leaf
            return [x] if dt.predict([x])[0]!=orig_label else [None]
    
        if x[tree.feature[node]]<=tree.threshold[node]:
            orig = f(tree.children_left[node],x,orig_label)
            xc = x.copy()
            xc[tree.feature[node]] = tree.threshold[node] + .01
            modif = f(tree.children_right[node],xc,orig_label)
        else:
            orig = f(tree.children_right[node],x,orig_label)
            xc = x.copy()
            xc[tree.feature[node]] = tree.threshold[node] 
            modif = f(tree.children_left[node],xc,orig_label)
        return [s for s in orig+modif if s is not None]
    

    这将返回给我们一系列导致标签不同的叶子的样品列表。我们现在要做的就是取最近的一个:

    dt =  DecisionTreeClassifier(max_depth=2).fit(X,y)
    tree = dt.tree_
    res = f(0,x,dt.predict([x])[0]) # 0 is index of root node
    ans = np.min([np.linalg.norm(x-n) for n in res])
    

    例如:

    在此处输入图片说明

    蓝色是原始样本,黄色是“在”决策边界上最近的样本。



知识点
面圈网VIP题库

面圈网VIP题库全新上线,海量真题题库资源。 90大类考试,超10万份考试真题开放下载啦

去下载看看