我在谷歌
搜索了这个问题,我找不到一个简单而详细的解释这个算法的东西.
例如,我知道id3算法根本不使用修剪,所以如果你有一个连续的特征,预测成功率会很低.
所以C4.5为了支持连续的特性,它使用修剪,但这是唯一的原因吗?
此外,在WEKA应用程序中,我不太明白,置信因素究竟如何影响预测的效率.信度因子越小,算法越细,剪切和预测精度之间的相关性是多少?修剪越多越好预测还是更糟?
谢谢
修剪是减少决策树大小的一种
方法.这将降低培训数据的准确性,但(一般来说)会
增加未知数据的准确性.它用于减轻
overfitting,您可以在其中实现训练数据的完美准确性,但您学习的模型(即决策树)非常具体,除了训练数据外,它不适用于任何
内容.
一般来说,如果你增加修剪,训练集的准确性会降低.然而,WEKA提供了各种各样的东西来更好地估计准确性,即训练/测试分裂或交叉验证.例如,如果使用交叉验证,您将发现修剪信心因子的一个“甜蜜点”,其修剪足够使得学习决策树在测试数据上足够准确,但不会牺牲太多的准确性训练数据.然而,这个甜蜜的地方将取决于你的实际问题,唯一的确定它的唯一方法是尝试.
原文链接:https://www.f2er.com/c/116074.html