weka – 为什么C4.5算法使用修剪来减少决策树,修剪如何影响预测精度?

前端之家收集整理的这篇文章主要介绍了weka – 为什么C4.5算法使用修剪来减少决策树,修剪如何影响预测精度?前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
我在谷歌搜索了这个问题,我找不到一个简单而详细的解释这个算法的东西.

例如,我知道id3算法根本不使用修剪,所以如果你有一个连续的特征,预测成功率会很低.

所以C4.5为了支持连续的特性,它使用修剪,但这是唯一的原因吗?

此外,在WEKA应用程序中,我不太明白,置信因素究竟如何影响预测的效率.信度因子越小,算法越细,剪切和预测精度之间的相关性是多少?修剪越多越好预测还是更糟?

谢谢

解决方法

修剪是减少决策树大小的一种方法.这将降低培训数据的准确性,但(一般来说)会增加未知数据的准确性.它用于减轻 overfitting,您可以在其中实现训练数据的完美准确性,但您学习的模型(即决策树)非常具体,除了训练数据外,它不适用于任何内容.

一般来说,如果你增加修剪,训练集的准确性会降低.然而,WEKA提供了各种各样的东西来更好地估计准确性,即训练/测试分裂或交叉验证.例如,如果使用交叉验证,您将发现修剪信心因子的一个“甜蜜点”,其修剪足够使得学习决策树在测试数据上足够准确,但不会牺牲太多的准确性训练数据.然而,这个甜蜜的地方将取决于你的实际问题,唯一的确定它的唯一方法是尝试.

猜你在找的C&C++相关文章