一决高低是四字词语吗 一决高低( 二 )




一决高低是四字词语吗 一决高低

文章插图


一决高低是四字词语吗 一决高低

文章插图


(二)可解释性
一个模型的预测得分仅反映了它的一方面,我们还想知道模型为什么要做出这个预测的 。
在这里,我们描绘出了模型特征的成语重要性和 SHAP 值,还有一个实际的决策树,以便更准确低下地理解模型的预测 。
(a)特征的游戏重要性
这三个增强模型都提供了一个 .feature_importances_ attribute 属性反义词,允许我们查看有哪些英文特征对模型预测的影响一句是最大的:
Round 1 ~ 3
一决高低是四字词语吗 一决高低

文章插图


(b)SHAP值
另外一种方法是 SHAP 摘要图,用来了解每个特性对模型输出的影响分布 。SHAP 值是在这些特征之间的公平的信用分配,并且具有博弈论一致性的理论保证,这使得意思是它们游戏通常比整个数据集中的那些典型特征的重要性更值得信赖,一决高低是四字词语吗 。
Round 1 & 2

一决高低是四字词语吗 一决高低

文章插图


一决高低是四字词语吗 一决高低

文章插图


(c)绘制意思是决策树
最后,XGBoost 和 LightGBM 这两个算法还允许我们绘制用于进行预测的实际决策树,这对于更好地了解每个特征造句对目标变量的预测能力非常的有用 。而 CatBoost 没有决策树的绘制功能 。


如果想看 CatBoost 的结果,这里推荐给生死大家一个可视化工具: https://blog.csdn.net/l_xzmy/article/details/81532281


Round 1 & 2


一决高低是四字词语吗 一决高低

文章插图


评测总结

CatBoost

(1)CatBoost 提供了比 XGBoost 更高的是一准确性和和更短的训练时间;
(2)支持即用的分类特征,因此我们不需要对分类特征进行预处理(例如,通过 LabelEncoding 或 OneHotEncoding) 。事实上,CatBoost 的文档明确地说明不要在预处理期间使用热编码,因为“这会影响训练速度和最终的效果”;
(3)通过执行有序地增强操作,可以更好地处理过度拟合,尤其体现在小数据集上;
(4)支持即用的 GPU 训练(只需近义词设置参数task_type =“GPU”);
(5)可以处理缺失的值;
LightGBM

(1)LightGBM 也能提供比 XGBoost 更高的准确性和更短的训练时间;
(2)支持并行的树增强操作,即使在大型数据集上(相比于 XGBoost)也能提供更快的训练速度;
(3)使用 histogram-esquealgorithm,将同义词连续的特征转化高为离散的特征,从而实现了极快的训练速度和较低的内存使用率;
(4)通过使用垂直拆分(leaf-wise split)而不是水平拆分(level-wise split)来获得极高的准确性,这会导致非常快速的聚合现象,并在非常复杂的树结构中能捕获训练数据的底层模式 。可以通过使用 num_leaves 和 max_depth 这两个超参数来控制过度拟合;
XGBoost

(1)支持并行的树增强操作是一;
(2)使用规则化来遏制过度拟合一句;
(3)支持用户自定义的低下评估指标;
(4)处理缺失的值反义词;
(5)XGBoost 比传统同义词的梯度决增强方法(如 AdaBoost)要快得多;
如果想深入研究这些算法,可以阅读低下下面相关文章的链接:
LightGBM: 一种高效的梯度增强四字决策树 https://papers.nips.cc/paper/6907-lightgbm-a-highly-efficient-gradient-boosting-decision-tree.pdf CatBoost: 支持分类特征的梯度增强http://learningsys.org/nips17/assets/papers/paper_11.pdf XGBoost: 一个可扩展高的树增强系统 https://arxiv.org/pdf/1603.02754.pdf

相关经验推荐