一决高低是四字词语吗 一决高低

一决高低

一决高低是四字词语吗 一决高低

文章插图


作者 | LAVANYA
译者 | 陆离
责编 | Jane
出品 | AI科技大本营(ID: rgznai100)
【导读】XGBoost、LightGBM 和 Catboost 是三个基于 GBDT(Gradient Boosting Decision Tree)代表性的算法实现,今天,我们将在三轮 Battle 中,一决高低也决生死,根据生死训练和预测的时间、预测得分和可解释性等评测指标,让三个算法一决高下!


一言不合就 Battle

GBDT 是机器学习中的一个非常流行并且有效的算法模型,2014 年陈天奇博士提出的 XGBoost 算法就是 GBDT 一个重要实现 。但在大训练样本和高维度特征的数据环境下,一决高低是成语吗,GBDT 算法的性能以及准确性却面临了极大的挑战,随后,2017 年 LightGBM 应势而生,由微软开源的一个机器学习框架;同年,俄罗斯的搜索字巨头 Yandex 开源 Catboost 框架 。
XGBoost(eXtreme Gradient Boosting) 特点是计算速度快,模型表现好,可以用于分英文类和回归问题中,号称“比赛夺冠的必备杀器” 。LightGBM(Light Gradient Boosting Machine)的训练速度和效率更快、使用的内存更低、准确率更高、并且支持并行化学习与处理大规模数据,一决高低下一句 。Catboost( Categorical Features+Gradient Boosting)采用的策略在降低过拟合的同时保证所有数据集都可用于学习 。性能卓越、鲁棒性与通用性更好、易于使用而且更实用 。据其介绍 Catboost 的性能可以匹敌任何先进的机器学习算法高下 。
三个都是基于 GBDT 最具代表性的算法,都说自己的性能表现、效率及准确率很优秀,究竟它们谁更胜一筹呢?为了 PK 这三种算法之间的高低,我们给它们安排了一场“最浪漫的 Battle”,一决高低意思,通过三轮 Battle 让 XGBoost、Catboost 和 LightGBM 一绝高下!
Round 1:分类模型,按照数据集Fashion MNIST把图像分类(60000行数据,784个特征);Round 2:回归模型,预测纽约出租车的票价(60000行数据,7个特征);Round 3:通过是一海量数据集,预测纽约出租车票价(200万行数据,7个特征);

Battle 规则

在每一轮 PK 中,一决高低,我们都遵循以下步骤造句:
1、训练 XGBoost、Catboost、LightGBM 三种算法的基准模型,每个模型使用相同的参数进行训练;
【一决高低是四字词语吗 一决高低】
2、使用超参数高自动搜索模块 GridSearchCV 来训练 XGBoost、Catboost 和 LightGBM 三种算法的微调整模型;
3、衡量指标:
a.是什么训练和预测的时间;
b.预测得分;
c.可解释性(包括:特征重要性,SHAP 值,可视化树);


一决高低是四字词语吗 一决高低

文章插图




PK 结果揭晓

(一)运行时间& 准确度得分
Top 1:LightGBM
Top 2:CatBoost
Top 3:XGBoost


一决高低是四字词语吗 一决高低

文章插图


在训练和预测是什么时间两方面,一决高低的反义词,LightGBM 都是明显的获胜者,CatBoost 则一句紧随其后,而 XGBoost 的训练时间相对更久,但预测时间与其它两个算法的差距没有训练时间那么大 。
在增强树(boosted trees)中进行训练的时间复杂度介于(log)和一决(2)之间,而对于预测,时间复杂度为(log2 ),其中 = 训练实例决的数量,= 特征数量,以及 = 决策树的深度 。


Round 1 ~ 3
一决高低是四字词语吗 一决高低

文章插图

相关经验推荐