一决高低

文章插图
作者 | LAVANYA
译者 | 陆离
责编 | Jane
出品 | AI科技大本营(ID: rgznai100)
【导读】XGBoost、LightGBM 和 Catboost 是三个基于 GBDT(Gradient Boosting Decision Tree)代表性的算法实现,今天,我们将在三轮 Battle 中,一决高低也决生死,根据生死训练和预测的时间、预测得分和可解释性等评测指标,让三个算法一决高下!
一言不合就 Battle
GBDT 是机器学习中的一个非常流行并且有效的算法模型,2014 年陈天奇博士提出的 XGBoost 算法就是 GBDT 一个重要实现 。但在大训练样本和高维度特征的数据环境下,一决高低是成语吗,GBDT 算法的性能以及准确性却面临了极大的挑战,随后,2017 年 LightGBM 应势而生,由微软开源的一个机器学习框架;同年,俄罗斯的搜索字巨头 Yandex 开源 Catboost 框架 。
XGBoost(eXtreme Gradient Boosting) 特点是计算速度快,模型表现好,可以用于分英文类和回归问题中,号称“比赛夺冠的必备杀器” 。LightGBM(Light Gradient Boosting Machine)的训练速度和效率更快、使用的内存更低、准确率更高、并且支持并行化学习与处理大规模数据,一决高低下一句 。Catboost( Categorical Features+Gradient Boosting)采用的策略在降低过拟合的同时保证所有数据集都可用于学习 。性能卓越、鲁棒性与通用性更好、易于使用而且更实用 。据其介绍 Catboost 的性能可以匹敌任何先进的机器学习算法高下 。
三个都是基于 GBDT 最具代表性的算法,都说自己的性能表现、效率及准确率很优秀,究竟它们谁更胜一筹呢?为了 PK 这三种算法之间的高低,我们给它们安排了一场“最浪漫的 Battle”,一决高低意思,通过三轮 Battle 让 XGBoost、Catboost 和 LightGBM 一绝高下!
Round 1:分类模型,按照数据集Fashion MNIST把图像分类(60000行数据,784个特征);Round 2:回归模型,预测纽约出租车的票价(60000行数据,7个特征);Round 3:通过是一海量数据集,预测纽约出租车票价(200万行数据,7个特征);
Battle 规则
在每一轮 PK 中,一决高低,我们都遵循以下步骤造句:
1、训练 XGBoost、Catboost、LightGBM 三种算法的基准模型,每个模型使用相同的参数进行训练;
【一决高低是四字词语吗 一决高低】
2、使用超参数高自动搜索模块 GridSearchCV 来训练 XGBoost、Catboost 和 LightGBM 三种算法的微调整模型;
3、衡量指标:
a.是什么训练和预测的时间;
b.预测得分;
c.可解释性(包括:特征重要性,SHAP 值,可视化树);

文章插图
PK 结果揭晓
(一)运行时间& 准确度得分
Top 1:LightGBM
Top 2:CatBoost
Top 3:XGBoost

文章插图
在训练和预测是什么时间两方面,一决高低的反义词,LightGBM 都是明显的获胜者,CatBoost 则一句紧随其后,而 XGBoost 的训练时间相对更久,但预测时间与其它两个算法的差距没有训练时间那么大 。
在增强树(boosted trees)中进行训练的时间复杂度介于(log)和一决(2)之间,而对于预测,时间复杂度为(log2 ),其中 = 训练实例决的数量,= 特征数量,以及 = 决策树的深度 。
Round 1 ~ 3

文章插图
相关经验推荐
- 中国朝代顺序表 隋唐五代是哪五代
- 生殖器疱疹的潜伏期是多久
- uniqlo是什么牌子的衣服 uniqlo是什么牌子
- 形容自己傻的经典句子 讽刺自己傻的句子 形容自己傻的经典句子
- 冬天哪些人不宜吃生姜 冬天为什么不宜吃生姜
- 番茄面膜的做法与功效视频 番茄面膜的做法与功效
- 墙上非常小的虫子是什么 墙上的小虫子是什么虫子
- 岫读什么音? 岫读什么音
- 抵押型REITs的特点是 抵押型REITs的特点是
- 桂枝配丹参的作用 桂枝配丹参的作用是什么
