一决高低是四字词语吗一决高低 _生活百科

一决高低

文章插图

作者 | LAVANYA
译者 | 陆离
责编 | Jane
出品 | AI科技大本营（ID: rgznai100）
【导读】XGBoost、LightGBM 和 Catboost 是三个基于 GBDT（Gradient Boosting Decision Tree）代表性的算法实现，今天，我们将在三轮 Battle 中，一决高低也决生死，根据生死训练和预测的时间、预测得分和可解释性等评测指标，让三个算法一决高下！

一言不合就 Battle

GBDT 是机器学习中的一个非常流行并且有效的算法模型，2014 年陈天奇博士提出的 XGBoost 算法就是 GBDT 一个重要实现。但在大训练样本和高维度特征的数据环境下，一决高低是成语吗，GBDT 算法的性能以及准确性却面临了极大的挑战，随后，2017 年 LightGBM 应势而生，由微软开源的一个机器学习框架；同年，俄罗斯的搜索字巨头 Yandex 开源 Catboost 框架。
XGBoost（eXtreme Gradient Boosting）特点是计算速度快，模型表现好，可以用于分英文类和回归问题中，号称“比赛夺冠的必备杀器” 。LightGBM（Light Gradient Boosting Machine）的训练速度和效率更快、使用的内存更低、准确率更高、并且支持并行化学习与处理大规模数据，一决高低下一句。Catboost（ Categorical Features+Gradient Boosting）采用的策略在降低过拟合的同时保证所有数据集都可用于学习。性能卓越、鲁棒性与通用性更好、易于使用而且更实用。据其介绍 Catboost 的性能可以匹敌任何先进的机器学习算法高下。
三个都是基于 GBDT 最具代表性的算法，都说自己的性能表现、效率及准确率很优秀，究竟它们谁更胜一筹呢？为了 PK 这三种算法之间的高低，我们给它们安排了一场“最浪漫的 Battle”，一决高低意思，通过三轮 Battle 让 XGBoost、Catboost 和 LightGBM 一绝高下！
Round 1：分类模型，按照数据集Fashion MNIST把图像分类（60000行数据，784个特征）；Round 2：回归模型，预测纽约出租车的票价（60000行数据，7个特征）；Round 3：通过是一海量数据集，预测纽约出租车票价（200万行数据，7个特征）；

Battle 规则

在每一轮 PK 中，一决高低，我们都遵循以下步骤造句:
1、训练 XGBoost、Catboost、LightGBM 三种算法的基准模型，每个模型使用相同的参数进行训练；
【一决高低是四字词语吗一决高低】
2、使用超参数高自动搜索模块 GridSearchCV 来训练 XGBoost、Catboost 和 LightGBM 三种算法的微调整模型；
3、衡量指标:
a.是什么训练和预测的时间；
b.预测得分；
c.可解释性（包括：特征重要性，SHAP 值，可视化树）；