特征工程是其中至关重要的一部分

但是,您确实需要向算法提供足够的数据来训练它。 

数据最初是原始格式。您需要从这些数据中提取特征,然后再将其提供给算法。这个过程称为特征工程

收集、清理和设计数据是机器学习过程中最困难的部分。  

什么是特征工程?

即使是原始数据集也具 决策者电子邮件列表 有特征。大多数情况下,数据将以表格的形式呈现。

每一列都是一个特征。但这些特征可能无法让算法产生最佳结果。 

修改、删除和组合这些特征会产生一组更适合训练算法的新特征。

机器学习中的特征工程不仅仅是选择适当的特征并对其进行转换。   

特征工程不仅可以使数据集与算法兼容,还可以提高机器学习模型的性能。

特征工程对于机器学习的重要性

您是否知道数据科学家大约80% 的时间都花在数据准备上?

。如果没有这一步,机器学习算法的准确性就会显著降低。

数据科学流程

典型的机器学习始于数据 如果您想向转化的访问者展示不同的广告 收集和探索性分析。接下来是数据清理。此步骤会删除重复值并纠正错误标记的类别和特征。

下一步是特征工程。特征工程的输出被输入到预测模型中,并对结果进行交叉验证。      

输入原始数据的算法并不知 中国电话号码道这些特征的重要性,它是在黑暗中做出预测。

您可以将特征工程视为此场景中的指路明灯。   

当你拥有相关的特征时,算法的复杂性就会降低。即使你使用的算法并不理想,结果仍然是准确的。

更简单的模型通常更容易理解、编码和维护。 

Kaggle 竞赛的获胜团队承认更加注重特征工程和数据清理。 

对于“特征工程是什么”这个问题,最有效的答案是它是算法的指南。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部