但是,您确实需要向算法提供足够的数据来训练它。
数据最初是原始格式。您需要从这些数据中提取特征,然后再将其提供给算法。这个过程称为特征工程。
收集、清理和设计数据是机器学习过程中最困难的部分。
什么是特征工程?
即使是原始数据集也具 决策者电子邮件列表 有特征。大多数情况下,数据将以表格的形式呈现。
每一列都是一个特征。但这些特征可能无法让算法产生最佳结果。
修改、删除和组合这些特征会产生一组更适合训练算法的新特征。
机器学习中的特征工程不仅仅是选择适当的特征并对其进行转换。
特征工程不仅可以使数据集与算法兼容,还可以提高机器学习模型的性能。
特征工程对于机器学习的重要性
您是否知道数据科学家大约80% 的时间都花在数据准备上?
。如果没有这一步,机器学习算法的准确性就会显著降低。
典型的机器学习始于数据 如果您想向转化的访问者展示不同的广告 收集和探索性分析。接下来是数据清理。此步骤会删除重复值并纠正错误标记的类别和特征。
下一步是特征工程。特征工程的输出被输入到预测模型中,并对结果进行交叉验证。
输入原始数据的算法并不知 中国电话号码道这些特征的重要性,它是在黑暗中做出预测。
您可以将特征工程视为此场景中的指路明灯。
当你拥有相关的特征时,算法的复杂性就会降低。即使你使用的算法并不理想,结果仍然是准确的。
更简单的模型通常更容易理解、编码和维护。
Kaggle 竞赛的获胜团队承认更加注重特征工程和数据清理。
对于“特征工程是什么”这个问题,最有效的答案是它是算法的指南。