需要在过度拟合和提升性能之间找到平衡。考虑一下 YouTube 上每个视频的观看次数。
对于某些视频来说,该值可 特殊数据库 能异常大,而对于另一些视频来说,该值可能极小。使用此列而不进行分箱可能会导致性能问题和错误的预测。
分箱宽度可以固定,也可以自适应。如果数据分布几乎均匀,则固定宽度分箱就足够了。然而,当数据分布不规则时,自适应分箱可以提供更好的结果。
6. 对数变换
你的数据是正态分布的吗?还是有偏差?偏差的数据集会导致模型性能不佳。
对数变换可以修正偏度,使模型趋近于正态分布。当数据的量级在同一范围内时,对数变换也很有帮助。
。异常值在许多数据集中很常见。如果你打算删除所有异常值,最终也会丢失宝贵的信息。
当你的数据集规模较小时,删除异常值并不是理想的解决方案。
对数变换保留了异常值,但减少 如何利用电话销售策略 了它们对数据的影响,使数据更加稳健。
请记住,对数变换仅适用于正值。
如果您的数据具有负值,那么您需要向整列添加一个常数以使其成为正值,然后使用此技术。
机器学习中特征工程的范围
机器学习中的特征工程是一个广阔的领域,包含许多不同的技术。
但很多时候也需要运用 中国电话号码你的直觉。你需要对该领域有深入的了解。
了解问题起源的领域对于帮助您执行特征工程至关重要。
盲目地运用这些技巧,却不清楚为什么需要这样做,可能会弊大于利。如上所述,有些技巧依赖于找到平衡点。
只有当您理解为什么保留异常值比删除异常值更好,或者为什么分箱是正确的策略时,您才能够开发出具有弹性、灵活性和稳健性的预测模型。
机器学习中的特征工程不仅仅是学习所有技术并加以运用。它属于那种通过练习就能精通的领域之一。
你解决的机器学习问题越多,你的特征工程就会变得越好。
这里有一个视频可以帮助您更多地了解特征工程技术。