对数变换也能降低异常值的影响

需要在过度拟合和提升性能之间找到平衡。考虑一下 YouTube 上每个视频的观看次数。

对于某些视频来说,该值可 特殊数据库 能异常大,而对于另一些视频来说,该值可能极小。使用此列而不进行分箱可能会导致性能问题和错误的预测。 

分箱宽度可以固定,也可以自适应。如果数据分布几乎均匀,则固定宽度分箱就足够了。然而,当数据分布不规则时,自适应分箱可以提供更好的结果。 

6. 对数变换

你的数据是正态分布的吗?还是有偏差?偏差的数据集会导致模型性能不佳。

对数变换可以修正偏度,使模型趋近于正态分布。当数据的量级在同一范围内时,对数变换也很有帮助。

美国年度收入分配

。异常值在许多数据集中很常见。如果你打算删除所有异常值,最终也会丢失宝贵的信息。

当你的数据集规模较小时,删除异常值并不是理想的解决方案。

对数变换保留了异常值,但减少 如何利用电话销售策略 了它们对数据的影响,使数据更加稳健。    

请记住,对数变换仅适用于正值。

如果您的数据具有负值,那么您需要向整列添加一个常数以使其成为正值,然后使用此技术。 

机器学习中特征工程的范围  

机器学习中的特征工程是一个广阔的领域,包含许多不同的技术。

但很多时候也需要运用 中国电话号码你的直觉。你需要对该领域有深入的了解。 

了解问题起源的领域对于帮助您执行特征工程至关重要。

盲目地运用这些技巧,却不清楚为什么需要这样做,可能会弊大于利。如上所述,有些技巧依赖于找到平衡点。 

只有当您理解为什么保留异常值比删除异常值更好,或者为什么分箱是正确的策略时,您才能够开发出具有弹性、灵活性和稳健性的预测模型。        

机器学习中的特征工程不仅仅是学习所有技术并加以运用。它属于那种通过练习就能精通的领域之一

你解决的机器学习问题越多,你的特征工程就会变得越好。 

这里有一个视频可以帮助您更多地了解特征工程技术。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部