【一文速通】机器学习样本不均衡数据分布不同怎么办?

时间: 2023-08-22 admin IT培训

【一文速通】机器学习样本不均衡/数据分布不同怎么办?

【一文速通】机器学习样本不均衡/数据分布不同怎么办?

    • 样本不均衡是什么意思

样本(类别)样本不平衡(class-imbalance)指的是分类任务中不同类别的训练样例数目差别很大的情况,一般地,样本类别比例(Imbalance Ratio)(多数类vs少数类)明显大于1:1(如4:1)就可以归为样本不均衡的问题。

现实中,样本不平衡是一种常见的现象,如:金融欺诈交易检测,欺诈交易的订单样本通常是占总交易数量的极少部分,而且对于有些任务而言少数样本更为重要。

    • 数据不同分布是什么意思

实际预测与训练数据不满足同分布的问题,也就是数据集偏移(Dataset shift),是机器学习一个很重要的问题。不同因素对应着如下三种情况得数据偏移:

  • Covariate