数据不均衡往往可以导致一些问题,比如对一个两类分类问题,如果训练集中的正负样本比例为99:1,那么直接将所有样本都分为正样本,模型的准确度也可以达到99%。准确度通常是我们衡量一个模型性能的基本指标(starting point),但是它有时候并不客观(misleading),这个可以参考数据不均衡往往可以导致一些问题,比如对一个两类分类问题,如果训练集中的正负样本比例为9
数据不均衡往往可以导致一些问题,比如对一个两类分类问题,如果训练集中的正负样本比例为99:1,那么直接将所有样本都分为正样本,模型的准确度也可以达到99%。准确度通常是我们衡量一个模型性能的基本指标(starting point),但是它有时候并不客观(misleading),这个可以参考数据不均衡往往可以导致一些问题,比如对一个两类分类问题,如果训练集中的正负样本比例为9