1,使用Hive ETL预处理数据
- 方案适用场景:如果导致数据倾斜的是hive表。如果该表中的数据本身很不均匀(比如某个key由100万条数据,其他key对应10条数据),而且业务场景需要频繁使用Spark对Hive表执行某个分析操作,那么比较合适使用这个方案,:如果导致数据倾斜的是h
- 方案适用场景:如果导致数据倾斜的是hive表。如果该表中的数据本身很不均匀(比如某个key由100万条数据,其他key对应10条数据),而且业务场景需要频繁使用Spark对Hive表执行某个分析操作,那么比较合适使用这个方案,:如果导致数据倾斜的是h