|
@@ -31,6 +31,7 @@ object makedata_recsys_45_feature_cover_degree {
|
|
|
// 过滤无效数据(以 tab 分割后长度不为 3)
|
|
|
val validData = data.filter(_.split("\t").length == 3)
|
|
|
println("问题数据数量:" + (data.count() - validData.count()))
|
|
|
+ println(s"正常数据量: ${validData.count()}")
|
|
|
|
|
|
// 统计 feature 出现且 > 0 的次数
|
|
|
val featureCounts = validData.map { line =>
|