1 year ago · 533e463f67
--- a/src/main/resources/20240622_ad_feature_name.txt
+++ b/src/main/resources/20240622_ad_feature_name.txt
@@ -0,0 +1,249 @@
 
				+cpa
			
 
				+b2_3h_ctr
			
 
				+b2_3h_ctcvr
			
 
				+b2_3h_cvr
			
 
				+b2_3h_conver
			
 
				+b2_3h_ecpm
			
 
				+b2_6h_ctr
			
 
				+b2_6h_ctcvr
			
 
				+b2_6h_cvr
			
 
				+b2_6h_conver
			
 
				+b2_6h_ecpm
			
 
				+b2_12h_ctr
			
 
				+b2_12h_ctcvr
			
 
				+b2_12h_cvr
			
 
				+b2_12h_conver
			
 
				+b2_12h_ecpm
			
 
				+b2_1d_ctr
			
 
				+b2_1d_ctcvr
			
 
				+b2_1d_cvr
			
 
				+b2_1d_conver
			
 
				+b2_1d_ecpm
			
 
				+b2_3d_ctr
			
 
				+b2_3d_ctcvr
			
 
				+b2_3d_cvr
			
 
				+b2_3d_conver
			
 
				+b2_3d_ecpm
			
 
				+b2_7d_ctr
			
 
				+b2_7d_ctcvr
			
 
				+b2_7d_cvr
			
 
				+b2_7d_conver
			
 
				+b2_7d_ecpm
			
 
				+b3_3h_ctr
			
 
				+b3_3h_ctcvr
			
 
				+b3_3h_cvr
			
 
				+b3_3h_conver
			
 
				+b3_3h_ecpm
			
 
				+b3_6h_ctr
			
 
				+b3_6h_ctcvr
			
 
				+b3_6h_cvr
			
 
				+b3_6h_conver
			
 
				+b3_6h_ecpm
			
 
				+b3_12h_ctr
			
 
				+b3_12h_ctcvr
			
 
				+b3_12h_cvr
			
 
				+b3_12h_conver
			
 
				+b3_12h_ecpm
			
 
				+b3_1d_ctr
			
 
				+b3_1d_ctcvr
			
 
				+b3_1d_cvr
			
 
				+b3_1d_conver
			
 
				+b3_1d_ecpm
			
 
				+b3_3d_ctr
			
 
				+b3_3d_ctcvr
			
 
				+b3_3d_cvr
			
 
				+b3_3d_conver
			
 
				+b3_3d_ecpm
			
 
				+b3_7d_ctr
			
 
				+b3_7d_ctcvr
			
 
				+b3_7d_cvr
			
 
				+b3_7d_conver
			
 
				+b3_7d_ecpm
			
 
				+b4_3h_ctr
			
 
				+b4_3h_ctcvr
			
 
				+b4_3h_cvr
			
 
				+b4_3h_conver
			
 
				+b4_3h_ecpm
			
 
				+b4_6h_ctr
			
 
				+b4_6h_ctcvr
			
 
				+b4_6h_cvr
			
 
				+b4_6h_conver
			
 
				+b4_6h_ecpm
			
 
				+b4_12h_ctr
			
 
				+b4_12h_ctcvr
			
 
				+b4_12h_cvr
			
 
				+b4_12h_conver
			
 
				+b4_12h_ecpm
			
 
				+b4_1d_ctr
			
 
				+b4_1d_ctcvr
			
 
				+b4_1d_cvr
			
 
				+b4_1d_conver
			
 
				+b4_1d_ecpm
			
 
				+b4_3d_ctr
			
 
				+b4_3d_ctcvr
			
 
				+b4_3d_cvr
			
 
				+b4_3d_conver
			
 
				+b4_3d_ecpm
			
 
				+b4_7d_ctr
			
 
				+b4_7d_ctcvr
			
 
				+b4_7d_cvr
			
 
				+b4_7d_conver
			
 
				+b4_7d_ecpm
			
 
				+b5_3h_ctr
			
 
				+b5_3h_ctcvr
			
 
				+b5_3h_cvr
			
 
				+b5_3h_conver
			
 
				+b5_3h_ecpm
			
 
				+b5_6h_ctr
			
 
				+b5_6h_ctcvr
			
 
				+b5_6h_cvr
			
 
				+b5_6h_conver
			
 
				+b5_6h_ecpm
			
 
				+b5_12h_ctr
			
 
				+b5_12h_ctcvr
			
 
				+b5_12h_cvr
			
 
				+b5_12h_conver
			
 
				+b5_12h_ecpm
			
 
				+b5_1d_ctr
			
 
				+b5_1d_ctcvr
			
 
				+b5_1d_cvr
			
 
				+b5_1d_conver
			
 
				+b5_1d_ecpm
			
 
				+b5_3d_ctr
			
 
				+b5_3d_ctcvr
			
 
				+b5_3d_cvr
			
 
				+b5_3d_conver
			
 
				+b5_3d_ecpm
			
 
				+b5_7d_ctr
			
 
				+b5_7d_ctcvr
			
 
				+b5_7d_cvr
			
 
				+b5_7d_conver
			
 
				+b5_7d_ecpm
			
 
				+b8_3h_ctr
			
 
				+b8_3h_ctcvr
			
 
				+b8_3h_cvr
			
 
				+b8_3h_conver
			
 
				+b8_3h_ecpm
			
 
				+b8_6h_ctr
			
 
				+b8_6h_ctcvr
			
 
				+b8_6h_cvr
			
 
				+b8_6h_conver
			
 
				+b8_6h_ecpm
			
 
				+b8_12h_ctr
			
 
				+b8_12h_ctcvr
			
 
				+b8_12h_cvr
			
 
				+b8_12h_conver
			
 
				+b8_12h_ecpm
			
 
				+b8_1d_ctr
			
 
				+b8_1d_ctcvr
			
 
				+b8_1d_cvr
			
 
				+b8_1d_conver
			
 
				+b8_1d_ecpm
			
 
				+b8_3d_ctr
			
 
				+b8_3d_ctcvr
			
 
				+b8_3d_cvr
			
 
				+b8_3d_conver
			
 
				+b8_3d_ecpm
			
 
				+b8_7d_ctr
			
 
				+b8_7d_ctcvr
			
 
				+b8_7d_cvr
			
 
				+b8_7d_conver
			
 
				+b8_7d_ecpm
			
 
				+b6_7d_ctr
			
 
				+b6_7d_ctcvr
			
 
				+b6_7d_cvr
			
 
				+b6_7d_conver
			
 
				+b6_7d_ecpm
			
 
				+b6_14d_ctr
			
 
				+b6_14d_ctcvr
			
 
				+b6_14d_cvr
			
 
				+b6_14d_conver
			
 
				+b6_14d_ecpm
			
 
				+b7_7d_ctr
			
 
				+b7_7d_ctcvr
			
 
				+b7_7d_cvr
			
 
				+b7_7d_conver
			
 
				+b7_7d_ecpm
			
 
				+b7_14d_ctr
			
 
				+b7_14d_ctcvr
			
 
				+b7_14d_cvr
			
 
				+b7_14d_conver
			
 
				+b7_14d_ecpm
			
 
				+viewAll
			
 
				+clickAll
			
 
				+converAll
			
 
				+incomeAll
			
 
				+ctr_all
			
 
				+ctcvr_all
			
 
				+cvr_all
			
 
				+ecpm_all
			
 
				+timediff_view
			
 
				+timediff_click
			
 
				+timediff_conver
			
 
				+actionstatic_view
			
 
				+actionstatic_click
			
 
				+actionstatic_conver
			
 
				+actionstatic_income
			
 
				+actionstatic_ctr
			
 
				+actionstatic_ctcvr
			
 
				+actionstatic_cvr
			
 
				+e1_tags_3d_matchnum
			
 
				+e1_tags_3d_maxscore
			
 
				+e1_tags_3d_avgscore
			
 
				+e1_tags_7d_matchnum
			
 
				+e1_tags_7d_maxscore
			
 
				+e1_tags_7d_avgscore
			
 
				+e1_tags_14d_matchnum
			
 
				+e1_tags_14d_maxscore
			
 
				+e1_tags_14d_avgscore
			
 
				+e2_tags_3d_matchnum
			
 
				+e2_tags_3d_maxscore
			
 
				+e2_tags_3d_avgscore
			
 
				+e2_tags_7d_matchnum
			
 
				+e2_tags_7d_maxscore
			
 
				+e2_tags_7d_avgscore
			
 
				+e2_tags_14d_matchnum
			
 
				+e2_tags_14d_maxscore
			
 
				+e2_tags_14d_avgscore
			
 
				+d1_feature_3h_ctr
			
 
				+d1_feature_3h_ctcvr
			
 
				+d1_feature_3h_cvr
			
 
				+d1_feature_3h_conver
			
 
				+d1_feature_3h_ecpm
			
 
				+d1_feature_6h_ctr
			
 
				+d1_feature_6h_ctcvr
			
 
				+d1_feature_6h_cvr
			
 
				+d1_feature_6h_conver
			
 
				+d1_feature_6h_ecpm
			
 
				+d1_feature_12h_ctr
			
 
				+d1_feature_12h_ctcvr
			
 
				+d1_feature_12h_cvr
			
 
				+d1_feature_12h_conver
			
 
				+d1_feature_12h_ecpm
			
 
				+d1_feature_1d_ctr
			
 
				+d1_feature_1d_ctcvr
			
 
				+d1_feature_1d_cvr
			
 
				+d1_feature_1d_conver
			
 
				+d1_feature_1d_ecpm
			
 
				+d1_feature_3d_ctr
			
 
				+d1_feature_3d_ctcvr
			
 
				+d1_feature_3d_cvr
			
 
				+d1_feature_3d_conver
			
 
				+d1_feature_3d_ecpm
			
 
				+d1_feature_7d_ctr
			
 
				+d1_feature_7d_ctcvr
			
 
				+d1_feature_7d_cvr
			
 
				+d1_feature_7d_conver
			
 
				+d1_feature_7d_ecpm
			
 
				+vid_rank_ctr_1d
			
 
				+vid_rank_ctr_3d
			
 
				+vid_rank_ctr_7d
			
 
				+vid_rank_ctr_14d
			
 
				+vid_rank_ctcvr_1d
			
 
				+vid_rank_ctcvr_3d
			
 
				+vid_rank_ctcvr_7d
			
 
				+vid_rank_ctcvr_14d
			
 
				+vid_rank_ecpm_1d
			
 
				+vid_rank_ecpm_3d
			
 
				+vid_rank_ecpm_7d
			
 
				+vid_rank_ecpm_14d
			
--- a/src/main/scala/com/aliyun/odps/spark/examples/makedata_ad/makedata_32_bucket_20240622.scala
+++ b/src/main/scala/com/aliyun/odps/spark/examples/makedata_ad/makedata_32_bucket_20240622.scala
@@ -0,0 +1,94 @@
 
				+package com.aliyun.odps.spark.examples.makedata_ad
			
 
				+
			
 
				+import com.alibaba.fastjson.JSON
			
 
				+import com.aliyun.odps.spark.examples.myUtils.{MyHdfsUtils, ParamUtils}
			
 
				+import org.apache.hadoop.io.compress.GzipCodec
			
 
				+import org.apache.spark.sql.SparkSession
			
 
				+
			
 
				+import scala.collection.JavaConversions._
			
 
				+import scala.collection.mutable.ArrayBuffer
			
 
				+import scala.io.Source
			
 
				+/*
			
 
				+
			
 
				+ */
			
 
				+
			
 
				+object makedata_32_bucket_20240622 {
			
 
				+  def main(args: Array[String]): Unit = {
			
 
				+
			
 
				+    val spark = SparkSession
			
 
				+      .builder()
			
 
				+      .appName(this.getClass.getName)
			
 
				+      .getOrCreate()
			
 
				+    val sc = spark.sparkContext
			
 
				+
			
 
				+    val loader = getClass.getClassLoader
			
 
				+    val resourceUrl = loader.getResource("20240622_ad_feature_name.txt")
			
 
				+    val content =
			
 
				+      if (resourceUrl != null) {
			
 
				+        val content = Source.fromURL(resourceUrl).getLines().mkString("\n")
			
 
				+        Source.fromURL(resourceUrl).close()
			
 
				+        content
			
 
				+      } else {
			
 
				+        ""
			
 
				+      }
			
 
				+    println(content)
			
 
				+    val contentList = content.split("\n")
			
 
				+      .map(r=> r.replace(" ", "").replaceAll("\n", ""))
			
 
				+      .filter(r=> r.nonEmpty).toList
			
 
				+
			
 
				+
			
 
				+
			
 
				+    // 1 读取参数
			
 
				+    val param = ParamUtils.parseArgs(args)
			
 
				+    val readPath = param.getOrElse("readPath", "/dw/recommend/model/31_ad_sample_data/20240620*")
			
 
				+    val savePath = param.getOrElse("savePath", "/dw/recommend/model/32_bucket_data/")
			
 
				+    val fileName = param.getOrElse("fileName", "20240620_100")
			
 
				+    val sampleRate = param.getOrElse("sampleRate", "1.0").toDouble
			
 
				+    val bucketNum = param.getOrElse("bucketNum", "100").toInt
			
 
				+
			
 
				+    val data = sc.textFile(readPath)
			
 
				+    val data1 = data.map(r => {
			
 
				+      val rList = r.split("\t")
			
 
				+      val doubles = JSON.parseObject(rList(2)).mapValues(_.toString.toDouble)
			
 
				+      doubles
			
 
				+    }).sample(false, sampleRate ).repartition(20)
			
 
				+
			
 
				+    val result = new ArrayBuffer[String]()
			
 
				+
			
 
				+    for (i <- contentList.indices){
			
 
				+      println("特征:" + contentList(i))
			
 
				+      val data2 = data1.map(r => r.getOrDefault(contentList(i), 0D)).filter(_ > 1E-8).collect().sorted
			
 
				+      val len = data2.length
			
 
				+      val oneBucketNum = (len - 1) / (bucketNum - 1) + 1 // 确保每个桶至少有一个元素
			
 
				+      val buffers = new ArrayBuffer[Double]()
			
 
				+
			
 
				+      var lastBucketValue = data2(0) // 记录上一个桶的切分点
			
 
				+      for (j <- 0 until len by oneBucketNum) {
			
 
				+        val d = data2(j)
			
 
				+        if (j > 0 && d != lastBucketValue) {
			
 
				+          // 如果当前切分点不同于上一个切分点，则保存当前切分点
			
 
				+          buffers += d
			
 
				+        }
			
 
				+        lastBucketValue = d // 更新上一个桶的切分点
			
 
				+      }
			
 
				+
			
 
				+      // 最后一个桶的结束点应该是数组的最后一个元素
			
 
				+      if (!buffers.contains(data2.last)) {
			
 
				+        buffers += data2.last
			
 
				+      }
			
 
				+      result.add(contentList(i) + "\t" + bucketNum.toString + "\t" + buffers.mkString(","))
			
 
				+    }
			
 
				+    val data3 = sc.parallelize(result)
			
 
				+
			
 
				+
			
 
				+    // 4 保存数据到hdfs
			
 
				+    val hdfsPath = savePath + "/" + fileName
			
 
				+    if (hdfsPath.nonEmpty && hdfsPath.startsWith("/dw/recommend/model/")) {
			
 
				+      println("删除路径并开始数据写入:" + hdfsPath)
			
 
				+      MyHdfsUtils.delete_hdfs_path(hdfsPath)
			
 
				+      data3.repartition(1).saveAsTextFile(hdfsPath, classOf[GzipCodec])
			
 
				+    } else {
			
 
				+      println("路径不合法，无法写入:" + hdfsPath)
			
 
				+    }
			
 
				+  }
			
 
				+}
			
--- a/src/main/scala/com/aliyun/odps/spark/examples/临时记录的脚本-广告
+++ b/src/main/scala/com/aliyun/odps/spark/examples/临时记录的脚本-广告
@@ -2,34 +2,24 @@
 
				 
			
 
				 
			
 
				 nohup /opt/apps/SPARK2/spark-2.4.8-hadoop3.2-1.0.8/bin/spark-class2 org.apache.spark.deploy.SparkSubmit \
			
 
				---class com.aliyun.odps.spark.examples.makedata.makedata_ad_31_originData_20240620 \
			
 
				+--class com.aliyun.odps.spark.examples.makedata_ad.makedata_ad_31_originData_20240620 \
			
 
				 --master yarn --driver-memory 1G --executor-memory 2G --executor-cores 1 --num-executors 16 \
			
 
				 ./target/spark-examples-1.0.0-SNAPSHOT-shaded.jar \
			
 
				 tablePart:64 repartition:32 \
			
 
				-beginStr:2024062008 endStr:2024062008 \
			
 
				+beginStr:2024062009 endStr:2024062023 \
			
 
				 savePath:/dw/recommend/model/31_ad_sample_data/ \
			
 
				 table:alg_recsys_ad_sample_all \
			
 
				 > p31_2024062008.log 2>&1 &
			
 
				 
			
 
				 
			
 
				-nohup /opt/apps/SPARK2/spark-2.4.8-hadoop3.2-1.0.8/bin/spark-class2 org.apache.spark.deploy.SparkSubmit \
			
 
				---class com.aliyun.odps.spark.examples.makedata.makedata_14_valueData_20240608 \
			
 
				---master yarn --driver-memory 1G --executor-memory 3G --executor-cores 1 --num-executors 32 \
			
 
				-./target/spark-examples-1.0.0-SNAPSHOT-shaded.jar \
			
 
				-readPath:/dw/recommend/model/13_sample_data/ \
			
 
				-savePath:/dw/recommend/model/14_feature_data/ \
			
 
				-beginStr:20240615 endStr:20240615 repartition:1000 \
			
 
				-> p14_data_check.log 2>&1 &
			
 
				 
			
 
				 
			
 
				 nohup /opt/apps/SPARK2/spark-2.4.8-hadoop3.2-1.0.8/bin/spark-class2 org.apache.spark.deploy.SparkSubmit \
			
 
				---class com.aliyun.odps.spark.examples.makedata.makedata_15_bucket_20240608 \
			
 
				+--class com.aliyun.odps.spark.examples.makedata.makedata_32_bucket_20240622 \
			
 
				 --master yarn --driver-memory 16G --executor-memory 1G --executor-cores 1 --num-executors 16 \
			
 
				 --conf spark.driver.maxResultSize=16G \
			
 
				 ./target/spark-examples-1.0.0-SNAPSHOT-shaded.jar \
			
 
				-readPath:/dw/recommend/model/14_feature_data/20240606/ fileName:20240606_200_v3 \
			
 
				-bucketNum:200 sampleRate:0.1 \
			
 
				-> p15_data2.log 2>&1 &
			
 
				+> p32_data.log 2>&1 &
			
 
				 
			
 
				 
			
 
				 nohup /opt/apps/SPARK2/spark-2.4.8-hadoop3.2-1.0.8/bin/spark-class2 org.apache.spark.deploy.SparkSubmit \