5 месяцев назад · 3a96e3b5f4
--- a/tasks/渠道效果分析/analyze.py
+++ b/tasks/渠道效果分析/analyze.py
@@ -39,18 +39,21 @@ log("一、渠道整体表现")
 
				 log("=" * 80)
			
 
				 log()
			
 
				 
			
 
				+# 按渠道汇总（加权平均）
			
 
				 channel_stats = df.groupby('channel').agg({
			
 
				     '点击uv': 'sum',
			
 
				-    '进入推荐uv': 'sum',
			
 
				-    '再分享回流uv': 'sum',
			
 
				-    '原视频回流uv': 'sum',
			
 
				-    '推荐回流uv': 'sum'
			
 
				+    '再分享回流uv': 'sum'
			
 
				 }).reset_index()
			
 
				 
			
 
				-channel_stats['进入推荐率'] = channel_stats['进入推荐uv'] / channel_stats['点击uv']
			
 
				-channel_stats['再分享回流率'] = channel_stats['再分享回流uv'] / (channel_stats['点击uv'] + 10)
			
 
				-channel_stats['原视频回流率'] = channel_stats['原视频回流uv'] / (channel_stats['点击uv'] + 10)
			
 
				-channel_stats['推荐回流率'] = channel_stats['推荐回流uv'] / (channel_stats['点击uv'] + 10)
			
 
				+# 用加权方式计算整体指标
			
 
				+for ch in channel_stats['channel']:
			
 
				+    ch_df = df[df['channel'] == ch]
			
 
				+    uv = ch_df['点击uv'].sum()
			
 
				+    channel_stats.loc[channel_stats['channel'] == ch, '进入推荐率'] = (ch_df['进入推荐率'] * ch_df['点击uv']).sum() / uv
			
 
				+    channel_stats.loc[channel_stats['channel'] == ch, '再分享回流率'] = (ch_df['再分享回流率'] * ch_df['点击uv']).sum() / uv
			
 
				+    channel_stats.loc[channel_stats['channel'] == ch, '原视频再分享回流率'] = (ch_df['原视频再分享回流率'] * ch_df['点击uv']).sum() / uv
			
 
				+    channel_stats.loc[channel_stats['channel'] == ch, '推荐再分享回流率'] = (ch_df['推荐再分享回流率'] * ch_df['点击uv']).sum() / uv
			
 
				+
			
 
				 channel_stats = channel_stats.sort_values('点击uv', ascending=False)
			
 
				 
			
 
				 header = f"{'渠道':<25} {'点击UV':>12} {'进入推荐率':>10} {'回流率':>10} {'原视频':>8} {'推荐':>8}"
			
@@ -58,7 +61,7 @@ log(header)
 
				 log("-" * 80)
			
 
				 
			
 
				 for _, row in channel_stats.iterrows():
			
 
				-    log(f"{row['channel']:<25} {int(row['点击uv']):>12,} {row['进入推荐率']:>10.1%} {row['再分享回流率']:>10.1%} {row['原视频回流率']:>8.1%} {row['推荐回流率']:>8.1%}")
			
 
				+    log(f"{row['channel']:<25} {int(row['点击uv']):>12,} {row['进入推荐率']:>10.1%} {row['再分享回流率']:>10.1%} {row['原视频再分享回流率']:>8.1%} {row['推荐再分享回流率']:>8.1%}")
			
 
				 
			
 
				 log()
			
 
				 
			
@@ -71,13 +74,13 @@ log("=" * 80)
 
				 log()
			
 
				 
			
 
				 # 按日期和渠道汇总
			
 
				-daily_channel = df.groupby(['dt', 'channel']).agg({
			
 
				-    '点击uv': 'sum',
			
 
				-    '再分享回流uv': 'sum'
			
 
				-}).reset_index()
			
 
				-daily_channel['回流率'] = daily_channel['再分享回流uv'] / (daily_channel['点击uv'] + 10)
			
 
				+daily_channel = df.groupby(['dt', 'channel']).apply(
			
 
				+    lambda x: pd.Series({
			
 
				+        '点击uv': x['点击uv'].sum(),
			
 
				+        '回流率': (x['再分享回流率'] * x['点击uv']).sum() / x['点击uv'].sum()
			
 
				+    })
			
 
				+).reset_index()
			
 
				 
			
 
				-# 只看主要渠道（UV > 10000）
			
 
				 main_channels = channel_stats[channel_stats['点击uv'] > 10000]['channel'].tolist()
			
 
				 dates = sorted(df['dt'].unique())
			
 
				 
			
@@ -107,25 +110,23 @@ log("=" * 80)
 
				 log()
			
 
				 
			
 
				 # 按渠道和品类汇总
			
 
				-channel_category = df.groupby(['channel', 'merge一级品类']).agg({
			
 
				-    '点击uv': 'sum',
			
 
				-    '再分享回流uv': 'sum'
			
 
				-}).reset_index()
			
 
				-channel_category['回流率'] = channel_category['再分享回流uv'] / (channel_category['点击uv'] + 10)
			
 
				+channel_category = df.groupby(['channel', 'merge一级品类']).apply(
			
 
				+    lambda x: pd.Series({
			
 
				+        '点击uv': x['点击uv'].sum(),
			
 
				+        '回流率': (x['再分享回流率'] * x['点击uv']).sum() / x['点击uv'].sum() if x['点击uv'].sum() > 0 else 0
			
 
				+    })
			
 
				+).reset_index()
			
 
				 
			
 
				-# 创建透视表
			
 
				 pivot_uv = channel_category.pivot(index='merge一级品类', columns='channel', values='点击uv').fillna(0)
			
 
				 pivot_ror = channel_category.pivot(index='merge一级品类', columns='channel', values='回流率')
			
 
				 
			
 
				-# 过滤小样本
			
 
				 min_uv = 1000
			
 
				 valid_categories = pivot_uv[pivot_uv.sum(axis=1) >= min_uv].index
			
 
				-valid_channels = main_channels[:8]  # 取前8个主要渠道
			
 
				+valid_channels = main_channels[:8]
			
 
				 
			
 
				 log(f"品类数: {len(valid_categories)}, 渠道数: {len(valid_channels)}")
			
 
				 log()
			
 
				 
			
 
				-# 各品类最佳渠道
			
 
				 log("【各品类最佳渠道】")
			
 
				 log("-" * 80)
			
 
				 
			
@@ -143,7 +144,6 @@ for category in valid_categories:
 
				 
			
 
				 log()
			
 
				 
			
 
				-# 各渠道最佳品类
			
 
				 log("【各渠道最佳品类】")
			
 
				 log("-" * 80)
			
 
				 
			
@@ -162,20 +162,52 @@ for ch in valid_channels:
 
				 log()
			
 
				 
			
 
				 # ============================================================
			
 
				-# 四、汇总统计
			
 
				+# 四、渠道×二级品类效果
			
 
				+# ============================================================
			
 
				+log("=" * 80)
			
 
				+log("四、渠道×二级品类效果（Top 20）")
			
 
				+log("=" * 80)
			
 
				+log()
			
 
				+
			
 
				+# 按渠道和二级品类汇总
			
 
				+if 'merge二级品类' in df.columns:
			
 
				+    channel_cat2 = df.groupby(['channel', 'merge一级品类', 'merge二级品类']).apply(
			
 
				+        lambda x: pd.Series({
			
 
				+            '点击uv': x['点击uv'].sum(),
			
 
				+            '回流率': (x['再分享回流率'] * x['点击uv']).sum() / x['点击uv'].sum() if x['点击uv'].sum() > 0 else 0
			
 
				+        })
			
 
				+    ).reset_index()
			
 
				+
			
 
				+    # 过滤小样本，取回流率最高的
			
 
				+    cat2_filtered = channel_cat2[channel_cat2['点击uv'] >= 500].nlargest(20, '回流率')
			
 
				+
			
 
				+    header = f"{'渠道':<20} {'一级品类':<12} {'二级品类':<15} {'UV':>10} {'回流率':>8}"
			
 
				+    log(header)
			
 
				+    log("-" * 80)
			
 
				+
			
 
				+    for _, row in cat2_filtered.iterrows():
			
 
				+        cat1 = str(row['merge一级品类'])[:10] if pd.notna(row['merge一级品类']) else ''
			
 
				+        cat2 = str(row['merge二级品类'])[:12] if pd.notna(row['merge二级品类']) else ''
			
 
				+        log(f"{row['channel']:<20} {cat1:<12} {cat2:<15} {int(row['点击uv']):>10,} {row['回流率']:>8.1%}")
			
 
				+
			
 
				+    log()
			
 
				+
			
 
				+# ============================================================
			
 
				+# 五、汇总统计
			
 
				 # ============================================================
			
 
				 log("=" * 80)
			
 
				-log("四、汇总统计")
			
 
				+log("五、汇总统计")
			
 
				 log("=" * 80)
			
 
				 log()
			
 
				 
			
 
				 total_uv = df['点击uv'].sum()
			
 
				-total_recommend = df['进入推荐uv'].sum()
			
 
				 total_return = df['再分享回流uv'].sum()
			
 
				+avg_recommend = (df['进入推荐率'] * df['点击uv']).sum() / total_uv
			
 
				+avg_return = (df['再分享回流率'] * df['点击uv']).sum() / total_uv
			
 
				 
			
 
				 log(f"总点击UV: {int(total_uv):,}")
			
 
				-log(f"总进入推荐UV: {int(total_recommend):,} ({total_recommend/total_uv:.1%})")
			
 
				-log(f"总再分享回流UV: {int(total_return):,} ({total_return/total_uv:.1%})")
			
 
				+log(f"平均进入推荐率: {avg_recommend:.1%}")
			
 
				+log(f"平均再分享回流率: {avg_return:.1%}")
			
 
				 log(f"渠道数: {df['channel'].nunique()}")
			
 
				 log(f"品类数: {df['merge一级品类'].nunique()}")
			
 
				 log()
			
--- a/tasks/渠道效果分析/query.sql
+++ b/tasks/渠道效果分析/query.sql
@@ -4,19 +4,25 @@
 
				 SELECT  dt
			
 
				         ,channel
			
 
				         ,merge一级品类
			
 
				+        ,merge二级品类
			
 
				         ,COUNT(DISTINCT mid) AS 点击uv
			
 
				-        ,COUNT(DISTINCT CASE WHEN 是否进入推荐 = '1' THEN mid END) AS 进入推荐uv
			
 
				+        ,COUNT(DISTINCT CASE WHEN 是否进入推荐 = '1' THEN mid END) / COUNT(DISTINCT mid) AS 进入推荐率
			
 
				+        ,(SUM(CASE WHEN 再分享群聊回流uv > 0 THEN 再分享群聊回流uv ELSE 0 END)
			
 
				+          + SUM(CASE WHEN 再分享单聊回流uv > 0 THEN 再分享单聊回流uv ELSE 0 END)
			
 
				+         ) / (COUNT(DISTINCT mid) + 10) AS 再分享回流率
			
 
				+        ,(SUM(CASE WHEN 是否原视频 = '是' THEN 再分享群聊回流uv ELSE 0 END)
			
 
				+          + SUM(CASE WHEN 是否原视频 = '是' THEN 再分享单聊回流uv ELSE 0 END)
			
 
				+         ) / (COUNT(DISTINCT mid) + 10) AS 原视频再分享回流率
			
 
				+        ,(SUM(CASE WHEN 是否原视频 = '否' THEN 再分享群聊回流uv ELSE 0 END)
			
 
				+          + SUM(CASE WHEN 是否原视频 = '否' THEN 再分享单聊回流uv ELSE 0 END)
			
 
				+         ) / (COUNT(DISTINCT mid) + 10) AS 推荐再分享回流率
			
 
				         ,SUM(CASE WHEN 再分享群聊回流uv > 0 THEN 再分享群聊回流uv ELSE 0 END)
			
 
				          + SUM(CASE WHEN 再分享单聊回流uv > 0 THEN 再分享单聊回流uv ELSE 0 END) AS 再分享回流uv
			
 
				-        ,SUM(CASE WHEN 是否原视频 = '是' THEN 再分享群聊回流uv ELSE 0 END)
			
 
				-         + SUM(CASE WHEN 是否原视频 = '是' THEN 再分享单聊回流uv ELSE 0 END) AS 原视频回流uv
			
 
				-        ,SUM(CASE WHEN 是否原视频 = '否' THEN 再分享群聊回流uv ELSE 0 END)
			
 
				-         + SUM(CASE WHEN 是否原视频 = '否' THEN 再分享单聊回流uv ELSE 0 END) AS 推荐回流uv
			
 
				 FROM    loghubods.opengid_base_data
			
 
				 WHERE   dt >= ${start}
			
 
				 AND     dt <= ${end}
			
 
				 AND     usersharedepth = 0
			
 
				 AND     videoid IS NOT NULL
			
 
				-GROUP BY dt, channel, merge一级品类
			
 
				+GROUP BY dt, channel, merge一级品类, merge二级品类
			
 
				 ORDER BY dt, channel, 点击uv DESC
			
 
				 ;