5 месяцев назад · e68aa9b750
--- a/lib/text_embedding_api.py
+++ b/lib/text_embedding_api.py
@@ -0,0 +1,489 @@
 
				+#!/usr/bin/env python3
			
 
				+"""
			
 
				+文本相似度计算模块 - 基于远程API
			
 
				+使用远程GPU加速的相似度计算服务，接口与 text_embedding.py 兼容
			
 
				+
			
 
				+提供3种计算模式：
			
 
				+1. compare_phrases() - 单对计算
			
 
				+2. compare_phrases_batch() - 批量成对计算 (pair[i].text1 vs pair[i].text2)
			
 
				+3. compare_phrases_cartesian() - 笛卡尔积计算 (M×N矩阵)
			
 
				+"""
			
 
				+
			
 
				+from typing import Dict, Any, Optional, List, Tuple
			
 
				+import requests
			
 
				+import numpy as np
			
 
				+
			
 
				+# API配置
			
 
				+DEFAULT_API_BASE_URL = "http://61.48.133.26:8187"
			
 
				+DEFAULT_TIMEOUT = 60  # 秒
			
 
				+
			
 
				+# API客户端单例
			
 
				+_api_client = None
			
 
				+
			
 
				+
			
 
				+class SimilarityAPIClient:
			
 
				+    """文本相似度API客户端"""
			
 
				+
			
 
				+    def __init__(self, base_url: str = DEFAULT_API_BASE_URL, timeout: int = DEFAULT_TIMEOUT):
			
 
				+        self.base_url = base_url.rstrip('/')
			
 
				+        self.timeout = timeout
			
 
				+        self._session = requests.Session()  # 复用连接
			
 
				+        self._session.trust_env = False  # 禁用代理（内网API不需要代理）
			
 
				+
			
 
				+    def health_check(self) -> Dict:
			
 
				+        """健康检查"""
			
 
				+        response = self._session.get(f"{self.base_url}/health", timeout=10)
			
 
				+        response.raise_for_status()
			
 
				+        return response.json()
			
 
				+
			
 
				+    def list_models(self) -> Dict:
			
 
				+        """列出支持的模型"""
			
 
				+        response = self._session.get(f"{self.base_url}/models", timeout=10)
			
 
				+        response.raise_for_status()
			
 
				+        return response.json()
			
 
				+
			
 
				+    def similarity(
			
 
				+        self,
			
 
				+        text1: str,
			
 
				+        text2: str,
			
 
				+        model_name: Optional[str] = None
			
 
				+    ) -> Dict:
			
 
				+        """
			
 
				+        计算单个文本对的相似度
			
 
				+
			
 
				+        Args:
			
 
				+            text1: 第一个文本
			
 
				+            text2: 第二个文本
			
 
				+            model_name: 可选模型名称
			
 
				+
			
 
				+        Returns:
			
 
				+            {"text1": str, "text2": str, "score": float}
			
 
				+        """
			
 
				+        payload = {"text1": text1, "text2": text2}
			
 
				+        if model_name:
			
 
				+            payload["model_name"] = model_name
			
 
				+
			
 
				+        response = self._session.post(
			
 
				+            f"{self.base_url}/similarity",
			
 
				+            json=payload,
			
 
				+            timeout=self.timeout
			
 
				+        )
			
 
				+        response.raise_for_status()
			
 
				+        return response.json()
			
 
				+
			
 
				+    def batch_similarity(
			
 
				+        self,
			
 
				+        pairs: List[Dict],
			
 
				+        model_name: Optional[str] = None
			
 
				+    ) -> Dict:
			
 
				+        """
			
 
				+        批量计算成对相似度
			
 
				+
			
 
				+        Args:
			
 
				+            pairs: [{"text1": str, "text2": str}, ...]
			
 
				+            model_name: 可选模型名称
			
 
				+
			
 
				+        Returns:
			
 
				+            {"results": [{"text1": str, "text2": str, "score": float}, ...]}
			
 
				+        """
			
 
				+        payload = {"pairs": pairs}
			
 
				+        if model_name:
			
 
				+            payload["model_name"] = model_name
			
 
				+
			
 
				+        response = self._session.post(
			
 
				+            f"{self.base_url}/batch_similarity",
			
 
				+            json=payload,
			
 
				+            timeout=self.timeout
			
 
				+        )
			
 
				+        response.raise_for_status()
			
 
				+        return response.json()
			
 
				+
			
 
				+    def cartesian_similarity(
			
 
				+        self,
			
 
				+        texts1: List[str],
			
 
				+        texts2: List[str],
			
 
				+        model_name: Optional[str] = None
			
 
				+    ) -> Dict:
			
 
				+        """
			
 
				+        计算笛卡尔积相似度（M×N）
			
 
				+
			
 
				+        Args:
			
 
				+            texts1: 第一组文本列表 (M个)
			
 
				+            texts2: 第二组文本列表 (N个)
			
 
				+            model_name: 可选模型名称
			
 
				+
			
 
				+        Returns:
			
 
				+            {
			
 
				+                "results": [{"text1": str, "text2": str, "score": float}, ...],
			
 
				+                "total": int  # M×N
			
 
				+            }
			
 
				+        """
			
 
				+        payload = {
			
 
				+            "texts1": texts1,
			
 
				+            "texts2": texts2
			
 
				+        }
			
 
				+        if model_name:
			
 
				+            payload["model_name"] = model_name
			
 
				+
			
 
				+        response = self._session.post(
			
 
				+            f"{self.base_url}/cartesian_similarity",
			
 
				+            json=payload,
			
 
				+            timeout=self.timeout
			
 
				+        )
			
 
				+        response.raise_for_status()
			
 
				+        return response.json()
			
 
				+
			
 
				+
			
 
				+def _get_api_client() -> SimilarityAPIClient:
			
 
				+    """获取API客户端单例"""
			
 
				+    global _api_client
			
 
				+    if _api_client is None:
			
 
				+        _api_client = SimilarityAPIClient()
			
 
				+    return _api_client
			
 
				+
			
 
				+
			
 
				+def _format_result(score: float) -> Dict[str, Any]:
			
 
				+    """
			
 
				+    格式化相似度结果（兼容 text_embedding.py 格式）
			
 
				+
			
 
				+    Args:
			
 
				+        score: 相似度分数 (0-1)
			
 
				+
			
 
				+    Returns:
			
 
				+        {"说明": str, "相似度": float}
			
 
				+    """
			
 
				+    # 生成说明
			
 
				+    if score >= 0.9:
			
 
				+        level = "极高"
			
 
				+    elif score >= 0.7:
			
 
				+        level = "高"
			
 
				+    elif score >= 0.5:
			
 
				+        level = "中等"
			
 
				+    elif score >= 0.3:
			
 
				+        level = "较低"
			
 
				+    else:
			
 
				+        level = "低"
			
 
				+
			
 
				+    return {
			
 
				+        "说明": f"基于向量模型计算的语义相似度为 {level} ({score:.2f})",
			
 
				+        "相似度": score
			
 
				+    }
			
 
				+
			
 
				+
			
 
				+# ============================================================================
			
 
				+# 公开接口 - 3种计算模式
			
 
				+# ============================================================================
			
 
				+
			
 
				+def compare_phrases(
			
 
				+    phrase_a: str,
			
 
				+    phrase_b: str,
			
 
				+    model_name: Optional[str] = None
			
 
				+) -> Dict[str, Any]:
			
 
				+    """
			
 
				+    比较两个短语的语义相似度（单对计算）
			
 
				+
			
 
				+    Args:
			
 
				+        phrase_a: 第一个短语
			
 
				+        phrase_b: 第二个短语
			
 
				+        model_name: 模型名称（可选，默认使用API服务端默认模型）
			
 
				+
			
 
				+    Returns:
			
 
				+        {
			
 
				+            "说明": str,      # 相似度说明
			
 
				+            "相似度": float    # 0-1之间的相似度分数
			
 
				+        }
			
 
				+
			
 
				+    Examples:
			
 
				+        >>> result = compare_phrases("深度学习", "神经网络")
			
 
				+        >>> print(result['相似度'])  # 0.855
			
 
				+        >>> print(result['说明'])    # 基于向量模型计算的语义相似度为 高 (0.86)
			
 
				+    """
			
 
				+    try:
			
 
				+        client = _get_api_client()
			
 
				+        api_result = client.similarity(phrase_a, phrase_b, model_name)
			
 
				+        score = float(api_result["score"])
			
 
				+        return _format_result(score)
			
 
				+    except Exception as e:
			
 
				+        raise RuntimeError(f"API调用失败: {e}")
			
 
				+
			
 
				+
			
 
				+def compare_phrases_batch(
			
 
				+    phrase_pairs: List[Tuple[str, str]],
			
 
				+    model_name: Optional[str] = None
			
 
				+) -> List[Dict[str, Any]]:
			
 
				+    """
			
 
				+    批量比较多对短语的语义相似度（成对计算）
			
 
				+
			
 
				+    说明：pair[i].text1 vs pair[i].text2
			
 
				+    适用场景：有N对独立的文本需要分别计算相似度
			
 
				+
			
 
				+    Args:
			
 
				+        phrase_pairs: 短语对列表 [(phrase_a, phrase_b), ...]
			
 
				+        model_name: 模型名称（可选）
			
 
				+
			
 
				+    Returns:
			
 
				+        结果列表，每个元素格式：
			
 
				+        {
			
 
				+            "说明": str,
			
 
				+            "相似度": float
			
 
				+        }
			
 
				+
			
 
				+    Examples:
			
 
				+        >>> pairs = [
			
 
				+        ...     ("深度学习", "神经网络"),
			
 
				+        ...     ("机器学习", "人工智能"),
			
 
				+        ...     ("Python编程", "Python开发")
			
 
				+        ... ]
			
 
				+        >>> results = compare_phrases_batch(pairs)
			
 
				+        >>> for (a, b), result in zip(pairs, results):
			
 
				+        ...     print(f"{a} vs {b}: {result['相似度']:.4f}")
			
 
				+
			
 
				+    性能：
			
 
				+        - 3对文本：~50ms（vs 逐对调用 ~150ms）
			
 
				+        - 100对文本：~200ms（vs 逐对调用 ~5s）
			
 
				+    """
			
 
				+    if not phrase_pairs:
			
 
				+        return []
			
 
				+
			
 
				+    try:
			
 
				+        # 转换为API格式
			
 
				+        api_pairs = [{"text1": a, "text2": b} for a, b in phrase_pairs]
			
 
				+
			
 
				+        # 调用API批量计算
			
 
				+        client = _get_api_client()
			
 
				+        api_response = client.batch_similarity(api_pairs, model_name)
			
 
				+        api_results = api_response["results"]
			
 
				+
			
 
				+        # 格式化结果
			
 
				+        results = []
			
 
				+        for api_result in api_results:
			
 
				+            score = float(api_result["score"])
			
 
				+            results.append(_format_result(score))
			
 
				+
			
 
				+        return results
			
 
				+
			
 
				+    except Exception as e:
			
 
				+        raise RuntimeError(f"API批量调用失败: {e}")
			
 
				+
			
 
				+
			
 
				+def compare_phrases_cartesian(
			
 
				+    phrases_a: List[str],
			
 
				+    phrases_b: List[str],
			
 
				+    batch_size: int = 450
			
 
				+) -> List[List[Dict[str, Any]]]:
			
 
				+    """
			
 
				+    计算笛卡尔积相似度（M×N矩阵）
			
 
				+
			
 
				+    说明：计算 phrases_a 中每个短语与 phrases_b 中每个短语的相似度
			
 
				+    适用场景：需要计算两组文本之间所有可能的组合
			
 
				+
			
 
				+    Args:
			
 
				+        phrases_a: 第一组短语列表 (M个)
			
 
				+        phrases_b: 第二组短语列表 (N个)
			
 
				+        batch_size: 每批处理的最大数量（API限制500，默认450留余量）
			
 
				+
			
 
				+    Returns:
			
 
				+        M×N的结果矩阵（嵌套列表）
			
 
				+        results[i][j] = {
			
 
				+            "相似度": float,  # phrases_a[i] vs phrases_b[j]
			
 
				+            "说明": str
			
 
				+        }
			
 
				+
			
 
				+    Examples:
			
 
				+        >>> phrases_a = ["深度学习", "机器学习"]
			
 
				+        >>> phrases_b = ["神经网络", "人工智能", "Python"]
			
 
				+
			
 
				+        >>> results = compare_phrases_cartesian(phrases_a, phrases_b)
			
 
				+        >>> print(results[0][0]['相似度'])  # 深度学习 vs 神经网络
			
 
				+        >>> print(results[1][2]['说明'])    # 机器学习 vs Python 的说明
			
 
				+
			
 
				+    性能：
			
 
				+        - 2×3=6个组合：~50ms
			
 
				+        - 10×100=1000个组合：~500ms
			
 
				+        - 比逐对调用快 50-200x
			
 
				+    """
			
 
				+    if not phrases_a or not phrases_b:
			
 
				+        return [[]]
			
 
				+
			
 
				+    M = len(phrases_a)
			
 
				+    N = len(phrases_b)
			
 
				+
			
 
				+    try:
			
 
				+        client = _get_api_client()
			
 
				+
			
 
				+        # 初始化结果矩阵
			
 
				+        results = [[None for _ in range(N)] for _ in range(M)]
			
 
				+
			
 
				+        # 如果 phrases_b 超过 batch_size，分批处理
			
 
				+        if N <= batch_size:
			
 
				+            # 不需要分批，直接调用
			
 
				+            api_response = client.cartesian_similarity(phrases_a, phrases_b, model_name=None)
			
 
				+            api_results = api_response["results"]
			
 
				+
			
 
				+            for idx, api_result in enumerate(api_results):
			
 
				+                i = idx // N
			
 
				+                j = idx % N
			
 
				+                score = float(api_result["score"])
			
 
				+                results[i][j] = _format_result(score)
			
 
				+        else:
			
 
				+            # 需要分批处理 phrases_b
			
 
				+            for batch_start in range(0, N, batch_size):
			
 
				+                batch_end = min(batch_start + batch_size, N)
			
 
				+                batch_b = phrases_b[batch_start:batch_end]
			
 
				+                batch_n = len(batch_b)
			
 
				+
			
 
				+                api_response = client.cartesian_similarity(phrases_a, batch_b, model_name=None)
			
 
				+                api_results = api_response["results"]
			
 
				+
			
 
				+                for idx, api_result in enumerate(api_results):
			
 
				+                    i = idx // batch_n
			
 
				+                    j = batch_start + (idx % batch_n)
			
 
				+                    score = float(api_result["score"])
			
 
				+                    results[i][j] = _format_result(score)
			
 
				+
			
 
				+        return results
			
 
				+
			
 
				+    except Exception as e:
			
 
				+        raise RuntimeError(f"API笛卡尔积调用失败: {e}")
			
 
				+
			
 
				+
			
 
				+# ============================================================================
			
 
				+# 工具函数
			
 
				+# ============================================================================
			
 
				+
			
 
				+def get_api_health() -> Dict:
			
 
				+    """
			
 
				+    获取API健康状态
			
 
				+
			
 
				+    Returns:
			
 
				+        {
			
 
				+            "status": "ok",
			
 
				+            "gpu_available": bool,
			
 
				+            "gpu_name": str,
			
 
				+            "model_loaded": bool,
			
 
				+            "max_batch_pairs": int,
			
 
				+            "max_cartesian_texts": int,
			
 
				+            ...
			
 
				+        }
			
 
				+    """
			
 
				+    client = _get_api_client()
			
 
				+    return client.health_check()
			
 
				+
			
 
				+
			
 
				+def get_supported_models() -> Dict:
			
 
				+    """
			
 
				+    获取API支持的模型列表
			
 
				+
			
 
				+    Returns:
			
 
				+        模型列表及详细信息
			
 
				+    """
			
 
				+    client = _get_api_client()
			
 
				+    return client.list_models()
			
 
				+
			
 
				+
			
 
				+# ============================================================================
			
 
				+# 测试代码
			
 
				+# ============================================================================
			
 
				+
			
 
				+if __name__ == "__main__":
			
 
				+    print("=" * 80)
			
 
				+    print(" text_embedding_api 模块测试")
			
 
				+    print("=" * 80)
			
 
				+
			
 
				+    # 测试1: 健康检查
			
 
				+    print("\n1. API健康检查")
			
 
				+    print("-" * 80)
			
 
				+    try:
			
 
				+        health = get_api_health()
			
 
				+        print(f"✅ API状态: {health['status']}")
			
 
				+        print(f"   GPU可用: {health['gpu_available']}")
			
 
				+        if health.get('gpu_name'):
			
 
				+            print(f"   GPU名称: {health['gpu_name']}")
			
 
				+        print(f"   模型已加载: {health['model_loaded']}")
			
 
				+        print(f"   最大批量对数: {health['max_batch_pairs']}")
			
 
				+        print(f"   最大笛卡尔积: {health['max_cartesian_texts']}")
			
 
				+    except Exception as e:
			
 
				+        print(f"❌ API连接失败: {e}")
			
 
				+        print("   请确保API服务正常运行")
			
 
				+        exit(1)
			
 
				+
			
 
				+    # 测试2: 单个相似度
			
 
				+    print("\n2. 单个相似度计算")
			
 
				+    print("-" * 80)
			
 
				+    result = compare_phrases("深度学习", "神经网络")
			
 
				+    print(f"深度学习 vs 神经网络")
			
 
				+    print(f"  相似度: {result['相似度']:.4f}")
			
 
				+    print(f"  说明: {result['说明']}")
			
 
				+
			
 
				+    # 测试3: 批量成对相似度
			
 
				+    print("\n3. 批量成对相似度计算")
			
 
				+    print("-" * 80)
			
 
				+    pairs = [
			
 
				+        ("深度学习", "神经网络"),
			
 
				+        ("机器学习", "人工智能"),
			
 
				+        ("Python编程", "Python开发")
			
 
				+    ]
			
 
				+    results = compare_phrases_batch(pairs)
			
 
				+    for (a, b), result in zip(pairs, results):
			
 
				+        print(f"{a} vs {b}: {result['相似度']:.4f}")
			
 
				+
			
 
				+    # 测试4: 笛卡尔积（嵌套列表）
			
 
				+    print("\n4. 笛卡尔积计算（嵌套列表格式）")
			
 
				+    print("-" * 80)
			
 
				+    phrases_a = ["深度学习", "机器学习"]
			
 
				+    phrases_b = ["神经网络", "人工智能", "Python"]
			
 
				+
			
 
				+    results = compare_phrases_cartesian(phrases_a, phrases_b)
			
 
				+    print(f"计算 {len(phrases_a)} × {len(phrases_b)} = {len(phrases_a) * len(phrases_b)} 个相似度")
			
 
				+
			
 
				+    for i, phrase_a in enumerate(phrases_a):
			
 
				+        print(f"\n{phrase_a}:")
			
 
				+        for j, phrase_b in enumerate(phrases_b):
			
 
				+            score = results[i][j]['相似度']
			
 
				+            print(f"  vs {phrase_b:15}: {score:.4f}")
			
 
				+
			
 
				+    # 测试5: 笛卡尔积（numpy矩阵）
			
 
				+    print("\n5. 笛卡尔积计算（numpy矩阵格式）")
			
 
				+    print("-" * 80)
			
 
				+    matrix = compare_phrases_cartesian(phrases_a, phrases_b, return_matrix=True)
			
 
				+    print(f"矩阵 shape: {matrix.shape}")
			
 
				+    print(f"\n相似度矩阵:")
			
 
				+    print(f"{'':15}", end="")
			
 
				+    for b in phrases_b:
			
 
				+        print(f"{b:15}", end="")
			
 
				+    print()
			
 
				+
			
 
				+    for i, a in enumerate(phrases_a):
			
 
				+        print(f"{a:15}", end="")
			
 
				+        for j in range(len(phrases_b)):
			
 
				+            print(f"{matrix[i][j]:15.4f}", end="")
			
 
				+        print()
			
 
				+
			
 
				+    # 测试6: 性能对比（可选）
			
 
				+    print("\n6. 性能测试（可选）")
			
 
				+    print("-" * 80)
			
 
				+    print("测试大规模笛卡尔积性能...")
			
 
				+
			
 
				+    import time
			
 
				+
			
 
				+    test_a = ["测试文本A" + str(i) for i in range(10)]
			
 
				+    test_b = ["测试文本B" + str(i) for i in range(50)]
			
 
				+
			
 
				+    print(f"计算 {len(test_a)} × {len(test_b)} = {len(test_a) * len(test_b)} 个相似度")
			
 
				+
			
 
				+    start = time.time()
			
 
				+    matrix = compare_phrases_cartesian(test_a, test_b, return_matrix=True)
			
 
				+    elapsed = time.time() - start
			
 
				+
			
 
				+    print(f"耗时: {elapsed*1000:.2f}ms")
			
 
				+    print(f"QPS: {matrix.size / elapsed:.2f}")
			
 
				+
			
 
				+    print("\n" + "=" * 80)
			
 
				+    print(" ✅ 所有测试通过！")
			
 
				+    print("=" * 80)
			
 
				+
			
 
				+    print("\n📝 接口总结：")
			
 
				+    print("  1. compare_phrases(a, b) - 单对计算")
			
 
				+    print("  2. compare_phrases_batch([(a,b),...]) - 批量成对")
			
 
				+    print("  3. compare_phrases_cartesian([a1,a2], [b1,b2,b3]) - 笛卡尔积")
			
 
				+    print("\n💡 提示：所有接口都不使用缓存，因为API已经足够快")
			
--- a/tables/loghubods/alg_vid_feature_basic_info.txt
+++ b/tables/loghubods/alg_vid_feature_basic_info.txt
@@ -0,0 +1,17 @@
 
				+表名: loghubods.alg_vid_feature_basic_info
			
 
				+注释: 推荐算法-labelmatch表
			
 
				+创建时间: 2024-06-11 16:50:40
			
 
				+最后修改: 2026-01-07 11:36:23
			
 
				+
			
 
				+============================================================
			
 
				+字段名                            类型              注释
			
 
				+============================================================
			
 
				+vid                            string          
			
 
				+feature                        json            
			
 
				+dt                             string          日期:20240105
			
 
				+hh                             string          小时:04
			
 
				+
			
 
				+分区字段:
			
 
				+------------------------------------------------------------
			
 
				+dt                             string          日期:20240105
			
 
				+hh                             string          小时:04
			
--- a/tables/loghubods/dwd_recsys_alg_exposure_base_20250108.txt
+++ b/tables/loghubods/dwd_recsys_alg_exposure_base_20250108.txt
@@ -0,0 +1,59 @@
 
				+表名: loghubods.dwd_recsys_alg_exposure_base_20250108
			
 
				+注释: 推荐算法-labelmatch表-20250108更新最新版
			
 
				+创建时间: 2025-01-08 17:30:53
			
 
				+最后修改: 2026-01-07 12:29:53
			
 
				+
			
 
				+============================================================
			
 
				+字段名                            类型              注释
			
 
				+============================================================
			
 
				+apptype                        string          
			
 
				+uid                            string          
			
 
				+mid                            string          
			
 
				+vid                            string          
			
 
				+sessionid                      string          
			
 
				+subsessionid                   string          
			
 
				+pagesource                     string          
			
 
				+page                           string          
			
 
				+recommendlogvo                 string          推荐算法的返回结果日志存在这个字段中
			
 
				+abcode                         string          推荐算法的ab分组:ab0
			
 
				+recommendpagetype              string          用于区分pagesource相同时某些场景的。三种回流头部；两种下滑-沉浸页下滑和feed下滑。
			
 
				+recomtraceid                   string          在后端调取推荐服务之前生成。前端降级会空；后端也可能为空。
			
 
				+headvideoid                    string          
			
 
				+rootsourceid                   string          区分touliu等流量，咨询产品。
			
 
				+hotsencetype                   string          
			
 
				+flowpool                       string          非流量池，是空字符串。没有null值。
			
 
				+level                          string          非流量池，是null。
			
 
				+clientip                       string          
			
 
				+machineinfo_brand              string          
			
 
				+machineinfo_model              string          
			
 
				+machineinfo_system             string          
			
 
				+machineinfo_wechatversion      string          
			
 
				+machineinfo_sdkversion         string          
			
 
				+province                       string          
			
 
				+city                           string          
			
 
				+ts                             string          
			
 
				+is_share                       string          
			
 
				+share_cnt                      string          
			
 
				+is_return_1                    string          
			
 
				+return_1_pv                    string          
			
 
				+return_1_uv                    string          
			
 
				+return_1_mids                  string          
			
 
				+is_return_n                    string          
			
 
				+return_n_pv                    string          
			
 
				+return_n_uv                    string          
			
 
				+return_n_mids                  string          
			
 
				+is_return_noself               string          
			
 
				+return_1_uv_noself             string          
			
 
				+return_1_mids_noself           string          
			
 
				+is_return_n_noself             string          
			
 
				+return_n_uv_noself             string          
			
 
				+return_n_mids_noself           string          
			
 
				+new_exposure_cnt               string          
			
 
				+extend                         string          
			
 
				+dt                             string          日期:20240105
			
 
				+hh                             string          小时:04
			
 
				+
			
 
				+分区字段:
			
 
				+------------------------------------------------------------
			
 
				+dt                             string          日期:20240105
			
 
				+hh                             string          小时:04
			
--- a/tables/loghubods/dwd_recsys_alg_sample_all_20250212.txt
+++ b/tables/loghubods/dwd_recsys_alg_sample_all_20250212.txt
@@ -0,0 +1,90 @@
 
				+表名: loghubods.dwd_recsys_alg_sample_all_20250212
			
 
				+注释: 推荐全量样本表[20250212版]
			
 
				+创建时间: 2025-02-18 14:10:50
			
 
				+最后修改: 2026-01-06 14:39:32
			
 
				+
			
 
				+============================================================
			
 
				+字段名                            类型              注释
			
 
				+============================================================
			
 
				+apptype                        string          
			
 
				+uid                            string          
			
 
				+mid                            string          
			
 
				+vid                            string          
			
 
				+sessionid                      string          
			
 
				+subsessionid                   string          
			
 
				+pagesource                     string          
			
 
				+page                           string          
			
 
				+recommendlogvo                 string          
			
 
				+abcode                         string          
			
 
				+recommendpagetype              string          
			
 
				+recomtraceid                   string          
			
 
				+headvideoid                    string          
			
 
				+rootsourceid                   string          
			
 
				+hotsencetype                   string          
			
 
				+flowpool                       string          
			
 
				+level                          string          
			
 
				+clientip                       string          
			
 
				+brand                          string          
			
 
				+model                          string          
			
 
				+system                         string          
			
 
				+wechatversion                  string          
			
 
				+sdkversion                     string          
			
 
				+province                       string          
			
 
				+city                           string          
			
 
				+ts                             string          
			
 
				+is_share                       string          
			
 
				+share_cnt                      string          
			
 
				+is_return_1                    string          
			
 
				+return_1_pv                    string          
			
 
				+return_1_uv                    string          
			
 
				+return_1_mids                  string          
			
 
				+is_return_n                    string          
			
 
				+return_n_pv                    string          
			
 
				+return_n_uv                    string          
			
 
				+return_n_mids                  string          
			
 
				+is_return_noself               string          
			
 
				+return_1_uv_noself             string          
			
 
				+return_1_mids_noself           string          
			
 
				+is_return_n_noself             string          
			
 
				+return_n_uv_noself             string          
			
 
				+return_n_mids_noself           string          
			
 
				+new_exposure_cnt               string          
			
 
				+extend                         string          
			
 
				+score                          string          
			
 
				+extend_alg                     string          
			
 
				+allfeaturemap                  string          
			
 
				+metafeaturemap                 string          
			
 
				+v1_feature                     string          待排序视频基础信息
			
 
				+v2_feature                     string          头部视频基础信息
			
 
				+b1_feature                     string          
			
 
				+b2_feature                     string          
			
 
				+b3_feature                     string          
			
 
				+b4_feature                     string          
			
 
				+b5_feature                     string          
			
 
				+b6_feature                     string          
			
 
				+b7_feature                     string          
			
 
				+b8_feature                     string          
			
 
				+b9_feature                     string          
			
 
				+b10_feature                    string          
			
 
				+b11_feature                    string          
			
 
				+b12_feature                    string          
			
 
				+b13_feature                    string          
			
 
				+c1_feature                     string          
			
 
				+c2_feature                     string          
			
 
				+c3_feature                     string          
			
 
				+c4_feature                     string          
			
 
				+c5_feature                     string          
			
 
				+c6_feature                     string          
			
 
				+c7_feature                     string          
			
 
				+c8_feature                     string          
			
 
				+c9_feature                     string          
			
 
				+d1_feature                     string          
			
 
				+d2_feature                     string          
			
 
				+d3_feature                     string          
			
 
				+dt                             string          天
			
 
				+hh                             string          小时
			
 
				+
			
 
				+分区字段:
			
 
				+------------------------------------------------------------
			
 
				+dt                             string          天
			
 
				+hh                             string          小时
			
--- a/tables/loghubods/video_dimension_detail_add_column.txt
+++ b/tables/loghubods/video_dimension_detail_add_column.txt
@@ -0,0 +1,268 @@
 
				+表名: loghubods.video_dimension_detail_add_column
			
 
				+注释: 视频分析详情表_新增字段
			
 
				+创建时间: 2024-10-22 20:31:05
			
 
				+最后修改: 2026-01-06 11:47:47
			
 
				+
			
 
				+============================================================
			
 
				+字段名                            类型              注释
			
 
				+============================================================
			
 
				+数据时间                           bigint          
			
 
				+上传时间                           bigint          
			
 
				+视频id                           bigint          
			
 
				+是否当日新推荐                        bigint          
			
 
				+历史入流量池次数                       bigint          
			
 
				+创建天数间隔                         bigint          
			
 
				+是否七日内创建                        bigint          
			
 
				+视频地址                           string          
			
 
				+grafana链接                      string          
			
 
				+站内uid                          bigint          
			
 
				+发布者昵称                          string          
			
 
				+owner                          string          
			
 
				+标题                             string          
			
 
				+一级品类                           string          
			
 
				+映射一级品类                         string          
			
 
				+二级品类                           string          
			
 
				+热点品类                           string          
			
 
				+类型                             string          
			
 
				+上传渠道                           string          
			
 
				+推荐状态                           string          
			
 
				+首次审核类型                         string          
			
 
				+审核人                            string          
			
 
				+首次审核时间                         datetime        
			
 
				+首次审核日期                         bigint          
			
 
				+首次机审审核状态                       string          
			
 
				+首次机审不通过原因                      string          
			
 
				+首次机审推荐状态                       string          
			
 
				+首次机审不推荐原因                      string          
			
 
				+7日策略入池次数                       bigint          
			
 
				+7日rov入池次数                      bigint          
			
 
				+7日vov入池次数                      bigint          
			
 
				+7日低曝光高ros入池次数                  bigint          
			
 
				+7日手动入池次数                       bigint          
			
 
				+7日内最近一次非自动送入时间                 datetime        
			
 
				+最近一次非自动送入类型                    string          
			
 
				+送入人                            string          
			
 
				+抓取平台                           string          
			
 
				+抓取目标                           string          
			
 
				+视频时长                           bigint          
			
 
				+首发videoid                      bigint          
			
 
				+首发uid                          bigint          
			
 
				+首发时间                           datetime        
			
 
				+首发日期                           bigint          
			
 
				+首发播放量                          bigint          
			
 
				+首发来源                           string          
			
 
				+首发渠道                           string          
			
 
				+是否首发视频                         bigint          
			
 
				+是否首发来源                         bigint          
			
 
				+是否首发渠道                         bigint          
			
 
				+首发距今时间                         bigint          
			
 
				+当日分发曝光pv                       bigint          
			
 
				+当日曝光收益                         bigint          
			
 
				+当日分发分享pv                       bigint          
			
 
				+当日分发回流uv                       bigint          
			
 
				+当日分发拉回曝光pv                     bigint          
			
 
				+vov_t0                         double          
			
 
				+rov_t0                         double          
			
 
				+vor_t0                         double          
			
 
				+str_t0                         double          
			
 
				+ros_t0                         double          
			
 
				+当日推荐当日分发曝光pv                   bigint          
			
 
				+当日推荐当日曝光收益                     bigint          
			
 
				+当日推荐当日分发分享pv                   bigint          
			
 
				+当日推荐当日分发回流uv                   bigint          
			
 
				+当日推荐当日分发拉回曝光pv                 bigint          
			
 
				+当日推荐vov_t0                     double          
			
 
				+当日推荐rov_t0                     double          
			
 
				+当日推荐vor_t0                     double          
			
 
				+当日推荐str_t0                     double          
			
 
				+当日推荐ros_t0                     double          
			
 
				+流量池曝光                          bigint          
			
 
				+流量池播放                          bigint          
			
 
				+流量池分享                          bigint          
			
 
				+流量池回流                          bigint          
			
 
				+流量池str                         double          
			
 
				+流量池ros                         double          
			
 
				+流量池rov                         double          
			
 
				+推荐曝光                           bigint          
			
 
				+推荐播放                           bigint          
			
 
				+推荐分享                           bigint          
			
 
				+推荐回流                           bigint          
			
 
				+推荐str                          double          
			
 
				+推荐ros                          double          
			
 
				+推荐rov                          double          
			
 
				+0_1日分发曝光pv                     bigint          
			
 
				+0_1当日分发分享pv                    bigint          
			
 
				+0_1日分发回流uv                     bigint          
			
 
				+0_1日分发拉回曝光pv                   bigint          
			
 
				+vov_t0_1                       double          
			
 
				+rov_t0_1                       double          
			
 
				+vor_t0_1                       double          
			
 
				+str_t0_1                       double          
			
 
				+ros_t0_1                       double          
			
 
				+0_2日分发曝光pv                     bigint          
			
 
				+0_2当日分发分享pv                    bigint          
			
 
				+0_2日分发回流uv                     bigint          
			
 
				+0_2日分发拉回曝光pv                   bigint          
			
 
				+vov_t0_2                       double          
			
 
				+rov_t0_2                       double          
			
 
				+vor_t0_2                       double          
			
 
				+str_t0_2                       double          
			
 
				+ros_t0_2                       double          
			
 
				+0_3日分发曝光pv                     bigint          
			
 
				+0_3当日分发分享pv                    bigint          
			
 
				+0_3日分发回流uv                     bigint          
			
 
				+0_3日分发拉回曝光pv                   bigint          
			
 
				+vov_t0_3                       double          
			
 
				+rov_t0_3                       double          
			
 
				+vor_t0_3                       double          
			
 
				+str_t0_3                       double          
			
 
				+ros_t0_3                       double          
			
 
				+过去7日总发布量                       bigint          
			
 
				+过去7日总推荐量                       bigint          
			
 
				+姓名                             string          
			
 
				+出生年份                           bigint          
			
 
				+身份证号码                          bigint          
			
 
				+性别                             string          
			
 
				+测试品类                           string          
			
 
				+title_duration                 string          
			
 
				+最近复推日期                         string          
			
 
				+rov入池距当前天数                     bigint          
			
 
				+vov入池距当前天数                     bigint          
			
 
				+低曝光高ros入池距当前天数                 bigint          
			
 
				+手动入池距当前天数                      bigint          
			
 
				+人打二级标签复用                       string          
			
 
				+1日分发回流uv                       bigint          
			
 
				+1日分发拉回曝光pv                     bigint          
			
 
				+2日分发回流uv                       bigint          
			
 
				+2日分发拉回曝光pv                     bigint          
			
 
				+3日分发回流uv                       bigint          
			
 
				+3日分发拉回曝光pv                     bigint          
			
 
				+7日分发回流uv                       bigint          
			
 
				+7日分发拉回曝光pv                     bigint          
			
 
				+14日分发回流uv                      bigint          
			
 
				+14日分发拉回曝光pv                    bigint          
			
 
				+30日分发回流uv                      bigint          
			
 
				+30日分发拉回曝光pv                    bigint          
			
 
				+0_7日分发回流uv                     bigint          
			
 
				+0_7日分发拉回曝光pv                   bigint          
			
 
				+0_14日分发回流uv                    bigint          
			
 
				+0_14日分发拉回曝光pv                  bigint          
			
 
				+0_30日分发回流uv                    bigint          
			
 
				+0_30日分发拉回曝光pv                  bigint          
			
 
				+ai标签集合                         string          
			
 
				+ai标签top1                       string          
			
 
				+ai标签top2                       string          
			
 
				+ai标签top3                       string          
			
 
				+首次推荐时间                         bigint          
			
 
				+最近复推时间                         bigint          
			
 
				+推荐天数间隔                         bigint          
			
 
				+复推天数间隔                         bigint          
			
 
				+人工及ai标签复用二级品类                  string          
			
 
				+人工及ai标签映射一级品类                  string          
			
 
				+人工及复用二级品类                      string          
			
 
				+merge二级品类                      string          
			
 
				+merge一级品类                      string          
			
 
				+在top50                         string          
			
 
				+在top200                        string          
			
 
				+回流rank                         string          
			
 
				+入池人                            string          
			
 
				+人工入池层数                         bigint          
			
 
				+人工入池距今天数                       bigint          
			
 
				+入池策略                           string          
			
 
				+策略入池层数                         bigint          
			
 
				+策略入池距今天数                       bigint          
			
 
				+首次人审审核状态                       string          
			
 
				+首次人审不通过原因                      string          
			
 
				+首次人审推荐状态                       string          
			
 
				+策略                             string          
			
 
				+策略标签距今天数                       bigint          
			
 
				+实验角色                           string          
			
 
				+实验角色标签距今天数                     bigint          
			
 
				+实验层                            string          
			
 
				+实验层标签距今天数                      bigint          
			
 
				+分辨率                            string          分辨率
			
 
				+分辨率比值                          string          分辨率比值
			
 
				+视觉音乐文字                         string          视觉音乐文字
			
 
				+内容选题                           string          内容选题
			
 
				+视频主题                           string          视频主题
			
 
				+视频关键词                          string          视频关键词
			
 
				+视频主体                           string          视频主体
			
 
				+视频场景                           string          视频场景
			
 
				+情感倾向                           string          情感倾向
			
 
				+视频风格                           string          视频风格
			
 
				+是否有片尾引导                        string          是否有片尾引导
			
 
				+引导时长                           string          引导时长
			
 
				+引导强度                           string          引导强度
			
 
				+传播性判断                          string          传播性判断
			
 
				+推测观众地域                         string          推测观众地域
			
 
				+推测观众年龄段                        string          推测观众年龄段
			
 
				+推测观众性别                         string          推测观众性别
			
 
				+推测观众价值类型                       string          推测观众价值类型
			
 
				+推测观众用户价值点                      string          推测观众用户价值点
			
 
				+推测观众用观众收入                      string          推测观众用观众收入
			
 
				+背景音类型                          string          背景音类型
			
 
				+背景音风格                          string          背景音风格
			
 
				+语音类型                           string          语音类型
			
 
				+歌曲名                            string          歌曲名
			
 
				+音色                             string          音色
			
 
				+产品水印                           string          产品水印
			
 
				+产品名称                           string          产品名称
			
 
				+字幕                             string          字幕
			
 
				+颜色                             string          颜色
			
 
				+字号                             string          字号
			
 
				+位置                             string          位置
			
 
				+视频口播                           string          视频口播
			
 
				+封面主体                           string          封面主体
			
 
				+人物个数                           string          人物个数
			
 
				+文字数量                           string          文字数量
			
 
				+文字关键字                          string          文字关键字
			
 
				+封面主题                           string          封面主题
			
 
				+知名人物                           string          知名人物
			
 
				+人物年龄段                          string          人物年龄段
			
 
				+场景描述                           string          场景描述
			
 
				+时效性_有无时效                       string          时效性_有无时效
			
 
				+时效性_具体时间                       string          时效性_具体时间
			
 
				+1007回流人数                       bigint          
			
 
				+1008回流人数                       bigint          
			
 
				+带来1007回流的分享数                   bigint          
			
 
				+带来1008回流的分享数                   bigint          
			
 
				+1007进入分发曝光pv                   bigint          
			
 
				+1008进入分发曝光pv                   bigint          
			
 
				+1007回流再分享pv                    bigint          
			
 
				+1008回流再分享pv                    bigint          
			
 
				+总分享pv                          bigint          
			
 
				+总回流uv                          bigint          
			
 
				+有回流分享pv                        bigint          
			
 
				+累计分享回流uv                       bigint          
			
 
				+分发分享pv                         bigint          
			
 
				+头部分享pv                         bigint          
			
 
				+当日分发头部分享pv                     bigint          
			
 
				+当日分享当日回流uv                     bigint          
			
 
				+当日分享当日回流首层uv                   bigint          
			
 
				+当日分享当日回流非首层uv                  bigint          
			
 
				+非当日分享回流uv                      bigint          
			
 
				+n当日分发回流uv                      bigint          
			
 
				+非当日分发回流uv                      bigint          
			
 
				+原视频id                          bigint          原视频ID
			
 
				+是否存在热点                         string          是否存在热点信息
			
 
				+该热点的特征                         string          热点的特征描述
			
 
				+热点内容概括                         string          热点内容的概括
			
 
				+判断是热点的原因                       string          判断为热点的原因
			
 
				+曝光rank                         bigint          
			
 
				+拉回曝光rank                       bigint          
			
 
				+流量池1007回流人数                    bigint          
			
 
				+流量池1008回流人数                    bigint          
			
 
				+带来流量池1007回流的分享数                bigint          
			
 
				+带来流量池1008回流的分享数                bigint          
			
 
				+首发账号名                          string          
			
 
				+首发owner                        string          
			
 
				+流量池回流人数                        bigint          
			
 
				+带来流量池回流的分享数                    bigint          
			
 
				+aidit详情                        string          
			
 
				+项目名称                           string          
			
 
				+rank                           bigint          
			
 
				+dt                             string          
			
 
				+
			
 
				+分区字段:
			
 
				+------------------------------------------------------------
			
 
				+dt                             string          
			
--- a/tasks/人群品类曝光分析/头部品类分析_简化版/analyze_category_correlation.py
+++ b/tasks/人群品类曝光分析/头部品类分析_简化版/analyze_category_correlation.py
@@ -0,0 +1,288 @@
 
				+#!/usr/bin/env python
			
 
				+# coding=utf-8
			
 
				+"""
			
 
				+品类承接裂变率分析
			
 
				+分析目标:
			
 
				+1. 进入/承接品类一致时，承接裂变率(vov)是否更高
			
 
				+2. 不同品类组合间的承接裂变率是否存在稳定的相关性
			
 
				+"""
			
 
				+import pandas as pd
			
 
				+import numpy as np
			
 
				+from pathlib import Path
			
 
				+from scipy import stats
			
 
				+import matplotlib.pyplot as plt
			
 
				+import matplotlib
			
 
				+matplotlib.rcParams['font.sans-serif'] = ['Arial Unicode MS', 'SimHei', 'PingFang SC']
			
 
				+matplotlib.rcParams['axes.unicode_minus'] = False
			
 
				+
			
 
				+# ========== 数据加载 ==========
			
 
				+task_dir = Path(__file__).parent
			
 
				+output_dir = task_dir / "output"
			
 
				+
			
 
				+csv_files = [f for f in output_dir.glob("query_*.csv") if not f.name.endswith('.html')]
			
 
				+if not csv_files:
			
 
				+    print("没有找到数据文件，请先运行 query.sql")
			
 
				+    exit(1)
			
 
				+
			
 
				+latest_file = max(csv_files, key=lambda x: x.stat().st_mtime)
			
 
				+df = pd.read_csv(latest_file)
			
 
				+
			
 
				+print("=" * 60)
			
 
				+print("品类承接裂变率分析")
			
 
				+print("=" * 60)
			
 
				+print(f"数据文件: {latest_file.name}")
			
 
				+print(f"时间范围: {df['dt'].min()} ~ {df['dt'].max()}")
			
 
				+print(f"记录数: {len(df)}")
			
 
				+print()
			
 
				+
			
 
				+# 过滤掉 headvideoid为空 的记录（无法判断进入品类）
			
 
				+df_valid = df[~df['head_cate2'].isin(['headvideoid为空', '未匹配品类'])].copy()
			
 
				+print(f"有效记录数(排除headvideoid为空/未匹配): {len(df_valid)}")
			
 
				+
			
 
				+# ========== 分析1: 品类一致性分析 ==========
			
 
				+print("\n" + "=" * 60)
			
 
				+print("分析1: 进入/承接品类一致性 vs 承接裂变率(vov)")
			
 
				+print("=" * 60)
			
 
				+
			
 
				+# 标记是否为同品类
			
 
				+df_valid['is_same_cate'] = df_valid['head_cate2'] == df_valid['rec_cate2']
			
 
				+
			
 
				+# 按人群分组分析
			
 
				+for crowd in ['内部', '外部0层', '外部裂变']:
			
 
				+    crowd_df = df_valid[df_valid['crowd'] == crowd]
			
 
				+    if len(crowd_df) == 0:
			
 
				+        continue
			
 
				+
			
 
				+    # 同品类 vs 跨品类
			
 
				+    same_cate = crowd_df[crowd_df['is_same_cate']]
			
 
				+    diff_cate = crowd_df[~crowd_df['is_same_cate']]
			
 
				+
			
 
				+    # 加权平均 vov (按曝光量加权)
			
 
				+    same_vov = (same_cate['new_exposure_cnt'].sum() / same_cate['exp'].sum()) if same_cate['exp'].sum() > 0 else 0
			
 
				+    diff_vov = (diff_cate['new_exposure_cnt'].sum() / diff_cate['exp'].sum()) if diff_cate['exp'].sum() > 0 else 0
			
 
				+
			
 
				+    print(f"\n【{crowd}】")
			
 
				+    print(f"  同品类承接: 曝光 {same_cate['exp'].sum():,.0f}, vov = {same_vov:.4f}")
			
 
				+    print(f"  跨品类承接: 曝光 {diff_cate['exp'].sum():,.0f}, vov = {diff_vov:.4f}")
			
 
				+    print(f"  同品类/跨品类 vov比值: {same_vov/diff_vov:.2f}x" if diff_vov > 0 else "  跨品类无数据")
			
 
				+
			
 
				+    # 统计检验: Mann-Whitney U检验 (非参数检验)
			
 
				+    if len(same_cate) >= 5 and len(diff_cate) >= 5:
			
 
				+        stat, pvalue = stats.mannwhitneyu(same_cate['vov'], diff_cate['vov'], alternative='greater')
			
 
				+        print(f"  Mann-Whitney U检验 (同品类vov > 跨品类vov): p-value = {pvalue:.4f}")
			
 
				+        print(f"  结论: {'显著' if pvalue < 0.05 else '不显著'} (α=0.05)")
			
 
				+
			
 
				+# 整体汇总
			
 
				+print("\n【整体汇总】")
			
 
				+same_all = df_valid[df_valid['is_same_cate']]
			
 
				+diff_all = df_valid[~df_valid['is_same_cate']]
			
 
				+same_vov_all = same_all['new_exposure_cnt'].sum() / same_all['exp'].sum()
			
 
				+diff_vov_all = diff_all['new_exposure_cnt'].sum() / diff_all['exp'].sum()
			
 
				+print(f"  同品类承接: 曝光 {same_all['exp'].sum():,.0f}, vov = {same_vov_all:.4f}")
			
 
				+print(f"  跨品类承接: 曝光 {diff_all['exp'].sum():,.0f}, vov = {diff_vov_all:.4f}")
			
 
				+print(f"  同品类/跨品类 vov比值: {same_vov_all/diff_vov_all:.2f}x")
			
 
				+
			
 
				+# ========== 分析2: 品类组合稳定性分析 ==========
			
 
				+print("\n" + "=" * 60)
			
 
				+print("分析2: 品类组合间的承接裂变率稳定性相关性")
			
 
				+print("=" * 60)
			
 
				+
			
 
				+# 2.1 跨日期稳定性: 同一品类组合在不同日期的vov相关性
			
 
				+print("\n【2.1 跨日期稳定性】")
			
 
				+print("分析同一品类组合在不同日期的vov是否稳定")
			
 
				+
			
 
				+dates = sorted(df_valid['dt'].unique())
			
 
				+if len(dates) >= 2:
			
 
				+    # 创建品类组合 pivot table
			
 
				+    df_valid['cate_pair'] = df_valid['head_cate2'] + ' → ' + df_valid['rec_cate2']
			
 
				+
			
 
				+    # 按日期和品类组合汇总
			
 
				+    daily_vov = df_valid.groupby(['dt', 'cate_pair']).apply(
			
 
				+        lambda x: x['new_exposure_cnt'].sum() / x['exp'].sum()
			
 
				+    ).unstack(level=0)
			
 
				+
			
 
				+    # 计算相邻日期间的相关性
			
 
				+    date_correlations = []
			
 
				+    for i in range(len(dates) - 1):
			
 
				+        d1, d2 = dates[i], dates[i+1]
			
 
				+        if d1 in daily_vov.columns and d2 in daily_vov.columns:
			
 
				+            valid_pairs = daily_vov[[d1, d2]].dropna()
			
 
				+            if len(valid_pairs) >= 10:
			
 
				+                corr, pval = stats.pearsonr(valid_pairs[d1], valid_pairs[d2])
			
 
				+                date_correlations.append({'date1': d1, 'date2': d2, 'corr': corr, 'pval': pval, 'n': len(valid_pairs)})
			
 
				+
			
 
				+    if date_correlations:
			
 
				+        corr_df = pd.DataFrame(date_correlations)
			
 
				+        print(f"  相邻日期vov相关性:")
			
 
				+        for _, row in corr_df.iterrows():
			
 
				+            print(f"    {row['date1']} vs {row['date2']}: r={row['corr']:.3f}, p={row['pval']:.4f}, n={row['n']}")
			
 
				+        print(f"  平均相关系数: {corr_df['corr'].mean():.3f}")
			
 
				+        print(f"  结论: 品类组合的vov在跨日期间{'高度稳定' if corr_df['corr'].mean() > 0.7 else '较为稳定' if corr_df['corr'].mean() > 0.5 else '不太稳定'}")
			
 
				+
			
 
				+# 2.2 跨人群稳定性: 同一品类组合在不同人群的vov相关性
			
 
				+print("\n【2.2 跨人群稳定性】")
			
 
				+print("分析同一品类组合在不同人群的vov排序是否一致")
			
 
				+
			
 
				+crowd_vov = df_valid.groupby(['crowd', 'cate_pair']).apply(
			
 
				+    lambda x: x['new_exposure_cnt'].sum() / x['exp'].sum()
			
 
				+).unstack(level=0)
			
 
				+
			
 
				+crowds = ['内部', '外部0层', '外部裂变']
			
 
				+crowd_pairs = [(crowds[i], crowds[j]) for i in range(len(crowds)) for j in range(i+1, len(crowds))]
			
 
				+
			
 
				+for c1, c2 in crowd_pairs:
			
 
				+    if c1 in crowd_vov.columns and c2 in crowd_vov.columns:
			
 
				+        valid = crowd_vov[[c1, c2]].dropna()
			
 
				+        if len(valid) >= 10:
			
 
				+            corr, pval = stats.pearsonr(valid[c1], valid[c2])
			
 
				+            spearman_corr, spearman_pval = stats.spearmanr(valid[c1], valid[c2])
			
 
				+            print(f"  {c1} vs {c2}:")
			
 
				+            print(f"    Pearson r = {corr:.3f} (p={pval:.4f})")
			
 
				+            print(f"    Spearman ρ = {spearman_corr:.3f} (p={spearman_pval:.4f})")
			
 
				+            print(f"    样本数: {len(valid)} 品类组合")
			
 
				+
			
 
				+# 2.3 高/低裂变品类组合识别
			
 
				+print("\n【2.3 稳定的高/低裂变品类组合】")
			
 
				+print("识别在所有人群中都表现稳定的品类组合")
			
 
				+
			
 
				+# 计算每个品类组合在所有人群的平均vov
			
 
				+overall_vov = df_valid.groupby('cate_pair').apply(
			
 
				+    lambda x: pd.Series({
			
 
				+        'vov': x['new_exposure_cnt'].sum() / x['exp'].sum(),
			
 
				+        'exp': x['exp'].sum(),
			
 
				+        'crowd_count': x['crowd'].nunique()
			
 
				+    })
			
 
				+)
			
 
				+
			
 
				+# 只看在多个人群都有数据的组合
			
 
				+stable_pairs = overall_vov[overall_vov['crowd_count'] >= 2].copy()
			
 
				+stable_pairs = stable_pairs.sort_values('vov', ascending=False)
			
 
				+
			
 
				+print(f"\n  Top 10 高裂变品类组合 (vov最高):")
			
 
				+for i, (pair, row) in enumerate(stable_pairs.head(10).iterrows(), 1):
			
 
				+    print(f"    {i}. {pair}: vov={row['vov']:.4f}, 曝光={row['exp']:,.0f}")
			
 
				+
			
 
				+print(f"\n  Top 10 低裂变品类组合 (vov最低):")
			
 
				+for i, (pair, row) in enumerate(stable_pairs.tail(10).iloc[::-1].iterrows(), 1):
			
 
				+    print(f"    {i}. {pair}: vov={row['vov']:.4f}, 曝光={row['exp']:,.0f}")
			
 
				+
			
 
				+# ========== 分析3: 品类亲和性矩阵 ==========
			
 
				+print("\n" + "=" * 60)
			
 
				+print("分析3: 品类亲和性矩阵 (进入品类 → 承接品类)")
			
 
				+print("=" * 60)
			
 
				+
			
 
				+# 计算每个head_cate2的基准vov
			
 
				+head_baseline = df_valid.groupby('head_cate2').apply(
			
 
				+    lambda x: x['new_exposure_cnt'].sum() / x['exp'].sum()
			
 
				+).to_dict()
			
 
				+
			
 
				+# 计算亲和性: 特定组合vov / 进入品类基准vov
			
 
				+affinity_data = []
			
 
				+for (head, rec), grp in df_valid.groupby(['head_cate2', 'rec_cate2']):
			
 
				+    if grp['exp'].sum() >= 10000:  # 只看曝光量足够的组合
			
 
				+        pair_vov = grp['new_exposure_cnt'].sum() / grp['exp'].sum()
			
 
				+        baseline = head_baseline.get(head, 1)
			
 
				+        affinity = pair_vov / baseline if baseline > 0 else 0
			
 
				+        affinity_data.append({
			
 
				+            'head_cate2': head,
			
 
				+            'rec_cate2': rec,
			
 
				+            'vov': pair_vov,
			
 
				+            'baseline_vov': baseline,
			
 
				+            'affinity': affinity,
			
 
				+            'exp': grp['exp'].sum()
			
 
				+        })
			
 
				+
			
 
				+affinity_df = pd.DataFrame(affinity_data)
			
 
				+
			
 
				+print("\n  高亲和组合 (affinity > 1.2, 即vov比基准高20%):")
			
 
				+high_affinity = affinity_df[affinity_df['affinity'] > 1.2].sort_values('affinity', ascending=False).head(15)
			
 
				+for _, row in high_affinity.iterrows():
			
 
				+    print(f"    {row['head_cate2']} → {row['rec_cate2']}: affinity={row['affinity']:.2f}, vov={row['vov']:.4f}")
			
 
				+
			
 
				+print("\n  低亲和组合 (affinity < 0.8, 即vov比基准低20%):")
			
 
				+low_affinity = affinity_df[affinity_df['affinity'] < 0.8].sort_values('affinity').head(15)
			
 
				+for _, row in low_affinity.iterrows():
			
 
				+    print(f"    {row['head_cate2']} → {row['rec_cate2']}: affinity={row['affinity']:.2f}, vov={row['vov']:.4f}")
			
 
				+
			
 
				+# ========== 可视化 ==========
			
 
				+print("\n" + "=" * 60)
			
 
				+print("生成可视化图表...")
			
 
				+print("=" * 60)
			
 
				+
			
 
				+fig, axes = plt.subplots(2, 2, figsize=(14, 12))
			
 
				+
			
 
				+# 图1: 同品类 vs 跨品类 vov对比
			
 
				+ax1 = axes[0, 0]
			
 
				+crowds = ['内部', '外部0层', '外部裂变']
			
 
				+same_vovs = []
			
 
				+diff_vovs = []
			
 
				+for crowd in crowds:
			
 
				+    crowd_df = df_valid[df_valid['crowd'] == crowd]
			
 
				+    same = crowd_df[crowd_df['is_same_cate']]
			
 
				+    diff = crowd_df[~crowd_df['is_same_cate']]
			
 
				+    same_vovs.append(same['new_exposure_cnt'].sum() / same['exp'].sum() if same['exp'].sum() > 0 else 0)
			
 
				+    diff_vovs.append(diff['new_exposure_cnt'].sum() / diff['exp'].sum() if diff['exp'].sum() > 0 else 0)
			
 
				+
			
 
				+x = np.arange(len(crowds))
			
 
				+width = 0.35
			
 
				+ax1.bar(x - width/2, same_vovs, width, label='同品类承接', color='#4CAF50')
			
 
				+ax1.bar(x + width/2, diff_vovs, width, label='跨品类承接', color='#2196F3')
			
 
				+ax1.set_ylabel('承接裂变率 (vov)')
			
 
				+ax1.set_title('同品类 vs 跨品类 承接裂变率对比')
			
 
				+ax1.set_xticks(x)
			
 
				+ax1.set_xticklabels(crowds)
			
 
				+ax1.legend()
			
 
				+ax1.grid(axis='y', alpha=0.3)
			
 
				+
			
 
				+# 图2: 品类组合vov分布
			
 
				+ax2 = axes[0, 1]
			
 
				+ax2.hist(stable_pairs['vov'], bins=30, edgecolor='black', alpha=0.7, color='#FF9800')
			
 
				+ax2.axvline(stable_pairs['vov'].median(), color='red', linestyle='--', label=f'中位数: {stable_pairs["vov"].median():.4f}')
			
 
				+ax2.axvline(stable_pairs['vov'].mean(), color='blue', linestyle='--', label=f'均值: {stable_pairs["vov"].mean():.4f}')
			
 
				+ax2.set_xlabel('承接裂变率 (vov)')
			
 
				+ax2.set_ylabel('品类组合数')
			
 
				+ax2.set_title('品类组合vov分布')
			
 
				+ax2.legend()
			
 
				+
			
 
				+# 图3: 跨人群vov相关性散点图 (内部 vs 外部0层)
			
 
				+ax3 = axes[1, 0]
			
 
				+if '内部' in crowd_vov.columns and '外部0层' in crowd_vov.columns:
			
 
				+    valid = crowd_vov[['内部', '外部0层']].dropna()
			
 
				+    ax3.scatter(valid['内部'], valid['外部0层'], alpha=0.5, s=30)
			
 
				+    # 添加对角线
			
 
				+    max_val = max(valid['内部'].max(), valid['外部0层'].max())
			
 
				+    ax3.plot([0, max_val], [0, max_val], 'r--', alpha=0.5, label='y=x')
			
 
				+    ax3.set_xlabel('内部 vov')
			
 
				+    ax3.set_ylabel('外部0层 vov')
			
 
				+    ax3.set_title('跨人群vov相关性 (内部 vs 外部0层)')
			
 
				+    corr, _ = stats.pearsonr(valid['内部'], valid['外部0层'])
			
 
				+    ax3.text(0.05, 0.95, f'r = {corr:.3f}', transform=ax3.transAxes, fontsize=12, verticalalignment='top')
			
 
				+    ax3.legend()
			
 
				+
			
 
				+# 图4: 亲和性分布
			
 
				+ax4 = axes[1, 1]
			
 
				+ax4.hist(affinity_df['affinity'], bins=30, edgecolor='black', alpha=0.7, color='#9C27B0')
			
 
				+ax4.axvline(1.0, color='red', linestyle='--', label='基准线 (affinity=1)')
			
 
				+ax4.set_xlabel('亲和性 (vov / 基准vov)')
			
 
				+ax4.set_ylabel('品类组合数')
			
 
				+ax4.set_title('品类亲和性分布')
			
 
				+ax4.legend()
			
 
				+
			
 
				+plt.tight_layout()
			
 
				+plt.savefig(output_dir / 'category_correlation_analysis.png', dpi=150, bbox_inches='tight')
			
 
				+print(f"图表已保存: {output_dir / 'category_correlation_analysis.png'}")
			
 
				+
			
 
				+# ========== 导出分析结果 ==========
			
 
				+print("\n导出分析结果...")
			
 
				+
			
 
				+# 导出品类组合vov排名
			
 
				+stable_pairs.to_csv(output_dir / 'category_pair_vov_ranking.csv')
			
 
				+print(f"品类组合vov排名: {output_dir / 'category_pair_vov_ranking.csv'}")
			
 
				+
			
 
				+# 导出亲和性矩阵
			
 
				+affinity_df.to_csv(output_dir / 'category_affinity_matrix.csv', index=False)
			
 
				+print(f"品类亲和性矩阵: {output_dir / 'category_affinity_matrix.csv'}")
			
 
				+
			
 
				+print("\n" + "=" * 60)
			
 
				+print("分析完成!")
			
 
				+print("=" * 60)
			
--- a/tasks/人群品类曝光分析/头部品类分析_简化版/query.sql
+++ b/tasks/人群品类曝光分析/头部品类分析_简化版/query.sql
@@ -0,0 +1,86 @@
 
				+-- 简化版：直接用 headvideoid 和 vid 关联品类表获取品类
			
 
				+-- 不需要 join 头部视频表
			
 
				+WITH t_rec AS (
			
 
				+    SELECT  dt
			
 
				+            ,mid
			
 
				+            ,subsessionid
			
 
				+            ,headvideoid
			
 
				+            ,vid AS rec_vid
			
 
				+            ,ts
			
 
				+            ,CASE WHEN rootsourceid = '' OR rootsourceid IS NULL THEN '内部' ELSE '外部' END AS in_out
			
 
				+            ,page
			
 
				+            ,CASE   WHEN page IN ("回流后沉浸页&内页feed","详情后沉浸页","首页feed","详情页") THEN "推荐"
			
 
				+                    WHEN page IN ("回流页","其他") THEN "非推荐"
			
 
				+                    ELSE "其他"
			
 
				+            END AS page_rec
			
 
				+            ,share_cnt
			
 
				+            ,return_n_uv
			
 
				+            ,new_exposure_cnt
			
 
				+            ,GET_JSON_OBJECT(extend,"$.extParams.userShareDepth") AS layer
			
 
				+    FROM    loghubods.dwd_recsys_alg_exposure_base_20250108
			
 
				+    WHERE   dt BETWEEN "${start}" AND "${end}"
			
 
				+    AND     apptype IN ('4','0')
			
 
				+    AND     page IN ("回流后沉浸页&内页feed","详情后沉浸页","首页feed","详情页","回流页","其他")
			
 
				+)
			
 
				+,t_vid_info AS (
			
 
				+    -- 视频品类信息表
			
 
				+    SELECT  vid
			
 
				+            ,COALESCE(GET_JSON_OBJECT(feature,"$.merge_second_level_cate"),"unknown") AS cate2
			
 
				+    FROM    (
			
 
				+                SELECT  vid
			
 
				+                        ,feature
			
 
				+                        ,ROW_NUMBER() OVER (PARTITION BY vid ORDER BY dt DESC, hh DESC) AS rn
			
 
				+                FROM    loghubods.alg_vid_feature_basic_info
			
 
				+                WHERE   CONCAT(dt,hh) BETWEEN CONCAT("${start}","00") AND CONCAT("${end}","23")
			
 
				+            )
			
 
				+    WHERE   rn = 1
			
 
				+)
			
 
				+,t_joined AS (
			
 
				+    SELECT  r.dt
			
 
				+            ,CASE   WHEN r.in_out = '内部' THEN '内部'
			
 
				+                    WHEN r.layer = '0' THEN '外部0层'
			
 
				+                    WHEN CAST(r.layer AS INT) > 0 THEN '外部裂变'
			
 
				+                    ELSE '其他'
			
 
				+            END AS crowd
			
 
				+            ,CASE   WHEN r.headvideoid IS NULL OR r.headvideoid = '' THEN 'headvideoid为空'
			
 
				+                    WHEN h.cate2 IS NULL THEN '未匹配品类'
			
 
				+                    ELSE h.cate2
			
 
				+            END AS head_cate2
			
 
				+            ,COALESCE(v.cate2, 'unknown') AS rec_cate2
			
 
				+            ,r.share_cnt
			
 
				+            ,r.return_n_uv
			
 
				+            ,r.new_exposure_cnt
			
 
				+    FROM    t_rec r
			
 
				+    LEFT JOIN t_vid_info h ON r.headvideoid = h.vid
			
 
				+    LEFT JOIN t_vid_info v ON r.rec_vid = v.vid
			
 
				+    WHERE   r.page_rec = '推荐'
			
 
				+)
			
 
				+,t_final AS (
			
 
				+    SELECT  dt
			
 
				+            ,crowd
			
 
				+            ,head_cate2
			
 
				+            ,rec_cate2
			
 
				+            ,SUM(1) AS exp
			
 
				+            ,SUM(share_cnt) AS share_cnt
			
 
				+            ,SUM(return_n_uv) AS return_n_uv
			
 
				+            ,SUM(new_exposure_cnt) AS new_exposure_cnt
			
 
				+    FROM    t_joined
			
 
				+    GROUP BY dt, crowd, head_cate2, rec_cate2
			
 
				+)
			
 
				+SELECT  dt
			
 
				+        ,crowd
			
 
				+        ,head_cate2
			
 
				+        ,rec_cate2
			
 
				+        ,exp
			
 
				+        ,share_cnt
			
 
				+        ,return_n_uv
			
 
				+        ,new_exposure_cnt
			
 
				+        ,round(COALESCE(share_cnt / exp, 0), 4) AS str
			
 
				+        ,round(COALESCE(return_n_uv / share_cnt, 0), 4) AS ros
			
 
				+        ,round(COALESCE(return_n_uv / exp, 0), 4) AS rovn
			
 
				+        ,round(COALESCE(new_exposure_cnt / exp, 0), 4) AS vov
			
 
				+FROM    t_final
			
 
				+WHERE   crowd <> '其他'
			
 
				+AND     exp >= 1000
			
 
				+ORDER BY dt DESC, crowd, exp DESC
			
 
				+;
			
--- a/tasks/人群品类曝光分析/头部品类分析_简化版/visualize.py
+++ b/tasks/人群品类曝光分析/头部品类分析_简化版/visualize.py
@@ -0,0 +1,874 @@
 
				+#!/usr/bin/env python
			
 
				+# coding=utf-8
			
 
				+"""
			
 
				+头部品类分析可视化
			
 
				+Tab 1: Matrix - 头部品类 × 推荐品类矩阵
			
 
				+Tab 2: Compare - Top 10 品类人群对比
			
 
				+"""
			
 
				+import pandas as pd
			
 
				+import json
			
 
				+from pathlib import Path
			
 
				+
			
 
				+task_dir = Path(__file__).parent
			
 
				+output_dir = task_dir / "output"
			
 
				+
			
 
				+# 找到最新的原始数据文件
			
 
				+csv_files = [f for f in output_dir.glob("query_*.csv")]
			
 
				+if not csv_files:
			
 
				+    print("没有找到数据文件，请先运行 query.sql")
			
 
				+    exit(1)
			
 
				+
			
 
				+latest_file = max(csv_files, key=lambda x: x.stat().st_mtime)
			
 
				+df = pd.read_csv(latest_file)
			
 
				+
			
 
				+print(f"分析文件: {latest_file.name}")
			
 
				+print(f"时间范围: {df['dt'].min()} ~ {df['dt'].max()}")
			
 
				+
			
 
				+# 日期列表
			
 
				+all_dates = sorted([str(d) for d in df['dt'].unique()])
			
 
				+date_options = ['all'] + all_dates
			
 
				+latest_date = all_dates[-1] if all_dates else 'all'
			
 
				+print(f"日期数: {len(all_dates)}")
			
 
				+
			
 
				+# 人群列表
			
 
				+crowd_list = ['内部', '外部0层', '外部裂变']
			
 
				+print(f"人群: {crowd_list}")
			
 
				+
			
 
				+# 曝光阈值
			
 
				+EXP_THRESHOLD = 1000
			
 
				+
			
 
				+# 计算人群×日期的矩阵数据
			
 
				+def calc_matrix_data(crowd, date=None):
			
 
				+    ch_df = df[df['crowd'] == crowd].copy()
			
 
				+    if date and date != 'all':
			
 
				+        ch_df = ch_df[ch_df['dt'].astype(str) == str(date)]
			
 
				+    if len(ch_df) == 0:
			
 
				+        return None
			
 
				+
			
 
				+    row_col = 'head_cate2'
			
 
				+    col_col = 'rec_cate2'
			
 
				+
			
 
				+    matrix = ch_df.groupby([row_col, col_col]).agg({
			
 
				+        'exp': 'sum',
			
 
				+        'share_cnt': 'sum',
			
 
				+        'return_n_uv': 'sum',
			
 
				+        'new_exposure_cnt': 'sum',
			
 
				+    }).reset_index()
			
 
				+
			
 
				+    matrix = matrix[matrix['exp'] >= EXP_THRESHOLD]
			
 
				+    if len(matrix) == 0:
			
 
				+        return None
			
 
				+
			
 
				+    matrix['str'] = matrix['share_cnt'] / (matrix['exp'] + 1)
			
 
				+    matrix['ros'] = matrix['return_n_uv'] / (matrix['share_cnt'] + 1)
			
 
				+    matrix['rovn'] = matrix['return_n_uv'] / (matrix['exp'] + 1)
			
 
				+    matrix['vov'] = matrix['new_exposure_cnt'] / (matrix['exp'] + 1)
			
 
				+
			
 
				+    exp_pivot = matrix.pivot(index=row_col, columns=col_col, values='exp').fillna(0)
			
 
				+    str_pivot = matrix.pivot(index=row_col, columns=col_col, values='str').fillna(0)
			
 
				+    ros_pivot = matrix.pivot(index=row_col, columns=col_col, values='ros').fillna(0)
			
 
				+    rovn_pivot = matrix.pivot(index=row_col, columns=col_col, values='rovn').fillna(0)
			
 
				+    vov_pivot = matrix.pivot(index=row_col, columns=col_col, values='vov').fillna(0)
			
 
				+
			
 
				+    row_order = exp_pivot.sum(axis=1).sort_values(ascending=False).index.tolist()
			
 
				+    col_order = exp_pivot.sum(axis=0).sort_values(ascending=False).index.tolist()
			
 
				+
			
 
				+    def to_dict(pivot, is_int=False):
			
 
				+        return {str(r): {str(c): int(pivot.loc[r, c]) if is_int else round(float(pivot.loc[r, c]), 4) if c in pivot.columns else 0 for c in col_order} for r in row_order}
			
 
				+
			
 
				+    total_exp = int(ch_df['exp'].sum())
			
 
				+    total_share = int(ch_df['share_cnt'].sum())
			
 
				+    total_return = int(ch_df['return_n_uv'].sum())
			
 
				+
			
 
				+    return {
			
 
				+        'rows': row_order,
			
 
				+        'cols': col_order,
			
 
				+        'exp': to_dict(exp_pivot, is_int=True),
			
 
				+        'str': to_dict(str_pivot),
			
 
				+        'ros': to_dict(ros_pivot),
			
 
				+        'rovn': to_dict(rovn_pivot),
			
 
				+        'vov': to_dict(vov_pivot),
			
 
				+        'total_exp': total_exp,
			
 
				+        'total_str': round(total_share / (total_exp + 1), 4),
			
 
				+        'total_rovn': round(total_return / (total_exp + 1), 4),
			
 
				+    }
			
 
				+
			
 
				+# 计算头部品类下钻数据：head_cate2 -> crowd -> rec_cate2
			
 
				+def calc_head_drill_data(date=None):
			
 
				+    ch_df = df.copy()
			
 
				+    if date and date != 'all':
			
 
				+        ch_df = ch_df[ch_df['dt'].astype(str) == str(date)]
			
 
				+    if len(ch_df) == 0:
			
 
				+        return None
			
 
				+
			
 
				+    # 按 head_cate2 + crowd + rec_cate2 聚合
			
 
				+    agg = ch_df.groupby(['head_cate2', 'crowd', 'rec_cate2']).agg({
			
 
				+        'exp': 'sum',
			
 
				+        'share_cnt': 'sum',
			
 
				+        'return_n_uv': 'sum',
			
 
				+        'new_exposure_cnt': 'sum',
			
 
				+    }).reset_index()
			
 
				+
			
 
				+    agg['str'] = agg['share_cnt'] / (agg['exp'] + 1)
			
 
				+    agg['ros'] = agg['return_n_uv'] / (agg['share_cnt'] + 1)
			
 
				+    agg['rovn'] = agg['return_n_uv'] / (agg['exp'] + 1)
			
 
				+    agg['vov'] = agg['new_exposure_cnt'] / (agg['exp'] + 1)
			
 
				+
			
 
				+    # 构建嵌套字典: head_cate2 -> crowd -> {rec_cate2: metrics}
			
 
				+    result = {}
			
 
				+
			
 
				+    # 添加 "all" 选项：不区分头部品类，按 crowd + rec_cate2 聚合
			
 
				+    agg_all = ch_df.groupby(['crowd', 'rec_cate2']).agg({
			
 
				+        'exp': 'sum',
			
 
				+        'share_cnt': 'sum',
			
 
				+        'return_n_uv': 'sum',
			
 
				+        'new_exposure_cnt': 'sum',
			
 
				+    }).reset_index()
			
 
				+    agg_all['str'] = agg_all['share_cnt'] / (agg_all['exp'] + 1)
			
 
				+    agg_all['ros'] = agg_all['return_n_uv'] / (agg_all['share_cnt'] + 1)
			
 
				+    agg_all['rovn'] = agg_all['return_n_uv'] / (agg_all['exp'] + 1)
			
 
				+    agg_all['vov'] = agg_all['new_exposure_cnt'] / (agg_all['exp'] + 1)
			
 
				+
			
 
				+    result['all'] = {}
			
 
				+    for crowd in crowd_list:
			
 
				+        crowd_df = agg_all[agg_all['crowd'] == crowd]
			
 
				+        result['all'][crowd] = {}
			
 
				+        # 计算整体汇总
			
 
				+        total_exp = int(crowd_df['exp'].sum())
			
 
				+        total_share = crowd_df['share_cnt'].sum()
			
 
				+        total_return = crowd_df['return_n_uv'].sum()
			
 
				+        total_new_exp = crowd_df['new_exposure_cnt'].sum()
			
 
				+        result['all'][crowd]['_total'] = {
			
 
				+            'exp': total_exp,
			
 
				+            'str': round(total_share / (total_exp + 1), 4),
			
 
				+            'ros': round(total_return / (total_share + 1), 4),
			
 
				+            'rovn': round(total_return / (total_exp + 1), 4),
			
 
				+            'vov': round(total_new_exp / (total_exp + 1), 4),
			
 
				+        }
			
 
				+        for _, row in crowd_df.iterrows():
			
 
				+            result['all'][crowd][row['rec_cate2']] = {
			
 
				+                'exp': int(row['exp']),
			
 
				+                'str': round(row['str'], 4),
			
 
				+                'ros': round(row['ros'], 4),
			
 
				+                'rovn': round(row['rovn'], 4),
			
 
				+                'vov': round(row['vov'], 4),
			
 
				+            }
			
 
				+
			
 
				+    # 按头部品类聚合
			
 
				+    for head_cate in agg['head_cate2'].unique():
			
 
				+        result[head_cate] = {}
			
 
				+        for crowd in crowd_list:
			
 
				+            crowd_df = agg[(agg['head_cate2'] == head_cate) & (agg['crowd'] == crowd)]
			
 
				+            result[head_cate][crowd] = {}
			
 
				+            # 计算该头部品类下的整体汇总
			
 
				+            total_exp = int(crowd_df['exp'].sum())
			
 
				+            total_share = crowd_df['share_cnt'].sum()
			
 
				+            total_return = crowd_df['return_n_uv'].sum()
			
 
				+            total_new_exp = crowd_df['new_exposure_cnt'].sum()
			
 
				+            result[head_cate][crowd]['_total'] = {
			
 
				+                'exp': total_exp,
			
 
				+                'str': round(total_share / (total_exp + 1), 4),
			
 
				+                'ros': round(total_return / (total_share + 1), 4),
			
 
				+                'rovn': round(total_return / (total_exp + 1), 4),
			
 
				+                'vov': round(total_new_exp / (total_exp + 1), 4),
			
 
				+            }
			
 
				+            for _, row in crowd_df.iterrows():
			
 
				+                result[head_cate][crowd][row['rec_cate2']] = {
			
 
				+                    'exp': int(row['exp']),
			
 
				+                    'str': round(row['str'], 4),
			
 
				+                    'ros': round(row['ros'], 4),
			
 
				+                    'rovn': round(row['rovn'], 4),
			
 
				+                    'vov': round(row['vov'], 4),
			
 
				+                }
			
 
				+
			
 
				+    # 获取所有头部品类列表（按总曝光排序）
			
 
				+    head_exp = ch_df.groupby('head_cate2')['exp'].sum().sort_values(ascending=False)
			
 
				+    head_list = head_exp.index.tolist()
			
 
				+
			
 
				+    return {
			
 
				+        'heads': ['all'] + head_list,  # all 放在最前面
			
 
				+        'data': result
			
 
				+    }
			
 
				+
			
 
				+
			
 
				+# 预计算所有数据
			
 
				+all_data = {}
			
 
				+for crowd in crowd_list:
			
 
				+    all_data[crowd] = {}
			
 
				+    for dt in date_options:
			
 
				+        matrix = calc_matrix_data(crowd, dt)
			
 
				+        if matrix:
			
 
				+            all_data[crowd][dt] = matrix
			
 
				+
			
 
				+# 预计算头部品类下钻数据
			
 
				+head_drill_data = {}
			
 
				+for dt in date_options:
			
 
				+    drill = calc_head_drill_data(dt)
			
 
				+    if drill:
			
 
				+        head_drill_data[dt] = drill
			
 
				+
			
 
				+# 转为JSON
			
 
				+data_json = json.dumps(all_data, ensure_ascii=False)
			
 
				+head_drill_json = json.dumps(head_drill_data, ensure_ascii=False)
			
 
				+crowd_list_json = json.dumps(crowd_list, ensure_ascii=False)
			
 
				+dates_json = json.dumps(date_options)
			
 
				+
			
 
				+# 日期选项HTML
			
 
				+date_options_html = "".join([
			
 
				+    f'<option value="{dt}" {"selected" if dt == latest_date else ""}>'
			
 
				+    f'{"all" if dt == "all" else dt}</option>'
			
 
				+    for dt in date_options
			
 
				+])
			
 
				+
			
 
				+# 人群选项HTML
			
 
				+crowd_options_html = "".join([
			
 
				+    f'<option value="{c}">{c}</option>'
			
 
				+    for c in crowd_list
			
 
				+])
			
 
				+
			
 
				+html_content = f"""<!DOCTYPE html>
			
 
				+<html>
			
 
				+<head>
			
 
				+    <meta charset="utf-8">
			
 
				+    <title>头部品类分析</title>
			
 
				+    <style>
			
 
				+        * {{ margin: 0; padding: 0; box-sizing: border-box; }}
			
 
				+        body {{ font-family: -apple-system, BlinkMacSystemFont, 'Segoe UI', Roboto, sans-serif;
			
 
				+               background: #f5f5f5; padding: 20px; }}
			
 
				+        .container {{ max-width: 1600px; margin: 0 auto; background: white;
			
 
				+                     border-radius: 8px; padding: 20px; box-shadow: 0 2px 8px rgba(0,0,0,0.1); }}
			
 
				+        h1 {{ font-size: 24px; margin-bottom: 20px; color: #333; }}
			
 
				+        .controls {{ display: flex; gap: 20px; margin-bottom: 20px; align-items: center; flex-wrap: wrap; }}
			
 
				+        .controls .date-switcher {{ margin-left: auto; }}
			
 
				+        .play-btn {{ background: #4CAF50; color: white; border: none; border-radius: 4px; padding: 6px 12px; font-size: 14px; }}
			
 
				+        .play-btn:hover {{ background: #45a049; }}
			
 
				+        .play-btn.playing {{ background: #f44336; }}
			
 
				+        .control-group {{ display: flex; align-items: center; gap: 8px; }}
			
 
				+        .control-group label {{ font-weight: 500; color: #666; }}
			
 
				+        select {{ padding: 8px 12px; border: 1px solid #ddd; border-radius: 4px; font-size: 14px; min-width: 120px; }}
			
 
				+        .summary {{ display: flex; gap: 20px; margin-bottom: 20px; }}
			
 
				+        .stat-card {{ background: #f8f9fa; padding: 15px 20px; border-radius: 6px; text-align: center; }}
			
 
				+        .stat-card h4 {{ font-size: 24px; color: #28a745; margin-bottom: 5px; }}
			
 
				+        .stat-card p {{ font-size: 12px; color: #666; }}
			
 
				+        .matrix-container {{ overflow-x: auto; max-height: 600px; overflow-y: auto; }}
			
 
				+        table {{ border-collapse: collapse; font-size: 11px; }}
			
 
				+        th, td {{ border: 1px solid #e0e0e0; padding: 4px 6px; text-align: center; white-space: nowrap; }}
			
 
				+        th {{ background: #f5f5f5; font-weight: 600; position: sticky; top: 0; z-index: 1; }}
			
 
				+        th:first-child {{ position: sticky; left: 0; z-index: 3; }}
			
 
				+        td:first-child {{ background: #f5f5f5; font-weight: 500; position: sticky; left: 0; z-index: 1; text-align: left; }}
			
 
				+        .corner-cell {{
			
 
				+            position: relative;
			
 
				+            width: 100px;
			
 
				+            height: 50px;
			
 
				+            background: linear-gradient(to top right, #f5f5f5 49.5%, #ccc 49.5%, #ccc 50.5%, #f5f5f5 50.5%);
			
 
				+        }}
			
 
				+        .corner-cell .row-label {{
			
 
				+            position: absolute;
			
 
				+            bottom: 4px;
			
 
				+            left: 4px;
			
 
				+            font-size: 10px;
			
 
				+            color: #666;
			
 
				+        }}
			
 
				+        .corner-cell .col-label {{
			
 
				+            position: absolute;
			
 
				+            top: 4px;
			
 
				+            right: 4px;
			
 
				+            font-size: 10px;
			
 
				+            color: #666;
			
 
				+        }}
			
 
				+        .legend {{ font-size: 12px; color: #666; margin-bottom: 10px; }}
			
 
				+        .date-switcher {{ display: flex; align-items: center; gap: 5px; }}
			
 
				+        .date-switcher button {{ padding: 5px 10px; border: 1px solid #ddd; background: white;
			
 
				+                                cursor: pointer; border-radius: 3px; }}
			
 
				+        .date-switcher button:hover {{ background: #f0f0f0; }}
			
 
				+        .play-btn.playing {{ background: #28a745; color: white; }}
			
 
				+        /* Compare tab styles */
			
 
				+        .chart-container {{ width: 100%; overflow-x: auto; }}
			
 
				+        .bar-chart {{ min-width: 800px; }}
			
 
				+        .bar-group {{ display: flex; align-items: flex-end; gap: 4px; margin-bottom: 8px; }}
			
 
				+        .bar {{ min-width: 60px; text-align: center; font-size: 10px; color: white;
			
 
				+               border-radius: 3px 3px 0 0; transition: all 0.3s; cursor: pointer; }}
			
 
				+        .bar:hover {{ opacity: 0.8; }}
			
 
				+        .bar-label {{ font-size: 11px; color: #333; margin-bottom: 5px; font-weight: 500; }}
			
 
				+        .chart-legend {{ display: flex; gap: 20px; margin-bottom: 15px; }}
			
 
				+        .legend-item {{ display: flex; align-items: center; gap: 5px; font-size: 12px; }}
			
 
				+        .legend-color {{ width: 16px; height: 16px; border-radius: 3px; }}
			
 
				+        .compare-table {{ width: 100%; border-collapse: collapse; }}
			
 
				+        .compare-table th {{ background: #f5f5f5; padding: 8px 10px; text-align: center; font-weight: 600; border: 1px solid #ddd; }}
			
 
				+        .compare-table td {{ padding: 6px 8px; border: 1px solid #eee; text-align: center; }}
			
 
				+        .compare-table .crowd-header {{ background: #e8e8e8; font-size: 14px; }}
			
 
				+        .compare-table .cat-cell {{ text-align: left; padding-left: 10px; }}
			
 
				+        .compare-section {{ display: flex; gap: 20px; }}
			
 
				+        .crowd-block {{ flex: 1; min-width: 250px; }}
			
 
				+        .crowd-block table {{ width: 100%; border-collapse: collapse; }}
			
 
				+        .crowd-block th {{ background: #f0f0f0; padding: 8px; border: 1px solid #ddd; }}
			
 
				+        .crowd-block td {{ padding: 6px 8px; border: 1px solid #eee; }}
			
 
				+        .crowd-block .rn {{ width: 40px; text-align: center; color: #666; }}
			
 
				+        .crowd-block .cat {{ text-align: left; cursor: pointer; transition: all 0.2s; }}
			
 
				+        .crowd-block .val {{ text-align: right; font-family: monospace; }}
			
 
				+        .crowd-block .cat.highlight {{
			
 
				+            font-weight: bold;
			
 
				+        }}
			
 
				+        .crowd-block tr.row-highlight {{
			
 
				+            outline: 2px solid #1565C0;
			
 
				+            outline-offset: -1px;
			
 
				+        }}
			
 
				+    </style>
			
 
				+</head>
			
 
				+<body>
			
 
				+    <div class="container">
			
 
				+        <h1>头部品类 → 推荐品类</h1>
			
 
				+
			
 
				+        <!-- Matrix Tab -->
			
 
				+        <div id="tab-matrix">
			
 
				+            <div class="controls">
			
 
				+                <div class="control-group">
			
 
				+                    <label>人群:</label>
			
 
				+                    <select id="crowd-select" onchange="updateMatrix()">
			
 
				+                        {crowd_options_html}
			
 
				+                    </select>
			
 
				+                </div>
			
 
				+                <div class="control-group">
			
 
				+                    <label>指标:</label>
			
 
				+                    <select id="metric-select" onchange="updateMatrix()">
			
 
				+                        <option value="exp">exp</option>
			
 
				+                        <option value="str">str</option>
			
 
				+                        <option value="ros">ros</option>
			
 
				+                        <option value="rovn">rovn</option>
			
 
				+                        <option value="vov" selected>vov</option>
			
 
				+                    </select>
			
 
				+                </div>
			
 
				+                <div class="control-group date-switcher">
			
 
				+                    <label>日期:</label>
			
 
				+                    <button onclick="switchDate(-1)">◀</button>
			
 
				+                    <select id="date-select" onchange="updateMatrix()">
			
 
				+                        {date_options_html}
			
 
				+                    </select>
			
 
				+                    <button onclick="switchDate(1)">▶</button>
			
 
				+                    <button id="play-btn" class="play-btn" onclick="togglePlay()">▶</button>
			
 
				+                </div>
			
 
				+            </div>
			
 
				+
			
 
				+            <div class="summary" id="summary"></div>
			
 
				+
			
 
				+            <div class="legend">
			
 
				+                行=头部品类，列=推荐品类 | 颜色越深=数值越高 | 点击表头排序
			
 
				+                <button onclick="resetSort()" style="margin-left:15px;padding:3px 10px;cursor:pointer;">重置</button>
			
 
				+            </div>
			
 
				+
			
 
				+            <div class="matrix-container">
			
 
				+                <table id="matrix-table">
			
 
				+                    <thead id="matrix-header"></thead>
			
 
				+                    <tbody id="matrix-body"></tbody>
			
 
				+                </table>
			
 
				+            </div>
			
 
				+
			
 
				+            <!-- 头部品类下钻表格 -->
			
 
				+            <div style="margin-top: 30px; border-top: 2px solid #e0e0e0; padding-top: 20px;">
			
 
				+                <h3 style="margin-bottom: 15px; font-size: 16px; color: #333;">头部品类下钻：各人群推荐品类 Top N</h3>
			
 
				+                <div class="controls">
			
 
				+                    <div class="control-group">
			
 
				+                        <label>头部品类:</label>
			
 
				+                        <select id="drill-head" onchange="updateHeadDrill()">
			
 
				+                        </select>
			
 
				+                    </div>
			
 
				+                    <div class="control-group">
			
 
				+                        <label>排序:</label>
			
 
				+                        <select id="drill-sort" onchange="updateHeadDrill()">
			
 
				+                            <option value="exp" selected>exp</option>
			
 
				+                            <option value="str">str</option>
			
 
				+                            <option value="ros">ros</option>
			
 
				+                            <option value="rovn">rovn</option>
			
 
				+                            <option value="vov">vov</option>
			
 
				+                        </select>
			
 
				+                    </div>
			
 
				+                    <div class="control-group">
			
 
				+                        <label>展示:</label>
			
 
				+                        <select id="drill-metric" onchange="updateHeadDrill()">
			
 
				+                            <option value="exp">exp</option>
			
 
				+                            <option value="str">str</option>
			
 
				+                            <option value="ros">ros</option>
			
 
				+                            <option value="rovn">rovn</option>
			
 
				+                            <option value="vov" selected>vov</option>
			
 
				+                        </select>
			
 
				+                    </div>
			
 
				+                    <div class="control-group">
			
 
				+                        <label>Top:</label>
			
 
				+                        <select id="drill-topn" onchange="updateHeadDrill()">
			
 
				+                            <option value="5">5</option>
			
 
				+                            <option value="10" selected>10</option>
			
 
				+                            <option value="15">15</option>
			
 
				+                            <option value="20">20</option>
			
 
				+                        </select>
			
 
				+                    </div>
			
 
				+                    <div class="control-group date-switcher">
			
 
				+                        <label>日期:</label>
			
 
				+                        <button onclick="switchDrillDate(-1)">◀</button>
			
 
				+                        <select id="drill-date" onchange="updateHeadDrill()">
			
 
				+                            {date_options_html}
			
 
				+                        </select>
			
 
				+                        <button onclick="switchDrillDate(1)">▶</button>
			
 
				+                        <button id="drill-play-btn" class="play-btn" onclick="toggleDrillPlay()">▶</button>
			
 
				+                    </div>
			
 
				+                </div>
			
 
				+                <div class="compare-section" id="drill-section"></div>
			
 
				+            </div>
			
 
				+        </div>
			
 
				+
			
 
				+    </div>
			
 
				+
			
 
				+    <script>
			
 
				+    const allData = {data_json};
			
 
				+    const headDrillData = {head_drill_json};
			
 
				+    const crowdList = {crowd_list_json};
			
 
				+    const dates = {dates_json};
			
 
				+    const crowdColors = {{ '内部': '#4CAF50', '外部0层': '#2196F3', '外部裂变': '#FF9800' }};
			
 
				+    let playInterval = null;
			
 
				+    let drillPlayInterval = null;
			
 
				+    let currentRowOrder = null;
			
 
				+    let currentColOrder = null;
			
 
				+    let sortState = {{ row: null, col: null, asc: true }};
			
 
				+    let lastCrowd = null;
			
 
				+    let lastDate = null;
			
 
				+
			
 
				+    function getGradient(val, maxVal, minVal = 0) {{
			
 
				+        if (val <= minVal || maxVal <= minVal) return '#f8f9fa';
			
 
				+        const ratio = Math.min((val - minVal) / (maxVal - minVal), 1);
			
 
				+        const r = Math.round(255 - ratio * 215);
			
 
				+        const g = Math.round(255 - ratio * 88);
			
 
				+        const b = Math.round(255 - ratio * 186);
			
 
				+        return `rgb(${{r}},${{g}},${{b}})`;
			
 
				+    }}
			
 
				+
			
 
				+    function updateMatrix() {{
			
 
				+        const crowd = document.getElementById('crowd-select').value;
			
 
				+        const metric = document.getElementById('metric-select').value;
			
 
				+        const date = document.getElementById('date-select').value;
			
 
				+
			
 
				+        if (!allData[crowd] || !allData[crowd][date]) {{
			
 
				+            document.getElementById('summary').innerHTML = '<div class="stat-card"><h4>-</h4><p>no data</p></div>';
			
 
				+            document.getElementById('matrix-header').innerHTML = '';
			
 
				+            document.getElementById('matrix-body').innerHTML = '';
			
 
				+            return;
			
 
				+        }}
			
 
				+
			
 
				+        const data = allData[crowd][date];
			
 
				+
			
 
				+        document.getElementById('summary').innerHTML = `
			
 
				+            <div class="stat-card"><h4>${{data.total_exp.toLocaleString()}}</h4><p>总 exp</p></div>
			
 
				+            <div class="stat-card"><h4>${{data.total_str.toFixed(4)}}</h4><p>总 str</p></div>
			
 
				+            <div class="stat-card"><h4>${{data.total_rovn.toFixed(4)}}</h4><p>总 rovn</p></div>
			
 
				+            <div class="stat-card"><h4>${{data.rows.length}}</h4><p>头部品类数</p></div>
			
 
				+            <div class="stat-card"><h4>${{data.cols.length}}</h4><p>推荐品类数</p></div>
			
 
				+        `;
			
 
				+
			
 
				+        const metricData = data[metric];
			
 
				+        const allVals = [];
			
 
				+        data.rows.forEach(r => data.cols.forEach(c => {{
			
 
				+            const val = metricData[r]?.[c] || 0;
			
 
				+            if (val > 0) allVals.push(val);
			
 
				+        }}));
			
 
				+        allVals.sort((a, b) => a - b);
			
 
				+
			
 
				+        const p95Idx = Math.floor(allVals.length * 0.95);
			
 
				+        let maxVal = allVals.length > 0 ? allVals[Math.min(p95Idx, allVals.length - 1)] : 0;
			
 
				+        const thresholds = {{ exp: 10000, str: 0.1, ros: 0.5, rovn: 0.05, vov: 0.3 }};
			
 
				+        maxVal = Math.max(maxVal, thresholds[metric] || 0.1);
			
 
				+
			
 
				+        // 切换人群或日期时，重置排序，使用新数据的 exp 排序
			
 
				+        if (crowd !== lastCrowd || date !== lastDate) {{
			
 
				+            currentRowOrder = null;
			
 
				+            currentColOrder = null;
			
 
				+            sortState = {{ row: null, col: null, asc: true }};
			
 
				+            lastCrowd = crowd;
			
 
				+            lastDate = date;
			
 
				+        }}
			
 
				+
			
 
				+        if (!currentRowOrder) currentRowOrder = [...data.rows];
			
 
				+        if (!currentColOrder) currentColOrder = [...data.cols];
			
 
				+
			
 
				+        const rows = currentRowOrder.filter(r => data.rows.includes(r));
			
 
				+        const cols = currentColOrder.filter(c => data.cols.includes(c));
			
 
				+
			
 
				+        const expData = data.exp;
			
 
				+        const rowExpTotals = {{}};
			
 
				+        const colExpTotals = {{}};
			
 
				+        rows.forEach(r => {{ rowExpTotals[r] = cols.reduce((sum, c) => sum + (expData[r]?.[c] || 0), 0); }});
			
 
				+        cols.forEach(c => {{ colExpTotals[c] = rows.reduce((sum, r) => sum + (expData[r]?.[c] || 0), 0); }});
			
 
				+
			
 
				+        // 计算原始排名（按exp排序）
			
 
				+        const origRowOrder = [...data.rows];
			
 
				+        const origColOrder = [...data.cols];
			
 
				+
			
 
				+        document.getElementById('matrix-header').innerHTML = `
			
 
				+            <tr>
			
 
				+                <th class="corner-cell" style="cursor:pointer" onclick="sortByRowSum()">
			
 
				+                    <span class="row-label">头部品类 ↓</span>
			
 
				+                    <span class="col-label">推荐品类 →</span>
			
 
				+                </th>
			
 
				+                ${{cols.map((c, i) => {{
			
 
				+                    const origRank = origColOrder.indexOf(c) + 1;
			
 
				+                    return `<th style="cursor:pointer" onclick="sortByCol('${{c}}')" title="推荐品类: ${{c}}&#10;exp排名: #${{origRank}}&#10;exp: ${{colExpTotals[c].toLocaleString()}}">#${{origRank}} ${{c}}</th>`;
			
 
				+                }}).join('')}}
			
 
				+            </tr>
			
 
				+        `;
			
 
				+
			
 
				+        document.getElementById('matrix-body').innerHTML = rows.map((r, ri) => {{
			
 
				+            const origRowRank = origRowOrder.indexOf(r) + 1;
			
 
				+            const cells = cols.map(c => {{
			
 
				+                const val = metricData[r]?.[c] || 0;
			
 
				+                const cellExp = expData[r]?.[c] || 0;
			
 
				+                const bg = getGradient(val, maxVal);
			
 
				+                const display = metric === 'exp' ? parseInt(val).toLocaleString() : val.toFixed(4);
			
 
				+                const rowPct = rowExpTotals[r] > 0 ? (cellExp / rowExpTotals[r] * 100).toFixed(1) : '0.0';
			
 
				+                const colPct = colExpTotals[c] > 0 ? (cellExp / colExpTotals[c] * 100).toFixed(1) : '0.0';
			
 
				+                return `<td style="background:${{bg}}" title="头部: ${{r}}&#10;推荐: ${{c}}&#10;${{metric}}: ${{display}}&#10;exp: ${{cellExp.toLocaleString()}}&#10;横向占比: ${{rowPct}}%&#10;纵向占比: ${{colPct}}%">${{display}}</td>`;
			
 
				+            }}).join('');
			
 
				+            return `<tr><td style="cursor:pointer;background:#f5f5f5" onclick="sortByRow('${{r}}')" title="头部品类: ${{r}}&#10;exp排名: #${{origRowRank}}&#10;exp: ${{rowExpTotals[r].toLocaleString()}}">#${{origRowRank}} ${{r}}</td>${{cells}}</tr>`;
			
 
				+        }}).join('');
			
 
				+    }}
			
 
				+
			
 
				+    function switchDate(delta) {{
			
 
				+        const select = document.getElementById('date-select');
			
 
				+        const idx = dates.indexOf(select.value);
			
 
				+        const newIdx = idx + delta;
			
 
				+        if (newIdx >= 0 && newIdx < dates.length) {{
			
 
				+            select.value = dates[newIdx];
			
 
				+            updateMatrix();
			
 
				+        }}
			
 
				+    }}
			
 
				+
			
 
				+    function switchDrillDate(delta) {{
			
 
				+        const select = document.getElementById('drill-date');
			
 
				+        const idx = dates.indexOf(select.value);
			
 
				+        const newIdx = idx + delta;
			
 
				+        if (newIdx >= 0 && newIdx < dates.length) {{
			
 
				+            select.value = dates[newIdx];
			
 
				+            // 触发 change 事件以更新头部品类列表
			
 
				+            select.dispatchEvent(new Event('change'));
			
 
				+        }}
			
 
				+    }}
			
 
				+
			
 
				+    function toggleDrillPlay() {{
			
 
				+        const btn = document.getElementById('drill-play-btn');
			
 
				+        if (drillPlayInterval) {{
			
 
				+            clearInterval(drillPlayInterval);
			
 
				+            drillPlayInterval = null;
			
 
				+            btn.classList.remove('playing');
			
 
				+            btn.textContent = '▶';
			
 
				+        }} else {{
			
 
				+            btn.classList.add('playing');
			
 
				+            btn.textContent = '⏸';
			
 
				+            let idx = 0;
			
 
				+            const play = () => {{
			
 
				+                if (idx >= dates.length) {{
			
 
				+                    clearInterval(drillPlayInterval);
			
 
				+                    drillPlayInterval = null;
			
 
				+                    btn.classList.remove('playing');
			
 
				+                    btn.textContent = '▶';
			
 
				+                    return;
			
 
				+                }}
			
 
				+                document.getElementById('drill-date').value = dates[idx];
			
 
				+                document.getElementById('drill-date').dispatchEvent(new Event('change'));
			
 
				+                idx++;
			
 
				+            }};
			
 
				+            play();
			
 
				+            drillPlayInterval = setInterval(play, 1500);
			
 
				+        }}
			
 
				+    }}
			
 
				+
			
 
				+    function togglePlay() {{
			
 
				+        const btn = document.getElementById('play-btn');
			
 
				+        if (playInterval) {{
			
 
				+            clearInterval(playInterval);
			
 
				+            playInterval = null;
			
 
				+            btn.classList.remove('playing');
			
 
				+            btn.textContent = '▶';
			
 
				+        }} else {{
			
 
				+            btn.classList.add('playing');
			
 
				+            btn.textContent = '⏸';
			
 
				+            let idx = 0;
			
 
				+            const play = () => {{
			
 
				+                if (idx >= dates.length) {{
			
 
				+                    clearInterval(playInterval);
			
 
				+                    playInterval = null;
			
 
				+                    btn.classList.remove('playing');
			
 
				+                    btn.textContent = '▶';
			
 
				+                    return;
			
 
				+                }}
			
 
				+                document.getElementById('date-select').value = dates[idx];
			
 
				+                updateMatrix();
			
 
				+                idx++;
			
 
				+            }};
			
 
				+            play();
			
 
				+            playInterval = setInterval(play, 1500);
			
 
				+        }}
			
 
				+    }}
			
 
				+
			
 
				+    function getCurrentData() {{
			
 
				+        const crowd = document.getElementById('crowd-select').value;
			
 
				+        const date = document.getElementById('date-select').value;
			
 
				+        const metric = document.getElementById('metric-select').value;
			
 
				+        if (!allData[crowd] || !allData[crowd][date]) return null;
			
 
				+        return {{ data: allData[crowd][date], metric }};
			
 
				+    }}
			
 
				+
			
 
				+    function sortByRowSum() {{
			
 
				+        const result = getCurrentData();
			
 
				+        if (!result) return;
			
 
				+        const {{ data, metric }} = result;
			
 
				+        const metricData = data[metric];
			
 
				+        const rowSums = {{}};
			
 
				+        data.rows.forEach(r => {{ rowSums[r] = data.cols.reduce((sum, c) => sum + (metricData[r]?.[c] || 0), 0); }});
			
 
				+        sortState.asc = sortState.row === 'sum' ? !sortState.asc : false;
			
 
				+        sortState.row = 'sum';
			
 
				+        currentRowOrder = [...data.rows].sort((a, b) => sortState.asc ? rowSums[a] - rowSums[b] : rowSums[b] - rowSums[a]);
			
 
				+        updateMatrix();
			
 
				+    }}
			
 
				+
			
 
				+    function sortByCol(colName) {{
			
 
				+        const result = getCurrentData();
			
 
				+        if (!result) return;
			
 
				+        const {{ data, metric }} = result;
			
 
				+        const metricData = data[metric];
			
 
				+        sortState.asc = sortState.col === colName ? !sortState.asc : false;
			
 
				+        sortState.col = colName;
			
 
				+        currentRowOrder = [...data.rows].sort((a, b) => {{
			
 
				+            const va = metricData[a]?.[colName] || 0;
			
 
				+            const vb = metricData[b]?.[colName] || 0;
			
 
				+            return sortState.asc ? va - vb : vb - va;
			
 
				+        }});
			
 
				+        updateMatrix();
			
 
				+    }}
			
 
				+
			
 
				+    function sortByRow(rowName) {{
			
 
				+        const result = getCurrentData();
			
 
				+        if (!result) return;
			
 
				+        const {{ data, metric }} = result;
			
 
				+        const metricData = data[metric];
			
 
				+        sortState.asc = sortState.row === rowName ? !sortState.asc : false;
			
 
				+        sortState.row = rowName;
			
 
				+        currentColOrder = [...data.cols].sort((a, b) => {{
			
 
				+            const va = metricData[rowName]?.[a] || 0;
			
 
				+            const vb = metricData[rowName]?.[b] || 0;
			
 
				+            return sortState.asc ? va - vb : vb - va;
			
 
				+        }});
			
 
				+        updateMatrix();
			
 
				+    }}
			
 
				+
			
 
				+    function resetSort() {{
			
 
				+        currentRowOrder = null;
			
 
				+        currentColOrder = null;
			
 
				+        sortState = {{ row: null, col: null, asc: true }};
			
 
				+        updateMatrix();
			
 
				+    }}
			
 
				+
			
 
				+    function highlightCat(el) {{
			
 
				+        const cat = el.getAttribute('data-cat');
			
 
				+        document.querySelectorAll('.cat[data-cat]').forEach(cell => {{
			
 
				+            if (cell.getAttribute('data-cat') === cat) {{
			
 
				+                cell.classList.add('highlight');
			
 
				+                cell.closest('tr').classList.add('row-highlight');
			
 
				+            }}
			
 
				+        }});
			
 
				+    }}
			
 
				+
			
 
				+    function unhighlightCat() {{
			
 
				+        document.querySelectorAll('.cat.highlight').forEach(cell => {{
			
 
				+            cell.classList.remove('highlight');
			
 
				+            cell.closest('tr').classList.remove('row-highlight');
			
 
				+        }});
			
 
				+    }}
			
 
				+
			
 
				+    // 初始化头部品类下钻
			
 
				+    function initHeadDrill() {{
			
 
				+        const date = document.getElementById('drill-date').value;
			
 
				+        const headSelect = document.getElementById('drill-head');
			
 
				+
			
 
				+        if (!headDrillData[date]) {{
			
 
				+            headSelect.innerHTML = '<option value="">无数据</option>';
			
 
				+            return;
			
 
				+        }}
			
 
				+
			
 
				+        const heads = headDrillData[date].heads;
			
 
				+        headSelect.innerHTML = heads.map((h, i) => {{
			
 
				+            const label = h === 'all' ? '全部（不区分头部品类）' : `#${{i}} ${{h}}`;
			
 
				+            return `<option value="${{h}}">${{label}}</option>`;
			
 
				+        }}).join('');
			
 
				+
			
 
				+        updateHeadDrill();
			
 
				+    }}
			
 
				+
			
 
				+    function updateHeadDrill() {{
			
 
				+        const date = document.getElementById('drill-date').value;
			
 
				+        const headCate = document.getElementById('drill-head').value;
			
 
				+        const sortBy = document.getElementById('drill-sort').value;
			
 
				+        const showMetric = document.getElementById('drill-metric').value;
			
 
				+        const topN = parseInt(document.getElementById('drill-topn').value);
			
 
				+
			
 
				+        // 检查日期变化，更新头部品类列表
			
 
				+        const headSelect = document.getElementById('drill-head');
			
 
				+        if (headDrillData[date] && headSelect.options.length > 0) {{
			
 
				+            const currentHeads = headDrillData[date].heads;
			
 
				+            const firstOption = headSelect.options[0]?.value;
			
 
				+            if (currentHeads[0] !== firstOption) {{
			
 
				+                headSelect.innerHTML = currentHeads.map((h, i) => {{
			
 
				+                    const label = h === 'all' ? '全部（不区分头部品类）' : `#${{i}} ${{h}}`;
			
 
				+                    return `<option value="${{h}}" ${{h === headCate ? 'selected' : ''}}>${{label}}</option>`;
			
 
				+                }}).join('');
			
 
				+            }}
			
 
				+        }}
			
 
				+
			
 
				+        if (!headDrillData[date] || !headCate) {{
			
 
				+            document.getElementById('drill-section').innerHTML = '<p>无数据</p>';
			
 
				+            return;
			
 
				+        }}
			
 
				+
			
 
				+        const data = headDrillData[date].data[headCate];
			
 
				+        if (!data) {{
			
 
				+            document.getElementById('drill-section').innerHTML = '<p>该头部品类无数据</p>';
			
 
				+            return;
			
 
				+        }}
			
 
				+
			
 
				+        // 为每个人群计算 Top N 和整体汇总
			
 
				+        const crowdTopN = {{}};
			
 
				+        const crowdTotal = {{}};
			
 
				+        crowdList.forEach(crowd => {{
			
 
				+            const items = [];
			
 
				+            if (data[crowd]) {{
			
 
				+                for (const cat in data[crowd]) {{
			
 
				+                    if (cat === '_total') {{
			
 
				+                        // 保存整体汇总
			
 
				+                        crowdTotal[crowd] = {{
			
 
				+                            exp: data[crowd][cat].exp || 0,
			
 
				+                            showVal: data[crowd][cat][showMetric] || 0
			
 
				+                        }};
			
 
				+                    }} else {{
			
 
				+                        items.push({{
			
 
				+                            cat: cat,
			
 
				+                            sortVal: data[crowd][cat][sortBy] || 0,
			
 
				+                            showVal: data[crowd][cat][showMetric] || 0,
			
 
				+                            exp: data[crowd][cat].exp || 0
			
 
				+                        }});
			
 
				+                    }}
			
 
				+                }}
			
 
				+            }}
			
 
				+            items.sort((a, b) => b.sortVal - a.sortVal);
			
 
				+            crowdTopN[crowd] = items.slice(0, topN);
			
 
				+        }});
			
 
				+
			
 
				+        // 收集所有品类用于颜色映射
			
 
				+        const allCats = new Set();
			
 
				+        crowdList.forEach(crowd => {{
			
 
				+            crowdTopN[crowd].forEach(item => allCats.add(item.cat));
			
 
				+        }});
			
 
				+        const catList = Array.from(allCats);
			
 
				+
			
 
				+        const catColors = {{}};
			
 
				+        const colorPalette = [
			
 
				+            '#FFCDD2', '#F8BBD0', '#E1BEE7', '#D1C4E9', '#C5CAE9',
			
 
				+            '#BBDEFB', '#B3E5FC', '#B2EBF2', '#B2DFDB', '#C8E6C9',
			
 
				+            '#DCEDC8', '#F0F4C3', '#FFF9C4', '#FFECB3', '#FFE0B2',
			
 
				+            '#FFCCBC', '#D7CCC8', '#CFD8DC', '#BCAAA4', '#B0BEC5'
			
 
				+        ];
			
 
				+        catList.forEach((cat, i) => {{
			
 
				+            catColors[cat] = colorPalette[i % colorPalette.length];
			
 
				+        }});
			
 
				+
			
 
				+        // 计算指标渐变范围
			
 
				+        let maxVal = 0, minVal = Infinity;
			
 
				+        crowdList.forEach(crowd => {{
			
 
				+            crowdTopN[crowd].forEach(item => {{
			
 
				+                if (item.showVal > maxVal) maxVal = item.showVal;
			
 
				+                if (item.showVal < minVal) minVal = item.showVal;
			
 
				+            }});
			
 
				+        }});
			
 
				+        if (minVal === Infinity) minVal = 0;
			
 
				+
			
 
				+        function getValueColor(val) {{
			
 
				+            if (maxVal === minVal) return '#C8E6C9';
			
 
				+            const ratio = (val - minVal) / (maxVal - minVal);
			
 
				+            const r = Math.round(200 - ratio * 120);
			
 
				+            const g = Math.round(230 - ratio * 80);
			
 
				+            const b = Math.round(201 - ratio * 120);
			
 
				+            return `rgb(${{r}},${{g}},${{b}})`;
			
 
				+        }}
			
 
				+
			
 
				+        // 生成表格
			
 
				+        let html = '';
			
 
				+        crowdList.forEach(crowd => {{
			
 
				+            const colSpan = showMetric === 'exp' ? 3 : 4;
			
 
				+            html += `<div class="crowd-block">
			
 
				+                <table>
			
 
				+                    <thead>
			
 
				+                        <tr><th colspan="${{colSpan}}" style="background:${{crowdColors[crowd]}};color:white">${{crowd}}</th></tr>
			
 
				+                        <tr><th class="rn">rn</th><th>推荐品类</th><th>exp</th>${{showMetric !== 'exp' ? `<th>${{showMetric}}</th>` : ''}}</tr>
			
 
				+                    </thead>
			
 
				+                    <tbody>`;
			
 
				+
			
 
				+            if (crowdTopN[crowd].length === 0) {{
			
 
				+                html += `<tr><td colspan="${{colSpan}}" style="color:#999">无数据</td></tr>`;
			
 
				+            }} else {{
			
 
				+                // 先添加整体汇总行 (rn=0)
			
 
				+                if (crowdTotal[crowd]) {{
			
 
				+                    const totalExp = parseInt(crowdTotal[crowd].exp).toLocaleString();
			
 
				+                    const totalMetric = (crowdTotal[crowd].showVal * 100).toFixed(1) + '%';
			
 
				+                    html += `<tr style="background:#f5f5f5;font-weight:bold">
			
 
				+                        <td class="rn">0</td>
			
 
				+                        <td class="cat" style="background:#e0e0e0">整体</td>
			
 
				+                        <td class="val">${{totalExp}}</td>
			
 
				+                        ${{showMetric !== 'exp' ? `<td class="val">${{totalMetric}}</td>` : ''}}
			
 
				+                    </tr>`;
			
 
				+                }}
			
 
				+                // 添加 Top N 品类
			
 
				+                crowdTopN[crowd].forEach((item, i) => {{
			
 
				+                    const expDisplay = parseInt(item.exp).toLocaleString();
			
 
				+                    const metricDisplay = (item.showVal * 100).toFixed(1) + '%';
			
 
				+                    const valColor = getValueColor(item.showVal);
			
 
				+                    const catColor = catColors[item.cat];
			
 
				+                    const catAttr = item.cat.replace(/"/g, '&quot;');
			
 
				+                    html += `<tr>
			
 
				+                        <td class="rn">${{i + 1}}</td>
			
 
				+                        <td class="cat" style="background:${{catColor}}" data-cat="${{catAttr}}" onmouseenter="highlightCat(this)" onmouseleave="unhighlightCat()">${{item.cat}}</td>
			
 
				+                        <td class="val">${{expDisplay}}</td>
			
 
				+                        ${{showMetric !== 'exp' ? `<td class="val" style="background:${{valColor}}">${{metricDisplay}}</td>` : ''}}
			
 
				+                    </tr>`;
			
 
				+                }});
			
 
				+            }}
			
 
				+
			
 
				+            html += `</tbody></table></div>`;
			
 
				+        }});
			
 
				+
			
 
				+        document.getElementById('drill-section').innerHTML = html;
			
 
				+    }}
			
 
				+
			
 
				+    // 监听日期变化，更新头部品类列表
			
 
				+    document.getElementById('drill-date').addEventListener('change', function() {{
			
 
				+        const date = this.value;
			
 
				+        const headSelect = document.getElementById('drill-head');
			
 
				+        const currentHead = headSelect.value;
			
 
				+
			
 
				+        if (headDrillData[date]) {{
			
 
				+            const heads = headDrillData[date].heads;
			
 
				+            headSelect.innerHTML = heads.map((h, i) => {{
			
 
				+                const label = h === 'all' ? '全部（不区分头部品类）' : `#${{i}} ${{h}}`;
			
 
				+                return `<option value="${{h}}" ${{h === currentHead ? 'selected' : ''}}>${{label}}</option>`;
			
 
				+            }}).join('');
			
 
				+        }} else {{
			
 
				+            headSelect.innerHTML = '<option value="">无数据</option>';
			
 
				+        }}
			
 
				+        updateHeadDrill();
			
 
				+    }});
			
 
				+
			
 
				+    updateMatrix();
			
 
				+    initHeadDrill();
			
 
				+    </script>
			
 
				+</body>
			
 
				+</html>
			
 
				+"""
			
 
				+
			
 
				+html_file = output_dir / f"{latest_file.stem}_头部品类分析.html"
			
 
				+with open(html_file, 'w', encoding='utf-8') as f:
			
 
				+    f.write(html_content)
			
 
				+
			
 
				+print(f"\nHTML 报告已生成: {html_file}")
			
--- a/tasks/人群品类曝光分析/头部品类分析_简化版/visualize_correlation.py
+++ b/tasks/人群品类曝光分析/头部品类分析_简化版/visualize_correlation.py
@@ -0,0 +1,768 @@
 
				+#!/usr/bin/env python
			
 
				+# coding=utf-8
			
 
				+"""
			
 
				+品类承接裂变率相关性分析 - HTML可视化
			
 
				+Tab 1: 品类一致性分析 - 同品类vs跨品类vov对比
			
 
				+Tab 2: 品类组合稳定性 - 跨人群相关性散点图
			
 
				+Tab 3: 品类亲和性矩阵 - 热力图
			
 
				+"""
			
 
				+import pandas as pd
			
 
				+import numpy as np
			
 
				+import json
			
 
				+from pathlib import Path
			
 
				+
			
 
				+task_dir = Path(__file__).parent
			
 
				+output_dir = task_dir / "output"
			
 
				+
			
 
				+# 找到最新的原始数据文件
			
 
				+csv_files = [f for f in output_dir.glob("query_*.csv") if not f.name.endswith('.html')]
			
 
				+if not csv_files:
			
 
				+    print("没有找到数据文件，请先运行 query.sql")
			
 
				+    exit(1)
			
 
				+
			
 
				+latest_file = max(csv_files, key=lambda x: x.stat().st_mtime)
			
 
				+df = pd.read_csv(latest_file)
			
 
				+
			
 
				+print(f"分析文件: {latest_file.name}")
			
 
				+print(f"时间范围: {df['dt'].min()} ~ {df['dt'].max()}")
			
 
				+
			
 
				+# 过滤掉 headvideoid为空 的记录
			
 
				+df_valid = df[~df['head_cate2'].isin(['headvideoid为空', '未匹配品类'])].copy()
			
 
				+df_valid['is_same_cate'] = df_valid['head_cate2'] == df_valid['rec_cate2']
			
 
				+df_valid['cate_pair'] = df_valid['head_cate2'] + ' → ' + df_valid['rec_cate2']
			
 
				+
			
 
				+crowd_list = ['内部', '外部0层', '外部裂变']
			
 
				+date_list = ['全部'] + sorted([str(d) for d in df_valid['dt'].unique()])
			
 
				+EXP_THRESHOLD = 10000  # 亲和性矩阵的曝光阈值（全部天数）
			
 
				+EXP_THRESHOLD_DAILY = 1000  # 单日曝光阈值
			
 
				+
			
 
				+# ========== 1. 品类一致性数据 ==========
			
 
				+consistency_data = {'crowds': crowd_list, 'same': [], 'diff': [], 'ratio': []}
			
 
				+for crowd in crowd_list:
			
 
				+    crowd_df = df_valid[df_valid['crowd'] == crowd]
			
 
				+    same = crowd_df[crowd_df['is_same_cate']]
			
 
				+    diff = crowd_df[~crowd_df['is_same_cate']]
			
 
				+    same_vov = same['new_exposure_cnt'].sum() / same['exp'].sum() if same['exp'].sum() > 0 else 0
			
 
				+    diff_vov = diff['new_exposure_cnt'].sum() / diff['exp'].sum() if diff['exp'].sum() > 0 else 0
			
 
				+    consistency_data['same'].append(round(same_vov, 4))
			
 
				+    consistency_data['diff'].append(round(diff_vov, 4))
			
 
				+    consistency_data['ratio'].append(round(same_vov / diff_vov, 2) if diff_vov > 0 else 0)
			
 
				+
			
 
				+# 整体
			
 
				+same_all = df_valid[df_valid['is_same_cate']]
			
 
				+diff_all = df_valid[~df_valid['is_same_cate']]
			
 
				+consistency_data['total_same'] = round(same_all['new_exposure_cnt'].sum() / same_all['exp'].sum(), 4)
			
 
				+consistency_data['total_diff'] = round(diff_all['new_exposure_cnt'].sum() / diff_all['exp'].sum(), 4)
			
 
				+consistency_data['total_ratio'] = round(consistency_data['total_same'] / consistency_data['total_diff'], 2)
			
 
				+
			
 
				+# 同品类曝光占比
			
 
				+consistency_data['same_exp'] = [int(df_valid[(df_valid['crowd'] == c) & df_valid['is_same_cate']]['exp'].sum()) for c in crowd_list]
			
 
				+consistency_data['diff_exp'] = [int(df_valid[(df_valid['crowd'] == c) & ~df_valid['is_same_cate']]['exp'].sum()) for c in crowd_list]
			
 
				+
			
 
				+# ========== 2. 品类亲和性矩阵（按人群分开 + 整体） ==========
			
 
				+def calc_affinity_matrix(data_df, exp_threshold=EXP_THRESHOLD):
			
 
				+    """计算亲和性矩阵数据"""
			
 
				+    # 计算每个head_cate2的基准vov
			
 
				+    head_baseline = data_df.groupby('head_cate2').apply(
			
 
				+        lambda x: x['new_exposure_cnt'].sum() / x['exp'].sum(), include_groups=False
			
 
				+    ).to_dict()
			
 
				+
			
 
				+    affinity_list = []
			
 
				+    for (head, rec), grp in data_df.groupby(['head_cate2', 'rec_cate2']):
			
 
				+        if grp['exp'].sum() >= exp_threshold:
			
 
				+            pair_vov = grp['new_exposure_cnt'].sum() / grp['exp'].sum()
			
 
				+            baseline = head_baseline.get(head, 1)
			
 
				+            affinity = pair_vov / baseline if baseline > 0 else 0
			
 
				+            affinity_list.append({
			
 
				+                'head': head, 'rec': rec,
			
 
				+                'vov': round(pair_vov, 4),
			
 
				+                'baseline': round(baseline, 4),
			
 
				+                'affinity': round(affinity, 2),
			
 
				+                'exp': int(grp['exp'].sum())
			
 
				+            })
			
 
				+
			
 
				+    if not affinity_list:
			
 
				+        return None
			
 
				+
			
 
				+    aff_df = pd.DataFrame(affinity_list)
			
 
				+
			
 
				+    # 构建矩阵数据 - 行列使用相同品类列表，方便看对角线（同品类承接）
			
 
				+    # 合并 head 和 rec 的曝光量，按总曝光排序
			
 
				+    head_exp = aff_df.groupby('head')['exp'].sum()
			
 
				+    rec_exp = aff_df.groupby('rec')['exp'].sum()
			
 
				+    all_cates = set(head_exp.index) | set(rec_exp.index)
			
 
				+    cate_total_exp = {c: head_exp.get(c, 0) + rec_exp.get(c, 0) for c in all_cates}
			
 
				+    cate_list = sorted(cate_total_exp.keys(), key=lambda x: cate_total_exp[x], reverse=True)[:30]
			
 
				+
			
 
				+    # 行列使用相同顺序
			
 
				+    head_list = cate_list
			
 
				+    rec_list = cate_list
			
 
				+
			
 
				+    result = {'rows': head_list, 'cols': rec_list, 'affinity': {}, 'vov': {}, 'exp': {}}
			
 
				+    for head in head_list:
			
 
				+        result['affinity'][head] = {}
			
 
				+        result['vov'][head] = {}
			
 
				+        result['exp'][head] = {}
			
 
				+        for rec in rec_list:
			
 
				+            row = aff_df[(aff_df['head'] == head) & (aff_df['rec'] == rec)]
			
 
				+            if len(row) > 0:
			
 
				+                result['affinity'][head][rec] = float(row.iloc[0]['affinity'])
			
 
				+                result['vov'][head][rec] = float(row.iloc[0]['vov'])
			
 
				+                result['exp'][head][rec] = int(row.iloc[0]['exp'])
			
 
				+            else:
			
 
				+                result['affinity'][head][rec] = 0
			
 
				+                result['vov'][head][rec] = 0
			
 
				+                result['exp'][head][rec] = 0
			
 
				+    return result
			
 
				+
			
 
				+# 先计算全部+整体的矩阵，获取固定的行列顺序
			
 
				+base_matrix = calc_affinity_matrix(df_valid, EXP_THRESHOLD)
			
 
				+fixed_cate_list = base_matrix['rows'] if base_matrix else []
			
 
				+
			
 
				+def calc_affinity_matrix_fixed(data_df, exp_threshold, fixed_list):
			
 
				+    """计算亲和性矩阵数据，使用固定的行列顺序"""
			
 
				+    head_baseline = data_df.groupby('head_cate2').apply(
			
 
				+        lambda x: x['new_exposure_cnt'].sum() / x['exp'].sum(), include_groups=False
			
 
				+    ).to_dict()
			
 
				+
			
 
				+    affinity_dict = {}
			
 
				+    for (head, rec), grp in data_df.groupby(['head_cate2', 'rec_cate2']):
			
 
				+        if grp['exp'].sum() >= exp_threshold:
			
 
				+            pair_vov = grp['new_exposure_cnt'].sum() / grp['exp'].sum()
			
 
				+            baseline = head_baseline.get(head, 1)
			
 
				+            affinity = pair_vov / baseline if baseline > 0 else 0
			
 
				+            affinity_dict[(head, rec)] = {
			
 
				+                'vov': round(pair_vov, 4),
			
 
				+                'affinity': round(affinity, 2),
			
 
				+                'exp': int(grp['exp'].sum())
			
 
				+            }
			
 
				+
			
 
				+    # 使用固定的行列顺序
			
 
				+    result = {'rows': fixed_list, 'cols': fixed_list, 'affinity': {}, 'vov': {}, 'exp': {}}
			
 
				+    for head in fixed_list:
			
 
				+        result['affinity'][head] = {}
			
 
				+        result['vov'][head] = {}
			
 
				+        result['exp'][head] = {}
			
 
				+        for rec in fixed_list:
			
 
				+            if (head, rec) in affinity_dict:
			
 
				+                result['affinity'][head][rec] = float(affinity_dict[(head, rec)]['affinity'])
			
 
				+                result['vov'][head][rec] = float(affinity_dict[(head, rec)]['vov'])
			
 
				+                result['exp'][head][rec] = int(affinity_dict[(head, rec)]['exp'])
			
 
				+            else:
			
 
				+                result['affinity'][head][rec] = 0
			
 
				+                result['vov'][head][rec] = 0
			
 
				+                result['exp'][head][rec] = 0
			
 
				+    return result
			
 
				+
			
 
				+# 计算各日期×人群的矩阵（使用固定行列顺序）
			
 
				+matrix_data = {}
			
 
				+for date in date_list:
			
 
				+    matrix_data[date] = {}
			
 
				+    if date == '全部':
			
 
				+        date_df = df_valid
			
 
				+        threshold = EXP_THRESHOLD
			
 
				+    else:
			
 
				+        date_df = df_valid[df_valid['dt'].astype(str) == date]
			
 
				+        threshold = EXP_THRESHOLD_DAILY
			
 
				+
			
 
				+    # 整体
			
 
				+    matrix_data[date]['整体'] = calc_affinity_matrix_fixed(date_df, threshold, fixed_cate_list)
			
 
				+    # 各人群
			
 
				+    for crowd in crowd_list:
			
 
				+        matrix_data[date][crowd] = calc_affinity_matrix_fixed(
			
 
				+            date_df[date_df['crowd'] == crowd], threshold, fixed_cate_list
			
 
				+        )
			
 
				+
			
 
				+# ========== 4. Top品类组合排名（按人群分开 + 整体） ==========
			
 
				+def calc_ranking(data_df, min_exp=1000):
			
 
				+    """计算品类组合排名"""
			
 
				+    pair_vov = data_df.groupby('cate_pair').apply(
			
 
				+        lambda x: pd.Series({
			
 
				+            'vov': x['new_exposure_cnt'].sum() / x['exp'].sum(),
			
 
				+            'exp': int(x['exp'].sum()),
			
 
				+        }), include_groups=False
			
 
				+    )
			
 
				+    pair_vov = pair_vov[pair_vov['exp'] >= min_exp]
			
 
				+    if len(pair_vov) == 0:
			
 
				+        return {'high': [], 'low': []}
			
 
				+
			
 
				+    all_high = pair_vov.sort_values('vov', ascending=False).head(100)
			
 
				+    all_low = pair_vov.sort_values('vov', ascending=True).head(100)
			
 
				+
			
 
				+    return {
			
 
				+        'high': [{'pair': idx, 'vov': float(round(row['vov'], 4)), 'exp': int(row['exp'])} for idx, row in all_high.iterrows()],
			
 
				+        'low': [{'pair': idx, 'vov': float(round(row['vov'], 4)), 'exp': int(row['exp'])} for idx, row in all_low.iterrows()]
			
 
				+    }
			
 
				+
			
 
				+# 计算各日期×人群的排名
			
 
				+ranking_data = {}
			
 
				+for date in date_list:
			
 
				+    ranking_data[date] = {}
			
 
				+    if date == '全部':
			
 
				+        date_df = df_valid
			
 
				+        min_exp = 1000
			
 
				+    else:
			
 
				+        date_df = df_valid[df_valid['dt'].astype(str) == date]
			
 
				+        min_exp = 100  # 单日阈值更低
			
 
				+
			
 
				+    ranking_data[date]['整体'] = calc_ranking(date_df, min_exp)
			
 
				+    for crowd in crowd_list:
			
 
				+        ranking_data[date][crowd] = calc_ranking(date_df[date_df['crowd'] == crowd], min_exp)
			
 
				+
			
 
				+# 转为JSON
			
 
				+consistency_json = json.dumps(consistency_data, ensure_ascii=False)
			
 
				+matrix_json = json.dumps(matrix_data, ensure_ascii=False)
			
 
				+ranking_json = json.dumps(ranking_data, ensure_ascii=False)
			
 
				+dates_json = json.dumps(date_list, ensure_ascii=False)
			
 
				+
			
 
				+# 日期选项HTML
			
 
				+date_options_html = "".join([f'<option value="{d}" {"selected" if d == "全部" else ""}>{d}</option>' for d in date_list])
			
 
				+
			
 
				+html_content = f"""<!DOCTYPE html>
			
 
				+<html>
			
 
				+<head>
			
 
				+    <meta charset="utf-8">
			
 
				+    <title>品类承接裂变率相关性分析</title>
			
 
				+    <style>
			
 
				+        * {{ margin: 0; padding: 0; box-sizing: border-box; }}
			
 
				+        body {{ font-family: -apple-system, BlinkMacSystemFont, 'Segoe UI', Roboto, sans-serif;
			
 
				+               background: #f5f5f5; padding: 20px; }}
			
 
				+        .container {{ max-width: 1600px; margin: 0 auto; background: white;
			
 
				+                     border-radius: 8px; padding: 20px; box-shadow: 0 2px 8px rgba(0,0,0,0.1); }}
			
 
				+        h1 {{ font-size: 24px; margin-bottom: 10px; color: #333; }}
			
 
				+        .subtitle {{ color: #666; margin-bottom: 20px; font-size: 14px; }}
			
 
				+
			
 
				+        /* Tabs */
			
 
				+        .tabs {{ display: flex; gap: 5px; margin-bottom: 20px; border-bottom: 2px solid #e0e0e0; }}
			
 
				+        .tab {{ padding: 10px 20px; cursor: pointer; border: none; background: none;
			
 
				+               font-size: 14px; color: #666; border-bottom: 2px solid transparent; margin-bottom: -2px; }}
			
 
				+        .tab:hover {{ color: #333; }}
			
 
				+        .tab.active {{ color: #1976D2; border-bottom-color: #1976D2; font-weight: 500; }}
			
 
				+        .tab-content {{ display: none; }}
			
 
				+        .tab-content.active {{ display: block; }}
			
 
				+
			
 
				+        /* Summary cards */
			
 
				+        .summary {{ display: flex; gap: 15px; margin-bottom: 25px; flex-wrap: wrap; }}
			
 
				+        .stat-card {{ background: linear-gradient(135deg, #667eea 0%, #764ba2 100%);
			
 
				+                     padding: 15px 20px; border-radius: 8px; text-align: center; color: white; min-width: 140px; }}
			
 
				+        .stat-card.green {{ background: linear-gradient(135deg, #11998e 0%, #38ef7d 100%); }}
			
 
				+        .stat-card.orange {{ background: linear-gradient(135deg, #f093fb 0%, #f5576c 100%); }}
			
 
				+        .stat-card.blue {{ background: linear-gradient(135deg, #4facfe 0%, #00f2fe 100%); }}
			
 
				+        .stat-card h4 {{ font-size: 28px; margin-bottom: 5px; }}
			
 
				+        .stat-card p {{ font-size: 12px; opacity: 0.9; }}
			
 
				+
			
 
				+        /* Bar chart */
			
 
				+        .chart-section {{ margin-bottom: 30px; }}
			
 
				+        .chart-title {{ font-size: 16px; font-weight: 500; margin-bottom: 15px; color: #333; }}
			
 
				+        .bar-chart {{ display: flex; gap: 30px; align-items: flex-end; justify-content: center; padding: 20px; }}
			
 
				+        .bar-group {{ text-align: center; }}
			
 
				+        .bar-pair {{ display: flex; gap: 8px; align-items: flex-end; height: 200px; }}
			
 
				+        .bar {{ width: 50px; border-radius: 4px 4px 0 0; transition: all 0.3s; cursor: pointer; position: relative; }}
			
 
				+        .bar:hover {{ opacity: 0.8; }}
			
 
				+        .bar-value {{ position: absolute; top: -25px; left: 50%; transform: translateX(-50%); font-size: 12px; font-weight: 500; white-space: nowrap; }}
			
 
				+        .bar-label {{ margin-top: 10px; font-size: 13px; color: #333; }}
			
 
				+        .bar-ratio {{ font-size: 11px; color: #666; margin-top: 3px; }}
			
 
				+        .legend {{ display: flex; gap: 20px; justify-content: center; margin-bottom: 15px; }}
			
 
				+        .legend-item {{ display: flex; align-items: center; gap: 6px; font-size: 13px; }}
			
 
				+        .legend-color {{ width: 16px; height: 16px; border-radius: 3px; }}
			
 
				+
			
 
				+        /* Scatter plot */
			
 
				+        .scatter-container {{ display: flex; gap: 20px; flex-wrap: wrap; }}
			
 
				+        .scatter-box {{ flex: 1; min-width: 350px; background: #f8f9fa; border-radius: 8px; padding: 15px; }}
			
 
				+        .scatter-title {{ font-size: 14px; font-weight: 500; margin-bottom: 10px; }}
			
 
				+        .scatter-stats {{ font-size: 12px; color: #666; margin-bottom: 10px; }}
			
 
				+        .scatter-canvas {{ width: 100%; height: 300px; position: relative; background: white; border: 1px solid #e0e0e0; border-radius: 4px; }}
			
 
				+
			
 
				+        /* Matrix */
			
 
				+        .matrix-container {{ overflow-x: auto; max-height: 600px; overflow-y: auto; }}
			
 
				+        table {{ border-collapse: collapse; font-size: 11px; }}
			
 
				+        th, td {{ border: 1px solid #e0e0e0; padding: 4px 6px; text-align: center; white-space: nowrap; }}
			
 
				+        th {{ background: #f5f5f5; font-weight: 600; position: sticky; top: 0; z-index: 1; }}
			
 
				+        th:first-child {{ position: sticky; left: 0; z-index: 3; }}
			
 
				+        td:first-child {{ background: #f5f5f5; font-weight: 500; position: sticky; left: 0; z-index: 1; text-align: left; }}
			
 
				+        .corner-cell {{ background: linear-gradient(to top right, #f5f5f5 49.5%, #ccc 49.5%, #ccc 50.5%, #f5f5f5 50.5%); }}
			
 
				+
			
 
				+        /* Controls */
			
 
				+        .controls {{ display: flex; gap: 15px; margin-bottom: 15px; align-items: center; flex-wrap: wrap; }}
			
 
				+        .control-group {{ display: flex; align-items: center; gap: 6px; }}
			
 
				+        .control-group label {{ font-size: 13px; color: #666; }}
			
 
				+        select {{ padding: 6px 10px; border: 1px solid #ddd; border-radius: 4px; font-size: 13px; }}
			
 
				+        .date-switcher button {{ padding: 5px 10px; border: 1px solid #ddd; background: white; cursor: pointer; border-radius: 3px; }}
			
 
				+        .date-switcher button:hover {{ background: #f0f0f0; }}
			
 
				+        .play-btn {{ background: #4CAF50; color: white; border: none; border-radius: 4px; padding: 5px 12px; font-size: 12px; cursor: pointer; }}
			
 
				+        .play-btn:hover {{ background: #45a049; }}
			
 
				+        .play-btn.playing {{ background: #f44336; }}
			
 
				+        /* Matrix highlight */
			
 
				+        th.highlight, td.row-header.highlight {{ background: #bbdefb !important; }}
			
 
				+        td.cell-highlight {{ outline: 2px solid #1565C0; outline-offset: -1px; }}
			
 
				+
			
 
				+        /* Ranking table */
			
 
				+        .ranking-section {{ display: flex; gap: 30px; }}
			
 
				+        .ranking-box {{ flex: 1; }}
			
 
				+        .ranking-box h4 {{ font-size: 14px; margin-bottom: 10px; padding: 8px; border-radius: 4px; }}
			
 
				+        .ranking-box.high h4 {{ background: #e8f5e9; color: #2e7d32; }}
			
 
				+        .ranking-box.low h4 {{ background: #ffebee; color: #c62828; }}
			
 
				+        .ranking-table {{ width: 100%; border-collapse: collapse; }}
			
 
				+        .ranking-table th {{ background: #f5f5f5; padding: 8px; text-align: left; font-size: 12px; }}
			
 
				+        .ranking-table td {{ padding: 6px 8px; border-bottom: 1px solid #eee; font-size: 12px; }}
			
 
				+        .ranking-table .rn {{ width: 30px; color: #999; }}
			
 
				+        .ranking-table .vov {{ font-family: monospace; text-align: right; }}
			
 
				+        .ranking-table .exp {{ color: #666; text-align: right; }}
			
 
				+
			
 
				+        /* Insight box */
			
 
				+        .insight-box {{ background: #e3f2fd; border-left: 4px solid #1976D2; padding: 15px; margin: 20px 0; border-radius: 0 8px 8px 0; }}
			
 
				+        .insight-box h5 {{ color: #1565C0; margin-bottom: 8px; font-size: 14px; }}
			
 
				+        .insight-box p {{ color: #333; font-size: 13px; line-height: 1.6; }}
			
 
				+    </style>
			
 
				+</head>
			
 
				+<body>
			
 
				+    <div class="container">
			
 
				+        <h1>品类承接裂变率相关性分析</h1>
			
 
				+        <p class="subtitle">分析进入品类与承接品类的关系对裂变效果的影响</p>
			
 
				+
			
 
				+        <div class="tabs">
			
 
				+            <button class="tab active" onclick="switchTab('consistency')">品类一致性</button>
			
 
				+            <button class="tab" onclick="switchTab('affinity')">品类亲和性矩阵</button>
			
 
				+            <button class="tab" onclick="switchTab('ranking')">品类组合排名</button>
			
 
				+        </div>
			
 
				+
			
 
				+        <!-- Tab 1: 品类一致性 -->
			
 
				+        <div id="tab-consistency" class="tab-content active">
			
 
				+            <div class="summary">
			
 
				+                <div class="stat-card green">
			
 
				+                    <h4 id="same-vov">-</h4>
			
 
				+                    <p>同品类承接 vov</p>
			
 
				+                </div>
			
 
				+                <div class="stat-card orange">
			
 
				+                    <h4 id="diff-vov">-</h4>
			
 
				+                    <p>跨品类承接 vov</p>
			
 
				+                </div>
			
 
				+                <div class="stat-card blue">
			
 
				+                    <h4 id="vov-ratio">-</h4>
			
 
				+                    <p>同/跨品类比值</p>
			
 
				+                </div>
			
 
				+            </div>
			
 
				+
			
 
				+            <div class="insight-box">
			
 
				+                <h5>核心发现</h5>
			
 
				+                <p>同品类承接（进入品类=承接品类）的裂变率显著高于跨品类承接，约为 <strong id="insight-ratio">-</strong> 倍。
			
 
				+                这说明用户对同类内容有更强的分享意愿，推荐系统在品类匹配上有优化空间。</p>
			
 
				+            </div>
			
 
				+
			
 
				+            <div class="chart-section">
			
 
				+                <div class="chart-title">各人群同品类 vs 跨品类 vov 对比</div>
			
 
				+                <div class="legend">
			
 
				+                    <div class="legend-item"><div class="legend-color" style="background:#4CAF50"></div>同品类承接</div>
			
 
				+                    <div class="legend-item"><div class="legend-color" style="background:#2196F3"></div>跨品类承接</div>
			
 
				+                </div>
			
 
				+                <div class="bar-chart" id="consistency-chart"></div>
			
 
				+            </div>
			
 
				+
			
 
				+            <div class="chart-section">
			
 
				+                <div class="chart-title">同品类曝光占比</div>
			
 
				+                <div id="exp-ratio-chart" style="display:flex;gap:20px;justify-content:center;"></div>
			
 
				+            </div>
			
 
				+        </div>
			
 
				+
			
 
				+        <!-- Tab 2: 品类亲和性矩阵 -->
			
 
				+        <div id="tab-affinity" class="tab-content">
			
 
				+            <div class="insight-box">
			
 
				+                <h5>亲和性 = 这个组合的表现 / 进入品类的平均表现</h5>
			
 
				+                <p>
			
 
				+                <strong>举例</strong>：用户从「搞笑段子」进入，平均裂变率 0.4<br>
			
 
				+                • 推荐「搞笑段子→搞笑段子」裂变率 0.8，亲和性 = 0.8/0.4 = <span style="color:#2e7d32;font-weight:bold">2.0 ✓ 更对味</span><br>
			
 
				+                • 推荐「搞笑段子→历史名人」裂变率 0.2，亲和性 = 0.2/0.4 = <span style="color:#c62828;font-weight:bold">0.5 ✗ 不对味</span><br><br>
			
 
				+                <strong>颜色</strong>：<span style="background:#c8e6c9;padding:2px 6px;border-radius:3px">绿色=高亲和</span>
			
 
				+                <span style="background:#ffcdd2;padding:2px 6px;border-radius:3px;margin-left:10px">红色=低亲和</span>
			
 
				+                </p>
			
 
				+            </div>
			
 
				+
			
 
				+            <div class="controls">
			
 
				+                <div class="control-group date-switcher">
			
 
				+                    <label>日期:</label>
			
 
				+                    <button onclick="switchMatrixDate(-1)">◀</button>
			
 
				+                    <select id="matrix-date" onchange="updateMatrix()">
			
 
				+                        {date_options_html}
			
 
				+                    </select>
			
 
				+                    <button onclick="switchMatrixDate(1)">▶</button>
			
 
				+                    <button id="matrix-play-btn" class="play-btn" onclick="toggleMatrixPlay()">▶ 播放</button>
			
 
				+                </div>
			
 
				+                <div class="control-group">
			
 
				+                    <label>人群:</label>
			
 
				+                    <select id="matrix-crowd" onchange="updateMatrix()">
			
 
				+                        <option value="整体" selected>整体</option>
			
 
				+                        <option value="内部">内部</option>
			
 
				+                        <option value="外部0层">外部0层</option>
			
 
				+                        <option value="外部裂变">外部裂变</option>
			
 
				+                    </select>
			
 
				+                </div>
			
 
				+                <div class="control-group">
			
 
				+                    <label>显示指标:</label>
			
 
				+                    <select id="matrix-metric" onchange="updateMatrix()">
			
 
				+                        <option value="affinity" selected>亲和性 (affinity)</option>
			
 
				+                        <option value="vov">裂变率 (vov)</option>
			
 
				+                        <option value="exp">曝光量 (exp)</option>
			
 
				+                    </select>
			
 
				+                </div>
			
 
				+            </div>
			
 
				+
			
 
				+            <div class="matrix-container">
			
 
				+                <table id="affinity-table">
			
 
				+                    <thead id="affinity-header"></thead>
			
 
				+                    <tbody id="affinity-body"></tbody>
			
 
				+                </table>
			
 
				+            </div>
			
 
				+        </div>
			
 
				+
			
 
				+        <!-- Tab 4: 品类组合排名 -->
			
 
				+        <div id="tab-ranking" class="tab-content">
			
 
				+            <div class="insight-box">
			
 
				+                <h5>筛选条件</h5>
			
 
				+                <p>仅展示在 ≥2 个人群中都有数据且曝光量 ≥1000 的品类组合，确保结果稳定可靠。</p>
			
 
				+            </div>
			
 
				+
			
 
				+            <div class="controls">
			
 
				+                <div class="control-group date-switcher">
			
 
				+                    <label>日期:</label>
			
 
				+                    <button onclick="switchRankingDate(-1)">◀</button>
			
 
				+                    <select id="ranking-date" onchange="initRanking()">
			
 
				+                        {date_options_html}
			
 
				+                    </select>
			
 
				+                    <button onclick="switchRankingDate(1)">▶</button>
			
 
				+                    <button id="ranking-play-btn" class="play-btn" onclick="toggleRankingPlay()">▶ 播放</button>
			
 
				+                </div>
			
 
				+                <div class="control-group">
			
 
				+                    <label>人群:</label>
			
 
				+                    <select id="ranking-crowd" onchange="initRanking()">
			
 
				+                        <option value="整体" selected>整体</option>
			
 
				+                        <option value="内部">内部</option>
			
 
				+                        <option value="外部0层">外部0层</option>
			
 
				+                        <option value="外部裂变">外部裂变</option>
			
 
				+                    </select>
			
 
				+                </div>
			
 
				+                <div class="control-group">
			
 
				+                    <label>展示数量:</label>
			
 
				+                    <select id="ranking-topn" onchange="initRanking()">
			
 
				+                        <option value="20">Top 20</option>
			
 
				+                        <option value="50">Top 50</option>
			
 
				+                        <option value="100">Top 100</option>
			
 
				+                    </select>
			
 
				+                </div>
			
 
				+            </div>
			
 
				+
			
 
				+            <div class="ranking-section">
			
 
				+                <div class="ranking-box high">
			
 
				+                    <h4>Top 20 高裂变品类组合</h4>
			
 
				+                    <table class="ranking-table" id="high-ranking"></table>
			
 
				+                </div>
			
 
				+                <div class="ranking-box low">
			
 
				+                    <h4>Top 20 低裂变品类组合</h4>
			
 
				+                    <table class="ranking-table" id="low-ranking"></table>
			
 
				+                </div>
			
 
				+            </div>
			
 
				+        </div>
			
 
				+    </div>
			
 
				+
			
 
				+    <script>
			
 
				+    const consistencyData = {consistency_json};
			
 
				+    const matrixData = {matrix_json};
			
 
				+    const rankingData = {ranking_json};
			
 
				+    const dateList = {dates_json};
			
 
				+
			
 
				+    let matrixPlayInterval = null;
			
 
				+    let rankingPlayInterval = null;
			
 
				+
			
 
				+    // Tab switching
			
 
				+    function switchTab(tabId) {{
			
 
				+        document.querySelectorAll('.tab').forEach(t => t.classList.remove('active'));
			
 
				+        document.querySelectorAll('.tab-content').forEach(c => c.classList.remove('active'));
			
 
				+        document.querySelector(`[onclick="switchTab('${{tabId}}')"]`).classList.add('active');
			
 
				+        document.getElementById('tab-' + tabId).classList.add('active');
			
 
				+    }}
			
 
				+
			
 
				+    // Initialize consistency chart
			
 
				+    function initConsistency() {{
			
 
				+        const data = consistencyData;
			
 
				+        document.getElementById('same-vov').textContent = data.total_same.toFixed(4);
			
 
				+        document.getElementById('diff-vov').textContent = data.total_diff.toFixed(4);
			
 
				+        document.getElementById('vov-ratio').textContent = data.total_ratio.toFixed(2) + 'x';
			
 
				+        document.getElementById('insight-ratio').textContent = data.total_ratio.toFixed(2);
			
 
				+
			
 
				+        const maxVov = Math.max(...data.same, ...data.diff);
			
 
				+        const chartHtml = data.crowds.map((crowd, i) => {{
			
 
				+            const sameH = Math.round(data.same[i] / maxVov * 180);
			
 
				+            const diffH = Math.round(data.diff[i] / maxVov * 180);
			
 
				+            return `
			
 
				+                <div class="bar-group">
			
 
				+                    <div class="bar-pair">
			
 
				+                        <div class="bar" style="height:${{sameH}}px;background:#4CAF50">
			
 
				+                            <span class="bar-value">${{data.same[i].toFixed(4)}}</span>
			
 
				+                        </div>
			
 
				+                        <div class="bar" style="height:${{diffH}}px;background:#2196F3">
			
 
				+                            <span class="bar-value">${{data.diff[i].toFixed(4)}}</span>
			
 
				+                        </div>
			
 
				+                    </div>
			
 
				+                    <div class="bar-label">${{crowd}}</div>
			
 
				+                    <div class="bar-ratio">${{data.ratio[i]}}x</div>
			
 
				+                </div>
			
 
				+            `;
			
 
				+        }}).join('');
			
 
				+        document.getElementById('consistency-chart').innerHTML = chartHtml;
			
 
				+
			
 
				+        // Exp ratio
			
 
				+        const expHtml = data.crowds.map((crowd, i) => {{
			
 
				+            const total = data.same_exp[i] + data.diff_exp[i];
			
 
				+            const sameRatio = total > 0 ? (data.same_exp[i] / total * 100).toFixed(1) : 0;
			
 
				+            return `
			
 
				+                <div style="text-align:center">
			
 
				+                    <div style="font-size:13px;margin-bottom:5px">${{crowd}}</div>
			
 
				+                    <div style="width:150px;height:20px;background:#e0e0e0;border-radius:10px;overflow:hidden">
			
 
				+                        <div style="width:${{sameRatio}}%;height:100%;background:#4CAF50"></div>
			
 
				+                    </div>
			
 
				+                    <div style="font-size:11px;color:#666;margin-top:3px">同品类占比: ${{sameRatio}}%</div>
			
 
				+                </div>
			
 
				+            `;
			
 
				+        }}).join('');
			
 
				+        document.getElementById('exp-ratio-chart').innerHTML = expHtml;
			
 
				+    }}
			
 
				+
			
 
				+    // Matrix
			
 
				+    function updateMatrix() {{
			
 
				+        const date = document.getElementById('matrix-date').value;
			
 
				+        const crowd = document.getElementById('matrix-crowd').value;
			
 
				+        const metric = document.getElementById('matrix-metric').value;
			
 
				+
			
 
				+        if (!matrixData[date] || !matrixData[date][crowd]) {{
			
 
				+            document.getElementById('affinity-header').innerHTML = '<tr><th>无数据</th></tr>';
			
 
				+            document.getElementById('affinity-body').innerHTML = '';
			
 
				+            return;
			
 
				+        }}
			
 
				+
			
 
				+        const data = matrixData[date][crowd];
			
 
				+        const metricData = data[metric];
			
 
				+
			
 
				+        // Calculate color range
			
 
				+        const allVals = [];
			
 
				+        data.rows.forEach(r => data.cols.forEach(c => {{
			
 
				+            const val = metricData[r]?.[c] || 0;
			
 
				+            if (val > 0) allVals.push(val);
			
 
				+        }}));
			
 
				+
			
 
				+        let maxVal, minVal = 0;
			
 
				+        if (metric === 'affinity') {{
			
 
				+            maxVal = 2; minVal = 0.5;
			
 
				+        }} else if (metric === 'vov') {{
			
 
				+            allVals.sort((a, b) => a - b);
			
 
				+            maxVal = allVals[Math.floor(allVals.length * 0.95)] || 1;
			
 
				+        }} else {{
			
 
				+            allVals.sort((a, b) => a - b);
			
 
				+            maxVal = allVals[Math.floor(allVals.length * 0.9)] || 100000;
			
 
				+        }}
			
 
				+
			
 
				+        function getColor(val) {{
			
 
				+            if (metric === 'affinity') {{
			
 
				+                if (val >= 1) {{
			
 
				+                    const ratio = Math.min((val - 1) / (maxVal - 1), 1);
			
 
				+                    return `rgb(${{Math.round(200 - ratio * 200)}}, ${{Math.round(230 - ratio * 30)}}, ${{Math.round(200 - ratio * 200)}})`;
			
 
				+                }} else {{
			
 
				+                    const ratio = Math.min((1 - val) / (1 - minVal), 1);
			
 
				+                    return `rgb(${{Math.round(230 - ratio * 30)}}, ${{Math.round(200 - ratio * 200)}}, ${{Math.round(200 - ratio * 200)}})`;
			
 
				+                }}
			
 
				+            }} else {{
			
 
				+                const ratio = Math.min(val / maxVal, 1);
			
 
				+                return `rgb(${{Math.round(255 - ratio * 215)}}, ${{Math.round(255 - ratio * 88)}}, ${{Math.round(255 - ratio * 186)}})`;
			
 
				+            }}
			
 
				+        }}
			
 
				+
			
 
				+        const expData = data.exp;
			
 
				+
			
 
				+        // 计算每行和每列的总曝光量
			
 
				+        const rowTotals = {{}};
			
 
				+        const colTotals = {{}};
			
 
				+        data.rows.forEach(r => {{
			
 
				+            rowTotals[r] = data.cols.reduce((sum, c) => sum + (expData[r]?.[c] || 0), 0);
			
 
				+        }});
			
 
				+        data.cols.forEach(c => {{
			
 
				+            colTotals[c] = data.rows.reduce((sum, r) => sum + (expData[r]?.[c] || 0), 0);
			
 
				+        }});
			
 
				+
			
 
				+        document.getElementById('affinity-header').innerHTML = `
			
 
				+            <tr>
			
 
				+                <th class="corner-cell" style="width:120px">进入↓ 承接→</th>
			
 
				+                ${{data.cols.map((c, ci) => `<th data-col="${{ci}}" title="${{c}}\\nexp: ${{colTotals[c].toLocaleString()}}">${{c.length > 6 ? c.substring(0,6) + '..' : c}}</th>`).join('')}}
			
 
				+            </tr>
			
 
				+        `;
			
 
				+
			
 
				+        document.getElementById('affinity-body').innerHTML = data.rows.map((r, ri) => {{
			
 
				+            const cells = data.cols.map((c, ci) => {{
			
 
				+                const val = metricData[r]?.[c] || 0;
			
 
				+                const exp = expData[r]?.[c] || 0;
			
 
				+                const bg = val > 0 ? getColor(val) : '#f8f9fa';
			
 
				+                const isDiagonal = (r === c);  // 对角线：同品类承接
			
 
				+                let display;
			
 
				+                if (metric === 'exp') {{
			
 
				+                    display = val > 0 ? (val >= 10000 ? Math.round(val/1000) + 'k' : val) : '-';
			
 
				+                }} else {{
			
 
				+                    display = val > 0 ? val.toFixed(2) : '-';
			
 
				+                }}
			
 
				+                // 计算横向和纵向占比
			
 
				+                const rowPct = rowTotals[r] > 0 ? (exp / rowTotals[r] * 100).toFixed(1) : '0.0';
			
 
				+                const colPct = colTotals[c] > 0 ? (exp / colTotals[c] * 100).toFixed(1) : '0.0';
			
 
				+                const tooltip = `进入: ${{r}}\\n承接: ${{c}}\\n${{metric}}: ${{val}}\\nexp: ${{exp.toLocaleString()}}\\n横向占比: ${{rowPct}}%\\n纵向占比: ${{colPct}}%${{isDiagonal ? '\\n★ 同品类承接' : ''}}`;
			
 
				+                const border = isDiagonal ? 'border:2px solid #1565C0;' : '';
			
 
				+                return `<td data-row="${{ri}}" data-col="${{ci}}" style="background:${{bg}};${{border}}" title="${{tooltip}}" onmouseenter="highlightCell(${{ri}},${{ci}})" onmouseleave="unhighlightCell()">${{display}}</td>`;
			
 
				+            }}).join('');
			
 
				+            return `<tr><td class="row-header" data-row="${{ri}}" title="${{r}}\\nexp: ${{rowTotals[r].toLocaleString()}}">${{r.length > 10 ? r.substring(0,10) + '..' : r}}</td>${{cells}}</tr>`;
			
 
				+        }}).join('');
			
 
				+    }}
			
 
				+
			
 
				+    // Highlight row/col headers on cell hover
			
 
				+    function highlightCell(row, col) {{
			
 
				+        // Highlight column header
			
 
				+        document.querySelectorAll('#affinity-header th[data-col]').forEach(th => {{
			
 
				+            if (parseInt(th.dataset.col) === col) th.classList.add('highlight');
			
 
				+        }});
			
 
				+        // Highlight row header
			
 
				+        document.querySelectorAll('#affinity-body .row-header').forEach(td => {{
			
 
				+            if (parseInt(td.dataset.row) === row) td.classList.add('highlight');
			
 
				+        }});
			
 
				+    }}
			
 
				+
			
 
				+    function unhighlightCell() {{
			
 
				+        document.querySelectorAll('.highlight').forEach(el => el.classList.remove('highlight'));
			
 
				+    }}
			
 
				+
			
 
				+    // Ranking
			
 
				+    function initRanking() {{
			
 
				+        const date = document.getElementById('ranking-date').value;
			
 
				+        const crowd = document.getElementById('ranking-crowd').value;
			
 
				+        const topN = parseInt(document.getElementById('ranking-topn').value);
			
 
				+
			
 
				+        if (!rankingData[date] || !rankingData[date][crowd]) {{
			
 
				+            document.getElementById('high-ranking').innerHTML = '<tbody><tr><td>无数据</td></tr></tbody>';
			
 
				+            document.getElementById('low-ranking').innerHTML = '<tbody><tr><td>无数据</td></tr></tbody>';
			
 
				+            return;
			
 
				+        }}
			
 
				+
			
 
				+        const data = rankingData[date][crowd];
			
 
				+
			
 
				+        function renderTable(items, tableId) {{
			
 
				+            const sliced = items.slice(0, topN);
			
 
				+            const html = `
			
 
				+                <thead><tr><th class="rn">#</th><th>品类组合</th><th class="vov">vov</th><th class="exp">曝光</th></tr></thead>
			
 
				+                <tbody>
			
 
				+                    ${{sliced.map((item, i) => `
			
 
				+                        <tr>
			
 
				+                            <td class="rn">${{i + 1}}</td>
			
 
				+                            <td>${{item.pair}}</td>
			
 
				+                            <td class="vov">${{item.vov.toFixed(4)}}</td>
			
 
				+                            <td class="exp">${{item.exp.toLocaleString()}}</td>
			
 
				+                        </tr>
			
 
				+                    `).join('')}}
			
 
				+                </tbody>
			
 
				+            `;
			
 
				+            document.getElementById(tableId).innerHTML = html;
			
 
				+        }}
			
 
				+
			
 
				+        // 更新标题
			
 
				+        const dateLabel = date === '全部' ? '' : ` [${{date}}]`;
			
 
				+        const crowdLabel = crowd === '整体' ? '' : ` (${{crowd}})`;
			
 
				+        document.querySelector('.ranking-box.high h4').textContent = `Top ${{topN}} 高裂变品类组合${{crowdLabel}}${{dateLabel}}`;
			
 
				+        document.querySelector('.ranking-box.low h4').textContent = `Top ${{topN}} 低裂变品类组合${{crowdLabel}}${{dateLabel}}`;
			
 
				+
			
 
				+        renderTable(data.high, 'high-ranking');
			
 
				+        renderTable(data.low, 'low-ranking');
			
 
				+    }}
			
 
				+
			
 
				+    // Matrix date switching
			
 
				+    function switchMatrixDate(delta) {{
			
 
				+        const select = document.getElementById('matrix-date');
			
 
				+        const idx = dateList.indexOf(select.value);
			
 
				+        const newIdx = idx + delta;
			
 
				+        if (newIdx >= 0 && newIdx < dateList.length) {{
			
 
				+            select.value = dateList[newIdx];
			
 
				+            updateMatrix();
			
 
				+        }}
			
 
				+    }}
			
 
				+
			
 
				+    function toggleMatrixPlay() {{
			
 
				+        const btn = document.getElementById('matrix-play-btn');
			
 
				+        if (matrixPlayInterval) {{
			
 
				+            clearInterval(matrixPlayInterval);
			
 
				+            matrixPlayInterval = null;
			
 
				+            btn.classList.remove('playing');
			
 
				+            btn.textContent = '▶ 播放';
			
 
				+        }} else {{
			
 
				+            btn.classList.add('playing');
			
 
				+            btn.textContent = '⏸ 停止';
			
 
				+            let idx = 1;  // 从第一个日期开始（跳过"全部"）
			
 
				+            const play = () => {{
			
 
				+                if (idx >= dateList.length) {{
			
 
				+                    clearInterval(matrixPlayInterval);
			
 
				+                    matrixPlayInterval = null;
			
 
				+                    btn.classList.remove('playing');
			
 
				+                    btn.textContent = '▶ 播放';
			
 
				+                    return;
			
 
				+                }}
			
 
				+                document.getElementById('matrix-date').value = dateList[idx];
			
 
				+                updateMatrix();
			
 
				+                idx++;
			
 
				+            }};
			
 
				+            play();
			
 
				+            matrixPlayInterval = setInterval(play, 1500);
			
 
				+        }}
			
 
				+    }}
			
 
				+
			
 
				+    // Ranking date switching
			
 
				+    function switchRankingDate(delta) {{
			
 
				+        const select = document.getElementById('ranking-date');
			
 
				+        const idx = dateList.indexOf(select.value);
			
 
				+        const newIdx = idx + delta;
			
 
				+        if (newIdx >= 0 && newIdx < dateList.length) {{
			
 
				+            select.value = dateList[newIdx];
			
 
				+            initRanking();
			
 
				+        }}
			
 
				+    }}
			
 
				+
			
 
				+    function toggleRankingPlay() {{
			
 
				+        const btn = document.getElementById('ranking-play-btn');
			
 
				+        if (rankingPlayInterval) {{
			
 
				+            clearInterval(rankingPlayInterval);
			
 
				+            rankingPlayInterval = null;
			
 
				+            btn.classList.remove('playing');
			
 
				+            btn.textContent = '▶ 播放';
			
 
				+        }} else {{
			
 
				+            btn.classList.add('playing');
			
 
				+            btn.textContent = '⏸ 停止';
			
 
				+            let idx = 1;
			
 
				+            const play = () => {{
			
 
				+                if (idx >= dateList.length) {{
			
 
				+                    clearInterval(rankingPlayInterval);
			
 
				+                    rankingPlayInterval = null;
			
 
				+                    btn.classList.remove('playing');
			
 
				+                    btn.textContent = '▶ 播放';
			
 
				+                    return;
			
 
				+                }}
			
 
				+                document.getElementById('ranking-date').value = dateList[idx];
			
 
				+                initRanking();
			
 
				+                idx++;
			
 
				+            }};
			
 
				+            play();
			
 
				+            rankingPlayInterval = setInterval(play, 1500);
			
 
				+        }}
			
 
				+    }}
			
 
				+
			
 
				+    // Initialize
			
 
				+    initConsistency();
			
 
				+    updateMatrix();
			
 
				+    initRanking();
			
 
				+    </script>
			
 
				+</body>
			
 
				+</html>
			
 
				+"""
			
 
				+
			
 
				+html_file = output_dir / f"{latest_file.stem}_品类相关性分析.html"
			
 
				+with open(html_file, 'w', encoding='utf-8') as f:
			
 
				+    f.write(html_content)
			
 
				+
			
 
				+print(f"\nHTML 报告已生成: {html_file}")
			
--- a/tasks/人群品类曝光分析/头部品类分析_过滤小量/visualize.py
+++ b/tasks/人群品类曝光分析/头部品类分析_过滤小量/visualize.py
@@ -0,0 +1,874 @@
 
				+#!/usr/bin/env python
			
 
				+# coding=utf-8
			
 
				+"""
			
 
				+头部品类分析可视化
			
 
				+Tab 1: Matrix - 头部品类 × 推荐品类矩阵
			
 
				+Tab 2: Compare - Top 10 品类人群对比
			
 
				+"""
			
 
				+import pandas as pd
			
 
				+import json
			
 
				+from pathlib import Path
			
 
				+
			
 
				+task_dir = Path(__file__).parent
			
 
				+output_dir = task_dir / "output"
			
 
				+
			
 
				+# 找到最新的原始数据文件
			
 
				+csv_files = [f for f in output_dir.glob("query_*.csv")]
			
 
				+if not csv_files:
			
 
				+    print("没有找到数据文件，请先运行 query.sql")
			
 
				+    exit(1)
			
 
				+
			
 
				+latest_file = max(csv_files, key=lambda x: x.stat().st_mtime)
			
 
				+df = pd.read_csv(latest_file)
			
 
				+
			
 
				+print(f"分析文件: {latest_file.name}")
			
 
				+print(f"时间范围: {df['dt'].min()} ~ {df['dt'].max()}")
			
 
				+
			
 
				+# 日期列表
			
 
				+all_dates = sorted([str(d) for d in df['dt'].unique()])
			
 
				+date_options = ['all'] + all_dates
			
 
				+latest_date = all_dates[-1] if all_dates else 'all'
			
 
				+print(f"日期数: {len(all_dates)}")
			
 
				+
			
 
				+# 人群列表
			
 
				+crowd_list = ['内部', '外部0层', '外部裂变']
			
 
				+print(f"人群: {crowd_list}")
			
 
				+
			
 
				+# 曝光阈值
			
 
				+EXP_THRESHOLD = 1000
			
 
				+
			
 
				+# 计算人群×日期的矩阵数据
			
 
				+def calc_matrix_data(crowd, date=None):
			
 
				+    ch_df = df[df['crowd'] == crowd].copy()
			
 
				+    if date and date != 'all':
			
 
				+        ch_df = ch_df[ch_df['dt'].astype(str) == str(date)]
			
 
				+    if len(ch_df) == 0:
			
 
				+        return None
			
 
				+
			
 
				+    row_col = 'head_cate2'
			
 
				+    col_col = 'rec_cate2'
			
 
				+
			
 
				+    matrix = ch_df.groupby([row_col, col_col]).agg({
			
 
				+        'exp': 'sum',
			
 
				+        'share_cnt': 'sum',
			
 
				+        'return_n_uv': 'sum',
			
 
				+        'new_exposure_cnt': 'sum',
			
 
				+    }).reset_index()
			
 
				+
			
 
				+    matrix = matrix[matrix['exp'] >= EXP_THRESHOLD]
			
 
				+    if len(matrix) == 0:
			
 
				+        return None
			
 
				+
			
 
				+    matrix['str'] = matrix['share_cnt'] / (matrix['exp'] + 1)
			
 
				+    matrix['ros'] = matrix['return_n_uv'] / (matrix['share_cnt'] + 1)
			
 
				+    matrix['rovn'] = matrix['return_n_uv'] / (matrix['exp'] + 1)
			
 
				+    matrix['vov'] = matrix['new_exposure_cnt'] / (matrix['exp'] + 1)
			
 
				+
			
 
				+    exp_pivot = matrix.pivot(index=row_col, columns=col_col, values='exp').fillna(0)
			
 
				+    str_pivot = matrix.pivot(index=row_col, columns=col_col, values='str').fillna(0)
			
 
				+    ros_pivot = matrix.pivot(index=row_col, columns=col_col, values='ros').fillna(0)
			
 
				+    rovn_pivot = matrix.pivot(index=row_col, columns=col_col, values='rovn').fillna(0)
			
 
				+    vov_pivot = matrix.pivot(index=row_col, columns=col_col, values='vov').fillna(0)
			
 
				+
			
 
				+    row_order = exp_pivot.sum(axis=1).sort_values(ascending=False).index.tolist()
			
 
				+    col_order = exp_pivot.sum(axis=0).sort_values(ascending=False).index.tolist()
			
 
				+
			
 
				+    def to_dict(pivot, is_int=False):
			
 
				+        return {str(r): {str(c): int(pivot.loc[r, c]) if is_int else round(float(pivot.loc[r, c]), 4) if c in pivot.columns else 0 for c in col_order} for r in row_order}
			
 
				+
			
 
				+    total_exp = int(ch_df['exp'].sum())
			
 
				+    total_share = int(ch_df['share_cnt'].sum())
			
 
				+    total_return = int(ch_df['return_n_uv'].sum())
			
 
				+
			
 
				+    return {
			
 
				+        'rows': row_order,
			
 
				+        'cols': col_order,
			
 
				+        'exp': to_dict(exp_pivot, is_int=True),
			
 
				+        'str': to_dict(str_pivot),
			
 
				+        'ros': to_dict(ros_pivot),
			
 
				+        'rovn': to_dict(rovn_pivot),
			
 
				+        'vov': to_dict(vov_pivot),
			
 
				+        'total_exp': total_exp,
			
 
				+        'total_str': round(total_share / (total_exp + 1), 4),
			
 
				+        'total_rovn': round(total_return / (total_exp + 1), 4),
			
 
				+    }
			
 
				+
			
 
				+# 计算头部品类下钻数据：head_cate2 -> crowd -> rec_cate2
			
 
				+def calc_head_drill_data(date=None):
			
 
				+    ch_df = df.copy()
			
 
				+    if date and date != 'all':
			
 
				+        ch_df = ch_df[ch_df['dt'].astype(str) == str(date)]
			
 
				+    if len(ch_df) == 0:
			
 
				+        return None
			
 
				+
			
 
				+    # 按 head_cate2 + crowd + rec_cate2 聚合
			
 
				+    agg = ch_df.groupby(['head_cate2', 'crowd', 'rec_cate2']).agg({
			
 
				+        'exp': 'sum',
			
 
				+        'share_cnt': 'sum',
			
 
				+        'return_n_uv': 'sum',
			
 
				+        'new_exposure_cnt': 'sum',
			
 
				+    }).reset_index()
			
 
				+
			
 
				+    agg['str'] = agg['share_cnt'] / (agg['exp'] + 1)
			
 
				+    agg['ros'] = agg['return_n_uv'] / (agg['share_cnt'] + 1)
			
 
				+    agg['rovn'] = agg['return_n_uv'] / (agg['exp'] + 1)
			
 
				+    agg['vov'] = agg['new_exposure_cnt'] / (agg['exp'] + 1)
			
 
				+
			
 
				+    # 构建嵌套字典: head_cate2 -> crowd -> {rec_cate2: metrics}
			
 
				+    result = {}
			
 
				+
			
 
				+    # 添加 "all" 选项：不区分头部品类，按 crowd + rec_cate2 聚合
			
 
				+    agg_all = ch_df.groupby(['crowd', 'rec_cate2']).agg({
			
 
				+        'exp': 'sum',
			
 
				+        'share_cnt': 'sum',
			
 
				+        'return_n_uv': 'sum',
			
 
				+        'new_exposure_cnt': 'sum',
			
 
				+    }).reset_index()
			
 
				+    agg_all['str'] = agg_all['share_cnt'] / (agg_all['exp'] + 1)
			
 
				+    agg_all['ros'] = agg_all['return_n_uv'] / (agg_all['share_cnt'] + 1)
			
 
				+    agg_all['rovn'] = agg_all['return_n_uv'] / (agg_all['exp'] + 1)
			
 
				+    agg_all['vov'] = agg_all['new_exposure_cnt'] / (agg_all['exp'] + 1)
			
 
				+
			
 
				+    result['all'] = {}
			
 
				+    for crowd in crowd_list:
			
 
				+        crowd_df = agg_all[agg_all['crowd'] == crowd]
			
 
				+        result['all'][crowd] = {}
			
 
				+        # 计算整体汇总
			
 
				+        total_exp = int(crowd_df['exp'].sum())
			
 
				+        total_share = crowd_df['share_cnt'].sum()
			
 
				+        total_return = crowd_df['return_n_uv'].sum()
			
 
				+        total_new_exp = crowd_df['new_exposure_cnt'].sum()
			
 
				+        result['all'][crowd]['_total'] = {
			
 
				+            'exp': total_exp,
			
 
				+            'str': round(total_share / (total_exp + 1), 4),
			
 
				+            'ros': round(total_return / (total_share + 1), 4),
			
 
				+            'rovn': round(total_return / (total_exp + 1), 4),
			
 
				+            'vov': round(total_new_exp / (total_exp + 1), 4),
			
 
				+        }
			
 
				+        for _, row in crowd_df.iterrows():
			
 
				+            result['all'][crowd][row['rec_cate2']] = {
			
 
				+                'exp': int(row['exp']),
			
 
				+                'str': round(row['str'], 4),
			
 
				+                'ros': round(row['ros'], 4),
			
 
				+                'rovn': round(row['rovn'], 4),
			
 
				+                'vov': round(row['vov'], 4),
			
 
				+            }
			
 
				+
			
 
				+    # 按头部品类聚合
			
 
				+    for head_cate in agg['head_cate2'].unique():
			
 
				+        result[head_cate] = {}
			
 
				+        for crowd in crowd_list:
			
 
				+            crowd_df = agg[(agg['head_cate2'] == head_cate) & (agg['crowd'] == crowd)]
			
 
				+            result[head_cate][crowd] = {}
			
 
				+            # 计算该头部品类下的整体汇总
			
 
				+            total_exp = int(crowd_df['exp'].sum())
			
 
				+            total_share = crowd_df['share_cnt'].sum()
			
 
				+            total_return = crowd_df['return_n_uv'].sum()
			
 
				+            total_new_exp = crowd_df['new_exposure_cnt'].sum()
			
 
				+            result[head_cate][crowd]['_total'] = {
			
 
				+                'exp': total_exp,
			
 
				+                'str': round(total_share / (total_exp + 1), 4),
			
 
				+                'ros': round(total_return / (total_share + 1), 4),
			
 
				+                'rovn': round(total_return / (total_exp + 1), 4),
			
 
				+                'vov': round(total_new_exp / (total_exp + 1), 4),
			
 
				+            }
			
 
				+            for _, row in crowd_df.iterrows():
			
 
				+                result[head_cate][crowd][row['rec_cate2']] = {
			
 
				+                    'exp': int(row['exp']),
			
 
				+                    'str': round(row['str'], 4),
			
 
				+                    'ros': round(row['ros'], 4),
			
 
				+                    'rovn': round(row['rovn'], 4),
			
 
				+                    'vov': round(row['vov'], 4),
			
 
				+                }
			
 
				+
			
 
				+    # 获取所有头部品类列表（按总曝光排序）
			
 
				+    head_exp = ch_df.groupby('head_cate2')['exp'].sum().sort_values(ascending=False)
			
 
				+    head_list = head_exp.index.tolist()
			
 
				+
			
 
				+    return {
			
 
				+        'heads': ['all'] + head_list,  # all 放在最前面
			
 
				+        'data': result
			
 
				+    }
			
 
				+
			
 
				+
			
 
				+# 预计算所有数据
			
 
				+all_data = {}
			
 
				+for crowd in crowd_list:
			
 
				+    all_data[crowd] = {}
			
 
				+    for dt in date_options:
			
 
				+        matrix = calc_matrix_data(crowd, dt)
			
 
				+        if matrix:
			
 
				+            all_data[crowd][dt] = matrix
			
 
				+
			
 
				+# 预计算头部品类下钻数据
			
 
				+head_drill_data = {}
			
 
				+for dt in date_options:
			
 
				+    drill = calc_head_drill_data(dt)
			
 
				+    if drill:
			
 
				+        head_drill_data[dt] = drill
			
 
				+
			
 
				+# 转为JSON
			
 
				+data_json = json.dumps(all_data, ensure_ascii=False)
			
 
				+head_drill_json = json.dumps(head_drill_data, ensure_ascii=False)
			
 
				+crowd_list_json = json.dumps(crowd_list, ensure_ascii=False)
			
 
				+dates_json = json.dumps(date_options)
			
 
				+
			
 
				+# 日期选项HTML
			
 
				+date_options_html = "".join([
			
 
				+    f'<option value="{dt}" {"selected" if dt == latest_date else ""}>'
			
 
				+    f'{"all" if dt == "all" else dt}</option>'
			
 
				+    for dt in date_options
			
 
				+])
			
 
				+
			
 
				+# 人群选项HTML
			
 
				+crowd_options_html = "".join([
			
 
				+    f'<option value="{c}">{c}</option>'
			
 
				+    for c in crowd_list
			
 
				+])
			
 
				+
			
 
				+html_content = f"""<!DOCTYPE html>
			
 
				+<html>
			
 
				+<head>
			
 
				+    <meta charset="utf-8">
			
 
				+    <title>头部品类分析</title>
			
 
				+    <style>
			
 
				+        * {{ margin: 0; padding: 0; box-sizing: border-box; }}
			
 
				+        body {{ font-family: -apple-system, BlinkMacSystemFont, 'Segoe UI', Roboto, sans-serif;
			
 
				+               background: #f5f5f5; padding: 20px; }}
			
 
				+        .container {{ max-width: 1600px; margin: 0 auto; background: white;
			
 
				+                     border-radius: 8px; padding: 20px; box-shadow: 0 2px 8px rgba(0,0,0,0.1); }}
			
 
				+        h1 {{ font-size: 24px; margin-bottom: 20px; color: #333; }}
			
 
				+        .controls {{ display: flex; gap: 20px; margin-bottom: 20px; align-items: center; flex-wrap: wrap; }}
			
 
				+        .controls .date-switcher {{ margin-left: auto; }}
			
 
				+        .play-btn {{ background: #4CAF50; color: white; border: none; border-radius: 4px; padding: 6px 12px; font-size: 14px; }}
			
 
				+        .play-btn:hover {{ background: #45a049; }}
			
 
				+        .play-btn.playing {{ background: #f44336; }}
			
 
				+        .control-group {{ display: flex; align-items: center; gap: 8px; }}
			
 
				+        .control-group label {{ font-weight: 500; color: #666; }}
			
 
				+        select {{ padding: 8px 12px; border: 1px solid #ddd; border-radius: 4px; font-size: 14px; min-width: 120px; }}
			
 
				+        .summary {{ display: flex; gap: 20px; margin-bottom: 20px; }}
			
 
				+        .stat-card {{ background: #f8f9fa; padding: 15px 20px; border-radius: 6px; text-align: center; }}
			
 
				+        .stat-card h4 {{ font-size: 24px; color: #28a745; margin-bottom: 5px; }}
			
 
				+        .stat-card p {{ font-size: 12px; color: #666; }}
			
 
				+        .matrix-container {{ overflow-x: auto; max-height: 600px; overflow-y: auto; }}
			
 
				+        table {{ border-collapse: collapse; font-size: 11px; }}
			
 
				+        th, td {{ border: 1px solid #e0e0e0; padding: 4px 6px; text-align: center; white-space: nowrap; }}
			
 
				+        th {{ background: #f5f5f5; font-weight: 600; position: sticky; top: 0; z-index: 1; }}
			
 
				+        th:first-child {{ position: sticky; left: 0; z-index: 3; }}
			
 
				+        td:first-child {{ background: #f5f5f5; font-weight: 500; position: sticky; left: 0; z-index: 1; text-align: left; }}
			
 
				+        .corner-cell {{
			
 
				+            position: relative;
			
 
				+            width: 100px;
			
 
				+            height: 50px;
			
 
				+            background: linear-gradient(to top right, #f5f5f5 49.5%, #ccc 49.5%, #ccc 50.5%, #f5f5f5 50.5%);
			
 
				+        }}
			
 
				+        .corner-cell .row-label {{
			
 
				+            position: absolute;
			
 
				+            bottom: 4px;
			
 
				+            left: 4px;
			
 
				+            font-size: 10px;
			
 
				+            color: #666;
			
 
				+        }}
			
 
				+        .corner-cell .col-label {{
			
 
				+            position: absolute;
			
 
				+            top: 4px;
			
 
				+            right: 4px;
			
 
				+            font-size: 10px;
			
 
				+            color: #666;
			
 
				+        }}
			
 
				+        .legend {{ font-size: 12px; color: #666; margin-bottom: 10px; }}
			
 
				+        .date-switcher {{ display: flex; align-items: center; gap: 5px; }}
			
 
				+        .date-switcher button {{ padding: 5px 10px; border: 1px solid #ddd; background: white;
			
 
				+                                cursor: pointer; border-radius: 3px; }}
			
 
				+        .date-switcher button:hover {{ background: #f0f0f0; }}
			
 
				+        .play-btn.playing {{ background: #28a745; color: white; }}
			
 
				+        /* Compare tab styles */
			
 
				+        .chart-container {{ width: 100%; overflow-x: auto; }}
			
 
				+        .bar-chart {{ min-width: 800px; }}
			
 
				+        .bar-group {{ display: flex; align-items: flex-end; gap: 4px; margin-bottom: 8px; }}
			
 
				+        .bar {{ min-width: 60px; text-align: center; font-size: 10px; color: white;
			
 
				+               border-radius: 3px 3px 0 0; transition: all 0.3s; cursor: pointer; }}
			
 
				+        .bar:hover {{ opacity: 0.8; }}
			
 
				+        .bar-label {{ font-size: 11px; color: #333; margin-bottom: 5px; font-weight: 500; }}
			
 
				+        .chart-legend {{ display: flex; gap: 20px; margin-bottom: 15px; }}
			
 
				+        .legend-item {{ display: flex; align-items: center; gap: 5px; font-size: 12px; }}
			
 
				+        .legend-color {{ width: 16px; height: 16px; border-radius: 3px; }}
			
 
				+        .compare-table {{ width: 100%; border-collapse: collapse; }}
			
 
				+        .compare-table th {{ background: #f5f5f5; padding: 8px 10px; text-align: center; font-weight: 600; border: 1px solid #ddd; }}
			
 
				+        .compare-table td {{ padding: 6px 8px; border: 1px solid #eee; text-align: center; }}
			
 
				+        .compare-table .crowd-header {{ background: #e8e8e8; font-size: 14px; }}
			
 
				+        .compare-table .cat-cell {{ text-align: left; padding-left: 10px; }}
			
 
				+        .compare-section {{ display: flex; gap: 20px; }}
			
 
				+        .crowd-block {{ flex: 1; min-width: 250px; }}
			
 
				+        .crowd-block table {{ width: 100%; border-collapse: collapse; }}
			
 
				+        .crowd-block th {{ background: #f0f0f0; padding: 8px; border: 1px solid #ddd; }}
			
 
				+        .crowd-block td {{ padding: 6px 8px; border: 1px solid #eee; }}
			
 
				+        .crowd-block .rn {{ width: 40px; text-align: center; color: #666; }}
			
 
				+        .crowd-block .cat {{ text-align: left; cursor: pointer; transition: all 0.2s; }}
			
 
				+        .crowd-block .val {{ text-align: right; font-family: monospace; }}
			
 
				+        .crowd-block .cat.highlight {{
			
 
				+            font-weight: bold;
			
 
				+        }}
			
 
				+        .crowd-block tr.row-highlight {{
			
 
				+            outline: 2px solid #1565C0;
			
 
				+            outline-offset: -1px;
			
 
				+        }}
			
 
				+    </style>
			
 
				+</head>
			
 
				+<body>
			
 
				+    <div class="container">
			
 
				+        <h1>头部品类 → 推荐品类</h1>
			
 
				+
			
 
				+        <!-- Matrix Tab -->
			
 
				+        <div id="tab-matrix">
			
 
				+            <div class="controls">
			
 
				+                <div class="control-group">
			
 
				+                    <label>人群:</label>
			
 
				+                    <select id="crowd-select" onchange="updateMatrix()">
			
 
				+                        {crowd_options_html}
			
 
				+                    </select>
			
 
				+                </div>
			
 
				+                <div class="control-group">
			
 
				+                    <label>指标:</label>
			
 
				+                    <select id="metric-select" onchange="updateMatrix()">
			
 
				+                        <option value="exp">exp</option>
			
 
				+                        <option value="str">str</option>
			
 
				+                        <option value="ros">ros</option>
			
 
				+                        <option value="rovn">rovn</option>
			
 
				+                        <option value="vov" selected>vov</option>
			
 
				+                    </select>
			
 
				+                </div>
			
 
				+                <div class="control-group date-switcher">
			
 
				+                    <label>日期:</label>
			
 
				+                    <button onclick="switchDate(-1)">◀</button>
			
 
				+                    <select id="date-select" onchange="updateMatrix()">
			
 
				+                        {date_options_html}
			
 
				+                    </select>
			
 
				+                    <button onclick="switchDate(1)">▶</button>
			
 
				+                    <button id="play-btn" class="play-btn" onclick="togglePlay()">▶</button>
			
 
				+                </div>
			
 
				+            </div>
			
 
				+
			
 
				+            <div class="summary" id="summary"></div>
			
 
				+
			
 
				+            <div class="legend">
			
 
				+                行=头部品类，列=推荐品类 | 颜色越深=数值越高 | 点击表头排序
			
 
				+                <button onclick="resetSort()" style="margin-left:15px;padding:3px 10px;cursor:pointer;">重置</button>
			
 
				+            </div>
			
 
				+
			
 
				+            <div class="matrix-container">
			
 
				+                <table id="matrix-table">
			
 
				+                    <thead id="matrix-header"></thead>
			
 
				+                    <tbody id="matrix-body"></tbody>
			
 
				+                </table>
			
 
				+            </div>
			
 
				+
			
 
				+            <!-- 头部品类下钻表格 -->
			
 
				+            <div style="margin-top: 30px; border-top: 2px solid #e0e0e0; padding-top: 20px;">
			
 
				+                <h3 style="margin-bottom: 15px; font-size: 16px; color: #333;">头部品类下钻：各人群推荐品类 Top N</h3>
			
 
				+                <div class="controls">
			
 
				+                    <div class="control-group">
			
 
				+                        <label>头部品类:</label>
			
 
				+                        <select id="drill-head" onchange="updateHeadDrill()">
			
 
				+                        </select>
			
 
				+                    </div>
			
 
				+                    <div class="control-group">
			
 
				+                        <label>排序:</label>
			
 
				+                        <select id="drill-sort" onchange="updateHeadDrill()">
			
 
				+                            <option value="exp" selected>exp</option>
			
 
				+                            <option value="str">str</option>
			
 
				+                            <option value="ros">ros</option>
			
 
				+                            <option value="rovn">rovn</option>
			
 
				+                            <option value="vov">vov</option>
			
 
				+                        </select>
			
 
				+                    </div>
			
 
				+                    <div class="control-group">
			
 
				+                        <label>展示:</label>
			
 
				+                        <select id="drill-metric" onchange="updateHeadDrill()">
			
 
				+                            <option value="exp">exp</option>
			
 
				+                            <option value="str">str</option>
			
 
				+                            <option value="ros">ros</option>
			
 
				+                            <option value="rovn">rovn</option>
			
 
				+                            <option value="vov" selected>vov</option>
			
 
				+                        </select>
			
 
				+                    </div>
			
 
				+                    <div class="control-group">
			
 
				+                        <label>Top:</label>
			
 
				+                        <select id="drill-topn" onchange="updateHeadDrill()">
			
 
				+                            <option value="5">5</option>
			
 
				+                            <option value="10" selected>10</option>
			
 
				+                            <option value="15">15</option>
			
 
				+                            <option value="20">20</option>
			
 
				+                        </select>
			
 
				+                    </div>
			
 
				+                    <div class="control-group date-switcher">
			
 
				+                        <label>日期:</label>
			
 
				+                        <button onclick="switchDrillDate(-1)">◀</button>
			
 
				+                        <select id="drill-date" onchange="updateHeadDrill()">
			
 
				+                            {date_options_html}
			
 
				+                        </select>
			
 
				+                        <button onclick="switchDrillDate(1)">▶</button>
			
 
				+                        <button id="drill-play-btn" class="play-btn" onclick="toggleDrillPlay()">▶</button>
			
 
				+                    </div>
			
 
				+                </div>
			
 
				+                <div class="compare-section" id="drill-section"></div>
			
 
				+            </div>
			
 
				+        </div>
			
 
				+
			
 
				+    </div>
			
 
				+
			
 
				+    <script>
			
 
				+    const allData = {data_json};
			
 
				+    const headDrillData = {head_drill_json};
			
 
				+    const crowdList = {crowd_list_json};
			
 
				+    const dates = {dates_json};
			
 
				+    const crowdColors = {{ '内部': '#4CAF50', '外部0层': '#2196F3', '外部裂变': '#FF9800' }};
			
 
				+    let playInterval = null;
			
 
				+    let drillPlayInterval = null;
			
 
				+    let currentRowOrder = null;
			
 
				+    let currentColOrder = null;
			
 
				+    let sortState = {{ row: null, col: null, asc: true }};
			
 
				+    let lastCrowd = null;
			
 
				+    let lastDate = null;
			
 
				+
			
 
				+    function getGradient(val, maxVal, minVal = 0) {{
			
 
				+        if (val <= minVal || maxVal <= minVal) return '#f8f9fa';
			
 
				+        const ratio = Math.min((val - minVal) / (maxVal - minVal), 1);
			
 
				+        const r = Math.round(255 - ratio * 215);
			
 
				+        const g = Math.round(255 - ratio * 88);
			
 
				+        const b = Math.round(255 - ratio * 186);
			
 
				+        return `rgb(${{r}},${{g}},${{b}})`;
			
 
				+    }}
			
 
				+
			
 
				+    function updateMatrix() {{
			
 
				+        const crowd = document.getElementById('crowd-select').value;
			
 
				+        const metric = document.getElementById('metric-select').value;
			
 
				+        const date = document.getElementById('date-select').value;
			
 
				+
			
 
				+        if (!allData[crowd] || !allData[crowd][date]) {{
			
 
				+            document.getElementById('summary').innerHTML = '<div class="stat-card"><h4>-</h4><p>no data</p></div>';
			
 
				+            document.getElementById('matrix-header').innerHTML = '';
			
 
				+            document.getElementById('matrix-body').innerHTML = '';
			
 
				+            return;
			
 
				+        }}
			
 
				+
			
 
				+        const data = allData[crowd][date];
			
 
				+
			
 
				+        document.getElementById('summary').innerHTML = `
			
 
				+            <div class="stat-card"><h4>${{data.total_exp.toLocaleString()}}</h4><p>总 exp</p></div>
			
 
				+            <div class="stat-card"><h4>${{data.total_str.toFixed(4)}}</h4><p>总 str</p></div>
			
 
				+            <div class="stat-card"><h4>${{data.total_rovn.toFixed(4)}}</h4><p>总 rovn</p></div>
			
 
				+            <div class="stat-card"><h4>${{data.rows.length}}</h4><p>头部品类数</p></div>
			
 
				+            <div class="stat-card"><h4>${{data.cols.length}}</h4><p>推荐品类数</p></div>
			
 
				+        `;
			
 
				+
			
 
				+        const metricData = data[metric];
			
 
				+        const allVals = [];
			
 
				+        data.rows.forEach(r => data.cols.forEach(c => {{
			
 
				+            const val = metricData[r]?.[c] || 0;
			
 
				+            if (val > 0) allVals.push(val);
			
 
				+        }}));
			
 
				+        allVals.sort((a, b) => a - b);
			
 
				+
			
 
				+        const p95Idx = Math.floor(allVals.length * 0.95);
			
 
				+        let maxVal = allVals.length > 0 ? allVals[Math.min(p95Idx, allVals.length - 1)] : 0;
			
 
				+        const thresholds = {{ exp: 10000, str: 0.1, ros: 0.5, rovn: 0.05, vov: 0.3 }};
			
 
				+        maxVal = Math.max(maxVal, thresholds[metric] || 0.1);
			
 
				+
			
 
				+        // 切换人群或日期时，重置排序，使用新数据的 exp 排序
			
 
				+        if (crowd !== lastCrowd || date !== lastDate) {{
			
 
				+            currentRowOrder = null;
			
 
				+            currentColOrder = null;
			
 
				+            sortState = {{ row: null, col: null, asc: true }};
			
 
				+            lastCrowd = crowd;
			
 
				+            lastDate = date;
			
 
				+        }}
			
 
				+
			
 
				+        if (!currentRowOrder) currentRowOrder = [...data.rows];
			
 
				+        if (!currentColOrder) currentColOrder = [...data.cols];
			
 
				+
			
 
				+        const rows = currentRowOrder.filter(r => data.rows.includes(r));
			
 
				+        const cols = currentColOrder.filter(c => data.cols.includes(c));
			
 
				+
			
 
				+        const expData = data.exp;
			
 
				+        const rowExpTotals = {{}};
			
 
				+        const colExpTotals = {{}};
			
 
				+        rows.forEach(r => {{ rowExpTotals[r] = cols.reduce((sum, c) => sum + (expData[r]?.[c] || 0), 0); }});
			
 
				+        cols.forEach(c => {{ colExpTotals[c] = rows.reduce((sum, r) => sum + (expData[r]?.[c] || 0), 0); }});
			
 
				+
			
 
				+        // 计算原始排名（按exp排序）
			
 
				+        const origRowOrder = [...data.rows];
			
 
				+        const origColOrder = [...data.cols];
			
 
				+
			
 
				+        document.getElementById('matrix-header').innerHTML = `
			
 
				+            <tr>
			
 
				+                <th class="corner-cell" style="cursor:pointer" onclick="sortByRowSum()">
			
 
				+                    <span class="row-label">头部品类 ↓</span>
			
 
				+                    <span class="col-label">推荐品类 →</span>
			
 
				+                </th>
			
 
				+                ${{cols.map((c, i) => {{
			
 
				+                    const origRank = origColOrder.indexOf(c) + 1;
			
 
				+                    return `<th style="cursor:pointer" onclick="sortByCol('${{c}}')" title="推荐品类: ${{c}}&#10;exp排名: #${{origRank}}&#10;exp: ${{colExpTotals[c].toLocaleString()}}">#${{origRank}} ${{c}}</th>`;
			
 
				+                }}).join('')}}
			
 
				+            </tr>
			
 
				+        `;
			
 
				+
			
 
				+        document.getElementById('matrix-body').innerHTML = rows.map((r, ri) => {{
			
 
				+            const origRowRank = origRowOrder.indexOf(r) + 1;
			
 
				+            const cells = cols.map(c => {{
			
 
				+                const val = metricData[r]?.[c] || 0;
			
 
				+                const cellExp = expData[r]?.[c] || 0;
			
 
				+                const bg = getGradient(val, maxVal);
			
 
				+                const display = metric === 'exp' ? parseInt(val).toLocaleString() : val.toFixed(4);
			
 
				+                const rowPct = rowExpTotals[r] > 0 ? (cellExp / rowExpTotals[r] * 100).toFixed(1) : '0.0';
			
 
				+                const colPct = colExpTotals[c] > 0 ? (cellExp / colExpTotals[c] * 100).toFixed(1) : '0.0';
			
 
				+                return `<td style="background:${{bg}}" title="头部: ${{r}}&#10;推荐: ${{c}}&#10;${{metric}}: ${{display}}&#10;exp: ${{cellExp.toLocaleString()}}&#10;横向占比: ${{rowPct}}%&#10;纵向占比: ${{colPct}}%">${{display}}</td>`;
			
 
				+            }}).join('');
			
 
				+            return `<tr><td style="cursor:pointer;background:#f5f5f5" onclick="sortByRow('${{r}}')" title="头部品类: ${{r}}&#10;exp排名: #${{origRowRank}}&#10;exp: ${{rowExpTotals[r].toLocaleString()}}">#${{origRowRank}} ${{r}}</td>${{cells}}</tr>`;
			
 
				+        }}).join('');
			
 
				+    }}
			
 
				+
			
 
				+    function switchDate(delta) {{
			
 
				+        const select = document.getElementById('date-select');
			
 
				+        const idx = dates.indexOf(select.value);
			
 
				+        const newIdx = idx + delta;
			
 
				+        if (newIdx >= 0 && newIdx < dates.length) {{
			
 
				+            select.value = dates[newIdx];
			
 
				+            updateMatrix();
			
 
				+        }}
			
 
				+    }}
			
 
				+
			
 
				+    function switchDrillDate(delta) {{
			
 
				+        const select = document.getElementById('drill-date');
			
 
				+        const idx = dates.indexOf(select.value);
			
 
				+        const newIdx = idx + delta;
			
 
				+        if (newIdx >= 0 && newIdx < dates.length) {{
			
 
				+            select.value = dates[newIdx];
			
 
				+            // 触发 change 事件以更新头部品类列表
			
 
				+            select.dispatchEvent(new Event('change'));
			
 
				+        }}
			
 
				+    }}
			
 
				+
			
 
				+    function toggleDrillPlay() {{
			
 
				+        const btn = document.getElementById('drill-play-btn');
			
 
				+        if (drillPlayInterval) {{
			
 
				+            clearInterval(drillPlayInterval);
			
 
				+            drillPlayInterval = null;
			
 
				+            btn.classList.remove('playing');
			
 
				+            btn.textContent = '▶';
			
 
				+        }} else {{
			
 
				+            btn.classList.add('playing');
			
 
				+            btn.textContent = '⏸';
			
 
				+            let idx = 0;
			
 
				+            const play = () => {{
			
 
				+                if (idx >= dates.length) {{
			
 
				+                    clearInterval(drillPlayInterval);
			
 
				+                    drillPlayInterval = null;
			
 
				+                    btn.classList.remove('playing');
			
 
				+                    btn.textContent = '▶';
			
 
				+                    return;
			
 
				+                }}
			
 
				+                document.getElementById('drill-date').value = dates[idx];
			
 
				+                document.getElementById('drill-date').dispatchEvent(new Event('change'));
			
 
				+                idx++;
			
 
				+            }};
			
 
				+            play();
			
 
				+            drillPlayInterval = setInterval(play, 1500);
			
 
				+        }}
			
 
				+    }}
			
 
				+
			
 
				+    function togglePlay() {{
			
 
				+        const btn = document.getElementById('play-btn');
			
 
				+        if (playInterval) {{
			
 
				+            clearInterval(playInterval);
			
 
				+            playInterval = null;
			
 
				+            btn.classList.remove('playing');
			
 
				+            btn.textContent = '▶';
			
 
				+        }} else {{
			
 
				+            btn.classList.add('playing');
			
 
				+            btn.textContent = '⏸';
			
 
				+            let idx = 0;
			
 
				+            const play = () => {{
			
 
				+                if (idx >= dates.length) {{
			
 
				+                    clearInterval(playInterval);
			
 
				+                    playInterval = null;
			
 
				+                    btn.classList.remove('playing');
			
 
				+                    btn.textContent = '▶';
			
 
				+                    return;
			
 
				+                }}
			
 
				+                document.getElementById('date-select').value = dates[idx];
			
 
				+                updateMatrix();
			
 
				+                idx++;
			
 
				+            }};
			
 
				+            play();
			
 
				+            playInterval = setInterval(play, 1500);
			
 
				+        }}
			
 
				+    }}
			
 
				+
			
 
				+    function getCurrentData() {{
			
 
				+        const crowd = document.getElementById('crowd-select').value;
			
 
				+        const date = document.getElementById('date-select').value;
			
 
				+        const metric = document.getElementById('metric-select').value;
			
 
				+        if (!allData[crowd] || !allData[crowd][date]) return null;
			
 
				+        return {{ data: allData[crowd][date], metric }};
			
 
				+    }}
			
 
				+
			
 
				+    function sortByRowSum() {{
			
 
				+        const result = getCurrentData();
			
 
				+        if (!result) return;
			
 
				+        const {{ data, metric }} = result;
			
 
				+        const metricData = data[metric];
			
 
				+        const rowSums = {{}};
			
 
				+        data.rows.forEach(r => {{ rowSums[r] = data.cols.reduce((sum, c) => sum + (metricData[r]?.[c] || 0), 0); }});
			
 
				+        sortState.asc = sortState.row === 'sum' ? !sortState.asc : false;
			
 
				+        sortState.row = 'sum';
			
 
				+        currentRowOrder = [...data.rows].sort((a, b) => sortState.asc ? rowSums[a] - rowSums[b] : rowSums[b] - rowSums[a]);
			
 
				+        updateMatrix();
			
 
				+    }}
			
 
				+
			
 
				+    function sortByCol(colName) {{
			
 
				+        const result = getCurrentData();
			
 
				+        if (!result) return;
			
 
				+        const {{ data, metric }} = result;
			
 
				+        const metricData = data[metric];
			
 
				+        sortState.asc = sortState.col === colName ? !sortState.asc : false;
			
 
				+        sortState.col = colName;
			
 
				+        currentRowOrder = [...data.rows].sort((a, b) => {{
			
 
				+            const va = metricData[a]?.[colName] || 0;
			
 
				+            const vb = metricData[b]?.[colName] || 0;
			
 
				+            return sortState.asc ? va - vb : vb - va;
			
 
				+        }});
			
 
				+        updateMatrix();
			
 
				+    }}
			
 
				+
			
 
				+    function sortByRow(rowName) {{
			
 
				+        const result = getCurrentData();
			
 
				+        if (!result) return;
			
 
				+        const {{ data, metric }} = result;
			
 
				+        const metricData = data[metric];
			
 
				+        sortState.asc = sortState.row === rowName ? !sortState.asc : false;
			
 
				+        sortState.row = rowName;
			
 
				+        currentColOrder = [...data.cols].sort((a, b) => {{
			
 
				+            const va = metricData[rowName]?.[a] || 0;
			
 
				+            const vb = metricData[rowName]?.[b] || 0;
			
 
				+            return sortState.asc ? va - vb : vb - va;
			
 
				+        }});
			
 
				+        updateMatrix();
			
 
				+    }}
			
 
				+
			
 
				+    function resetSort() {{
			
 
				+        currentRowOrder = null;
			
 
				+        currentColOrder = null;
			
 
				+        sortState = {{ row: null, col: null, asc: true }};
			
 
				+        updateMatrix();
			
 
				+    }}
			
 
				+
			
 
				+    function highlightCat(el) {{
			
 
				+        const cat = el.getAttribute('data-cat');
			
 
				+        document.querySelectorAll('.cat[data-cat]').forEach(cell => {{
			
 
				+            if (cell.getAttribute('data-cat') === cat) {{
			
 
				+                cell.classList.add('highlight');
			
 
				+                cell.closest('tr').classList.add('row-highlight');
			
 
				+            }}
			
 
				+        }});
			
 
				+    }}
			
 
				+
			
 
				+    function unhighlightCat() {{
			
 
				+        document.querySelectorAll('.cat.highlight').forEach(cell => {{
			
 
				+            cell.classList.remove('highlight');
			
 
				+            cell.closest('tr').classList.remove('row-highlight');
			
 
				+        }});
			
 
				+    }}
			
 
				+
			
 
				+    // 初始化头部品类下钻
			
 
				+    function initHeadDrill() {{
			
 
				+        const date = document.getElementById('drill-date').value;
			
 
				+        const headSelect = document.getElementById('drill-head');
			
 
				+
			
 
				+        if (!headDrillData[date]) {{
			
 
				+            headSelect.innerHTML = '<option value="">无数据</option>';
			
 
				+            return;
			
 
				+        }}
			
 
				+
			
 
				+        const heads = headDrillData[date].heads;
			
 
				+        headSelect.innerHTML = heads.map((h, i) => {{
			
 
				+            const label = h === 'all' ? '全部（不区分头部品类）' : `#${{i}} ${{h}}`;
			
 
				+            return `<option value="${{h}}">${{label}}</option>`;
			
 
				+        }}).join('');
			
 
				+
			
 
				+        updateHeadDrill();
			
 
				+    }}
			
 
				+
			
 
				+    function updateHeadDrill() {{
			
 
				+        const date = document.getElementById('drill-date').value;
			
 
				+        const headCate = document.getElementById('drill-head').value;
			
 
				+        const sortBy = document.getElementById('drill-sort').value;
			
 
				+        const showMetric = document.getElementById('drill-metric').value;
			
 
				+        const topN = parseInt(document.getElementById('drill-topn').value);
			
 
				+
			
 
				+        // 检查日期变化，更新头部品类列表
			
 
				+        const headSelect = document.getElementById('drill-head');
			
 
				+        if (headDrillData[date] && headSelect.options.length > 0) {{
			
 
				+            const currentHeads = headDrillData[date].heads;
			
 
				+            const firstOption = headSelect.options[0]?.value;
			
 
				+            if (currentHeads[0] !== firstOption) {{
			
 
				+                headSelect.innerHTML = currentHeads.map((h, i) => {{
			
 
				+                    const label = h === 'all' ? '全部（不区分头部品类）' : `#${{i}} ${{h}}`;
			
 
				+                    return `<option value="${{h}}" ${{h === headCate ? 'selected' : ''}}>${{label}}</option>`;
			
 
				+                }}).join('');
			
 
				+            }}
			
 
				+        }}
			
 
				+
			
 
				+        if (!headDrillData[date] || !headCate) {{
			
 
				+            document.getElementById('drill-section').innerHTML = '<p>无数据</p>';
			
 
				+            return;
			
 
				+        }}
			
 
				+
			
 
				+        const data = headDrillData[date].data[headCate];
			
 
				+        if (!data) {{
			
 
				+            document.getElementById('drill-section').innerHTML = '<p>该头部品类无数据</p>';
			
 
				+            return;
			
 
				+        }}
			
 
				+
			
 
				+        // 为每个人群计算 Top N 和整体汇总
			
 
				+        const crowdTopN = {{}};
			
 
				+        const crowdTotal = {{}};
			
 
				+        crowdList.forEach(crowd => {{
			
 
				+            const items = [];
			
 
				+            if (data[crowd]) {{
			
 
				+                for (const cat in data[crowd]) {{
			
 
				+                    if (cat === '_total') {{
			
 
				+                        // 保存整体汇总
			
 
				+                        crowdTotal[crowd] = {{
			
 
				+                            exp: data[crowd][cat].exp || 0,
			
 
				+                            showVal: data[crowd][cat][showMetric] || 0
			
 
				+                        }};
			
 
				+                    }} else {{
			
 
				+                        items.push({{
			
 
				+                            cat: cat,
			
 
				+                            sortVal: data[crowd][cat][sortBy] || 0,
			
 
				+                            showVal: data[crowd][cat][showMetric] || 0,
			
 
				+                            exp: data[crowd][cat].exp || 0
			
 
				+                        }});
			
 
				+                    }}
			
 
				+                }}
			
 
				+            }}
			
 
				+            items.sort((a, b) => b.sortVal - a.sortVal);
			
 
				+            crowdTopN[crowd] = items.slice(0, topN);
			
 
				+        }});
			
 
				+
			
 
				+        // 收集所有品类用于颜色映射
			
 
				+        const allCats = new Set();
			
 
				+        crowdList.forEach(crowd => {{
			
 
				+            crowdTopN[crowd].forEach(item => allCats.add(item.cat));
			
 
				+        }});
			
 
				+        const catList = Array.from(allCats);
			
 
				+
			
 
				+        const catColors = {{}};
			
 
				+        const colorPalette = [
			
 
				+            '#FFCDD2', '#F8BBD0', '#E1BEE7', '#D1C4E9', '#C5CAE9',
			
 
				+            '#BBDEFB', '#B3E5FC', '#B2EBF2', '#B2DFDB', '#C8E6C9',
			
 
				+            '#DCEDC8', '#F0F4C3', '#FFF9C4', '#FFECB3', '#FFE0B2',
			
 
				+            '#FFCCBC', '#D7CCC8', '#CFD8DC', '#BCAAA4', '#B0BEC5'
			
 
				+        ];
			
 
				+        catList.forEach((cat, i) => {{
			
 
				+            catColors[cat] = colorPalette[i % colorPalette.length];
			
 
				+        }});
			
 
				+
			
 
				+        // 计算指标渐变范围
			
 
				+        let maxVal = 0, minVal = Infinity;
			
 
				+        crowdList.forEach(crowd => {{
			
 
				+            crowdTopN[crowd].forEach(item => {{
			
 
				+                if (item.showVal > maxVal) maxVal = item.showVal;
			
 
				+                if (item.showVal < minVal) minVal = item.showVal;
			
 
				+            }});
			
 
				+        }});
			
 
				+        if (minVal === Infinity) minVal = 0;
			
 
				+
			
 
				+        function getValueColor(val) {{
			
 
				+            if (maxVal === minVal) return '#C8E6C9';
			
 
				+            const ratio = (val - minVal) / (maxVal - minVal);
			
 
				+            const r = Math.round(200 - ratio * 120);
			
 
				+            const g = Math.round(230 - ratio * 80);
			
 
				+            const b = Math.round(201 - ratio * 120);
			
 
				+            return `rgb(${{r}},${{g}},${{b}})`;
			
 
				+        }}
			
 
				+
			
 
				+        // 生成表格
			
 
				+        let html = '';
			
 
				+        crowdList.forEach(crowd => {{
			
 
				+            const colSpan = showMetric === 'exp' ? 3 : 4;
			
 
				+            html += `<div class="crowd-block">
			
 
				+                <table>
			
 
				+                    <thead>
			
 
				+                        <tr><th colspan="${{colSpan}}" style="background:${{crowdColors[crowd]}};color:white">${{crowd}}</th></tr>
			
 
				+                        <tr><th class="rn">rn</th><th>推荐品类</th><th>exp</th>${{showMetric !== 'exp' ? `<th>${{showMetric}}</th>` : ''}}</tr>
			
 
				+                    </thead>
			
 
				+                    <tbody>`;
			
 
				+
			
 
				+            if (crowdTopN[crowd].length === 0) {{
			
 
				+                html += `<tr><td colspan="${{colSpan}}" style="color:#999">无数据</td></tr>`;
			
 
				+            }} else {{
			
 
				+                // 先添加整体汇总行 (rn=0)
			
 
				+                if (crowdTotal[crowd]) {{
			
 
				+                    const totalExp = parseInt(crowdTotal[crowd].exp).toLocaleString();
			
 
				+                    const totalMetric = (crowdTotal[crowd].showVal * 100).toFixed(1) + '%';
			
 
				+                    html += `<tr style="background:#f5f5f5;font-weight:bold">
			
 
				+                        <td class="rn">0</td>
			
 
				+                        <td class="cat" style="background:#e0e0e0">整体</td>
			
 
				+                        <td class="val">${{totalExp}}</td>
			
 
				+                        ${{showMetric !== 'exp' ? `<td class="val">${{totalMetric}}</td>` : ''}}
			
 
				+                    </tr>`;
			
 
				+                }}
			
 
				+                // 添加 Top N 品类
			
 
				+                crowdTopN[crowd].forEach((item, i) => {{
			
 
				+                    const expDisplay = parseInt(item.exp).toLocaleString();
			
 
				+                    const metricDisplay = (item.showVal * 100).toFixed(1) + '%';
			
 
				+                    const valColor = getValueColor(item.showVal);
			
 
				+                    const catColor = catColors[item.cat];
			
 
				+                    const catAttr = item.cat.replace(/"/g, '&quot;');
			
 
				+                    html += `<tr>
			
 
				+                        <td class="rn">${{i + 1}}</td>
			
 
				+                        <td class="cat" style="background:${{catColor}}" data-cat="${{catAttr}}" onmouseenter="highlightCat(this)" onmouseleave="unhighlightCat()">${{item.cat}}</td>
			
 
				+                        <td class="val">${{expDisplay}}</td>
			
 
				+                        ${{showMetric !== 'exp' ? `<td class="val" style="background:${{valColor}}">${{metricDisplay}}</td>` : ''}}
			
 
				+                    </tr>`;
			
 
				+                }});
			
 
				+            }}
			
 
				+
			
 
				+            html += `</tbody></table></div>`;
			
 
				+        }});
			
 
				+
			
 
				+        document.getElementById('drill-section').innerHTML = html;
			
 
				+    }}
			
 
				+
			
 
				+    // 监听日期变化，更新头部品类列表
			
 
				+    document.getElementById('drill-date').addEventListener('change', function() {{
			
 
				+        const date = this.value;
			
 
				+        const headSelect = document.getElementById('drill-head');
			
 
				+        const currentHead = headSelect.value;
			
 
				+
			
 
				+        if (headDrillData[date]) {{
			
 
				+            const heads = headDrillData[date].heads;
			
 
				+            headSelect.innerHTML = heads.map((h, i) => {{
			
 
				+                const label = h === 'all' ? '全部（不区分头部品类）' : `#${{i}} ${{h}}`;
			
 
				+                return `<option value="${{h}}" ${{h === currentHead ? 'selected' : ''}}>${{label}}</option>`;
			
 
				+            }}).join('');
			
 
				+        }} else {{
			
 
				+            headSelect.innerHTML = '<option value="">无数据</option>';
			
 
				+        }}
			
 
				+        updateHeadDrill();
			
 
				+    }});
			
 
				+
			
 
				+    updateMatrix();
			
 
				+    initHeadDrill();
			
 
				+    </script>
			
 
				+</body>
			
 
				+</html>
			
 
				+"""
			
 
				+
			
 
				+html_file = output_dir / f"{latest_file.stem}_头部品类分析.html"
			
 
				+with open(html_file, 'w', encoding='utf-8') as f:
			
 
				+    f.write(html_content)
			
 
				+
			
 
				+print(f"\nHTML 报告已生成: {html_file}")
			
--- a/tasks/品类再分享分析/.DS_Store
+++ b/tasks/品类再分享分析/.DS_Store
--- a/tasks/品类命中分析/.DS_Store
+++ b/tasks/品类命中分析/.DS_Store
--- a/tasks/推荐样本表探索/query.sql
+++ b/tasks/推荐样本表探索/query.sql
@@ -0,0 +1,9 @@
 
				+-- 推荐样本表探索
			
 
				+-- 查看 dwd_recsys_alg_sample_all_20250212 表的数据样例（全字段）
			
 
				+
			
 
				+SELECT  *
			
 
				+FROM    loghubods.dwd_recsys_alg_sample_all_20250212
			
 
				+WHERE   dt = ${end}
			
 
				+AND     hh = '12'
			
 
				+LIMIT   100
			
 
				+;
			
--- a/tasks/曝光样本表探索/daily_stats.sql
+++ b/tasks/曝光样本表探索/daily_stats.sql
@@ -0,0 +1,20 @@
 
				+-- 曝光样本表天级别数据统计
			
 
				+SELECT
			
 
				+    dt,
			
 
				+    COUNT(1) AS exposure_pv,
			
 
				+    COUNT(DISTINCT uid) AS exposure_uv,
			
 
				+    COUNT(DISTINCT vid) AS video_cnt,
			
 
				+    COUNT(DISTINCT mid) AS mid_cnt,
			
 
				+    -- 分享指标
			
 
				+    SUM(CASE WHEN is_share = '1' THEN 1 ELSE 0 END) AS share_pv,
			
 
				+    COUNT(DISTINCT CASE WHEN is_share = '1' THEN uid END) AS share_uv,
			
 
				+    -- 一次回流指标
			
 
				+    SUM(CASE WHEN is_return_1 = '1' THEN 1 ELSE 0 END) AS return_1_pv,
			
 
				+    COUNT(DISTINCT CASE WHEN is_return_1 = '1' THEN uid END) AS return_1_uv,
			
 
				+    -- 多次回流指标
			
 
				+    SUM(CASE WHEN is_return_n = '1' THEN 1 ELSE 0 END) AS return_n_pv,
			
 
				+    COUNT(DISTINCT CASE WHEN is_return_n = '1' THEN uid END) AS return_n_uv
			
 
				+FROM loghubods.dwd_recsys_alg_exposure_base_20250108
			
 
				+WHERE dt BETWEEN '${start}' AND '${end}'
			
 
				+GROUP BY dt
			
 
				+ORDER BY dt
			
--- a/tasks/曝光样本表探索/query.sql
+++ b/tasks/曝光样本表探索/query.sql
@@ -0,0 +1,5 @@
 
				+-- 查看曝光样本表示例数据
			
 
				+SELECT *
			
 
				+FROM loghubods.dwd_recsys_alg_exposure_base_20250108
			
 
				+WHERE dt = '${end}'
			
 
				+LIMIT 100
			
--- a/tasks/渠道效果分析/.DS_Store
+++ b/tasks/渠道效果分析/.DS_Store
--- a/tasks/素材视频内容分析/.DS_Store
+++ b/tasks/素材视频内容分析/.DS_Store
--- a/tasks/素材视频内容分析/README.md
+++ b/tasks/素材视频内容分析/README.md
@@ -0,0 +1,32 @@
 
				+# 素材视频内容分析
			
 
				+
			
 
				+## 数据源
			
 
				+- 主表：`loghubods.opengid_base_data`（素材+视频点击行为）
			
 
				+- JOIN：`loghubods.video_dimension_detail_add_column`（视频内容信息）
			
 
				+
			
 
				+## 业务背景
			
 
				+在素材视频匹配分析的基础上，增加视频的内容信息（关键词、口播、主题等），用于分析：
			
 
				+1. 素材标题与视频内容的匹配度
			
 
				+2. 不同视频内容特征的传播效果
			
 
				+3. 片尾引导对再分享的影响
			
 
				+
			
 
				+## 新增字段（来自视频维度表）
			
 
				+
			
 
				+| 字段 | 说明 |
			
 
				+|------|------|
			
 
				+| 视频关键词 | AI 提取的视频关键词 |
			
 
				+| 视频口播 | 视频中的口播内容 |
			
 
				+| 视频主题 | 视频主题分类 |
			
 
				+| 视频场景 | 视频拍摄场景 |
			
 
				+| 情感倾向 | 正面/负面/中性 |
			
 
				+| 视频风格 | 视频整体风格 |
			
 
				+| 传播性判断 | AI 判断的传播性（高/中/低） |
			
 
				+| 推测观众年龄段 | 目标受众年龄 |
			
 
				+| 是否有片尾引导 | 是否有分享引导 |
			
 
				+| 引导强度 | 引导强度等级 |
			
 
				+
			
 
				+## 分析场景
			
 
				+1. **内容匹配分析**：素材标题关键词与视频关键词的重合度
			
 
				+2. **口播效果分析**：不同口播类型对回流率的影响
			
 
				+3. **引导效果分析**：片尾引导 vs 无引导的再分享率对比
			
 
				+4. **情感倾向分析**：正向/负向情感内容的传播差异
			
--- a/tasks/素材视频内容分析/analyze.py
+++ b/tasks/素材视频内容分析/analyze.py
@@ -0,0 +1,363 @@
 
				+#!/usr/bin/env python
			
 
				+# coding=utf-8
			
 
				+"""
			
 
				+素材视频内容分析
			
 
				+分析视频内容特征（关键词、口播、引导）对传播效果的影响
			
 
				+包含：文章标题/分享标题与视频标题的相似度计算
			
 
				+"""
			
 
				+import pandas as pd
			
 
				+import numpy as np
			
 
				+from pathlib import Path
			
 
				+import sys
			
 
				+sys.path.insert(0, str(Path(__file__).parent.parent.parent))
			
 
				+from lib.text_embedding_api import compare_phrases_batch
			
 
				+
			
 
				+# 找到最新的输出文件
			
 
				+task_dir = Path(__file__).parent
			
 
				+output_dir = task_dir / "output"
			
 
				+csv_files = list(output_dir.glob("*.csv"))
			
 
				+if not csv_files:
			
 
				+    print("没有找到数据文件，请先运行 query.sql")
			
 
				+    exit(1)
			
 
				+
			
 
				+latest_file = max(csv_files, key=lambda x: x.stat().st_mtime)
			
 
				+df = pd.read_csv(latest_file)
			
 
				+
			
 
				+# 输出结果收集
			
 
				+lines = []
			
 
				+
			
 
				+
			
 
				+def log(text=""):
			
 
				+    print(text)
			
 
				+    lines.append(text)
			
 
				+
			
 
				+
			
 
				+log(f"分析文件: {latest_file.name}")
			
 
				+log()
			
 
				+
			
 
				+# ============================================================
			
 
				+# 计算标题相似度
			
 
				+# ============================================================
			
 
				+log("=" * 70)
			
 
				+log("计算标题相似度...")
			
 
				+log("=" * 70)
			
 
				+
			
 
				+# 准备所有相似度计算对
			
 
				+# 1. 文章标题 vs 视频标题
			
 
				+# 2. 分享标题 vs 视频标题
			
 
				+# 3. 文章标题 vs 视频口播
			
 
				+# 4. 分享标题 vs 视频口播
			
 
				+# 5. 文章标题 vs 一级品类
			
 
				+# 6. 文章标题 vs 二级品类
			
 
				+# 7. 分享标题 vs 一级品类
			
 
				+# 8. 分享标题 vs 二级品类
			
 
				+
			
 
				+similarity_configs = [
			
 
				+    ('文章标题', 'title', '文章标题_视频标题_相似度'),
			
 
				+    ('分享标题', 'title', '分享标题_视频标题_相似度'),
			
 
				+    ('文章标题', '视频口播', '文章标题_口播_相似度'),
			
 
				+    ('分享标题', '视频口播', '分享标题_口播_相似度'),
			
 
				+    ('文章标题', 'merge一级品类', '文章标题_一级品类_相似度'),
			
 
				+    ('文章标题', 'merge二级品类', '文章标题_二级品类_相似度'),
			
 
				+    ('分享标题', 'merge一级品类', '分享标题_一级品类_相似度'),
			
 
				+    ('分享标题', 'merge二级品类', '分享标题_二级品类_相似度'),
			
 
				+]
			
 
				+
			
 
				+BATCH_SIZE = 500
			
 
				+
			
 
				+for col1, col2, result_col in similarity_configs:
			
 
				+    # 初始化结果列
			
 
				+    df[result_col] = np.nan
			
 
				+
			
 
				+    # 准备配对数据
			
 
				+    pairs = []
			
 
				+    valid_indices = []
			
 
				+
			
 
				+    for idx, row in df.iterrows():
			
 
				+        text1 = str(row[col1]) if pd.notna(row[col1]) and row[col1] != '' else ''
			
 
				+        text2 = str(row[col2]) if pd.notna(row[col2]) and row[col2] != '' else ''
			
 
				+
			
 
				+        if text1 and text2:
			
 
				+            pairs.append((text1, text2))
			
 
				+            valid_indices.append(idx)
			
 
				+
			
 
				+    if not pairs:
			
 
				+        log(f"{result_col}: 无有效数据")
			
 
				+        continue
			
 
				+
			
 
				+    log(f"计算 {result_col}: {len(pairs)} 对")
			
 
				+
			
 
				+    # 批量计算
			
 
				+    scores = []
			
 
				+    for i in range(0, len(pairs), BATCH_SIZE):
			
 
				+        batch = pairs[i:i+BATCH_SIZE]
			
 
				+        results = compare_phrases_batch(batch)
			
 
				+        scores.extend([r['相似度'] for r in results])
			
 
				+        if (i + BATCH_SIZE) % 5000 == 0:
			
 
				+            log(f"  已处理 {min(i+BATCH_SIZE, len(pairs))}/{len(pairs)}")
			
 
				+
			
 
				+    # 写入结果
			
 
				+    for idx, score in zip(valid_indices, scores):
			
 
				+        df.at[idx, result_col] = score
			
 
				+
			
 
				+    log(f"  覆盖率: {df[result_col].notna().mean():.1%}")
			
 
				+log()
			
 
				+
			
 
				+# ============================================================
			
 
				+# 基本信息
			
 
				+# ============================================================
			
 
				+log("=" * 70)
			
 
				+log("基本信息")
			
 
				+log("=" * 70)
			
 
				+log(f"记录数: {len(df):,}")
			
 
				+log(f"视频数: {df['videoid'].nunique():,}")
			
 
				+log(f"总点击uv: {df['点击uv'].sum():,}")
			
 
				+log(f"总回流uv: {df['再分享回流uv'].sum():,}")
			
 
				+log()
			
 
				+
			
 
				+# 字段覆盖率
			
 
				+log("新增字段覆盖率:")
			
 
				+for col in ['视频关键词', '视频口播', '视频主题', '传播性判断', '是否有片尾引导']:
			
 
				+    if col in df.columns:
			
 
				+        coverage = df[col].notna().sum() / len(df)
			
 
				+        log(f"  {col}: {coverage:.1%}")
			
 
				+log()
			
 
				+
			
 
				+# ============================================================
			
 
				+# 传播性判断 vs 实际效果
			
 
				+# ============================================================
			
 
				+log("=" * 70)
			
 
				+log("AI 传播性判断 vs 实际效果")
			
 
				+log("=" * 70)
			
 
				+if '传播性判断' in df.columns:
			
 
				+    spread_stats = df.groupby('传播性判断').agg({
			
 
				+        'videoid': 'nunique',
			
 
				+        '点击uv': 'sum',
			
 
				+        '再分享回流uv': 'sum'
			
 
				+    }).rename(columns={'videoid': '视频数'})
			
 
				+    spread_stats['回流率'] = spread_stats['再分享回流uv'] / (spread_stats['点击uv'] + 10)
			
 
				+    spread_stats = spread_stats.sort_values('点击uv', ascending=False)
			
 
				+
			
 
				+    log(f"{'传播性判断':<15} {'视频数':>8} {'点击uv':>12} {'回流uv':>12} {'回流率':>10}")
			
 
				+    log("-" * 65)
			
 
				+    for spread, row in spread_stats.iterrows():
			
 
				+        spread_name = str(spread)[:13] if pd.notna(spread) else '(空)'
			
 
				+        log(f"{spread_name:<15} {int(row['视频数']):>8,} {int(row['点击uv']):>12,} {int(row['再分享回流uv']):>12,} {row['回流率']:>10.2%}")
			
 
				+log()
			
 
				+
			
 
				+# ============================================================
			
 
				+# 片尾引导效果分析
			
 
				+# ============================================================
			
 
				+log("=" * 70)
			
 
				+log("片尾引导效果分析")
			
 
				+log("=" * 70)
			
 
				+if '是否有片尾引导' in df.columns:
			
 
				+    guide_stats = df.groupby('是否有片尾引导').agg({
			
 
				+        'videoid': 'nunique',
			
 
				+        '点击uv': 'sum',
			
 
				+        '再分享回流uv': 'sum'
			
 
				+    }).rename(columns={'videoid': '视频数'})
			
 
				+    guide_stats['回流率'] = guide_stats['再分享回流uv'] / (guide_stats['点击uv'] + 10)
			
 
				+
			
 
				+    log(f"{'是否有引导':<15} {'视频数':>8} {'点击uv':>12} {'回流率':>10}")
			
 
				+    log("-" * 50)
			
 
				+    for guide, row in guide_stats.iterrows():
			
 
				+        guide_name = str(guide)[:13] if pd.notna(guide) else '(空)'
			
 
				+        log(f"{guide_name:<15} {int(row['视频数']):>8,} {int(row['点击uv']):>12,} {row['回流率']:>10.2%}")
			
 
				+log()
			
 
				+
			
 
				+# 引导强度分析
			
 
				+if '引导强度' in df.columns:
			
 
				+    log("引导强度细分:")
			
 
				+    strength_stats = df.groupby('引导强度').agg({
			
 
				+        'videoid': 'nunique',
			
 
				+        '点击uv': 'sum',
			
 
				+        '再分享回流uv': 'sum'
			
 
				+    }).rename(columns={'videoid': '视频数'})
			
 
				+    strength_stats['回流率'] = strength_stats['再分享回流uv'] / (strength_stats['点击uv'] + 10)
			
 
				+    strength_stats = strength_stats.sort_values('点击uv', ascending=False)
			
 
				+
			
 
				+    for strength, row in strength_stats.iterrows():
			
 
				+        strength_name = str(strength)[:20] if pd.notna(strength) else '(空)'
			
 
				+        log(f"  {strength_name:<22} 视频数={int(row['视频数']):>5}, 回流率={row['回流率']:.2%}")
			
 
				+log()
			
 
				+
			
 
				+# ============================================================
			
 
				+# 情感倾向分析
			
 
				+# ============================================================
			
 
				+log("=" * 70)
			
 
				+log("情感倾向效果分析")
			
 
				+log("=" * 70)
			
 
				+if '情感倾向' in df.columns:
			
 
				+    emotion_stats = df.groupby('情感倾向').agg({
			
 
				+        'videoid': 'nunique',
			
 
				+        '点击uv': 'sum',
			
 
				+        '再分享回流uv': 'sum'
			
 
				+    }).rename(columns={'videoid': '视频数'})
			
 
				+    emotion_stats['回流率'] = emotion_stats['再分享回流uv'] / (emotion_stats['点击uv'] + 10)
			
 
				+    emotion_stats = emotion_stats.sort_values('点击uv', ascending=False).head(10)
			
 
				+
			
 
				+    log(f"{'情感倾向':<20} {'视频数':>8} {'点击uv':>12} {'回流率':>10}")
			
 
				+    log("-" * 55)
			
 
				+    for emotion, row in emotion_stats.iterrows():
			
 
				+        emotion_name = str(emotion)[:18] if pd.notna(emotion) else '(空)'
			
 
				+        log(f"{emotion_name:<20} {int(row['视频数']):>8,} {int(row['点击uv']):>12,} {row['回流率']:>10.2%}")
			
 
				+log()
			
 
				+
			
 
				+# ============================================================
			
 
				+# 视频风格分析
			
 
				+# ============================================================
			
 
				+log("=" * 70)
			
 
				+log("视频风格效果分析（Top 15）")
			
 
				+log("=" * 70)
			
 
				+if '视频风格' in df.columns:
			
 
				+    style_stats = df.groupby('视频风格').agg({
			
 
				+        'videoid': 'nunique',
			
 
				+        '点击uv': 'sum',
			
 
				+        '再分享回流uv': 'sum'
			
 
				+    }).rename(columns={'videoid': '视频数'})
			
 
				+    style_stats['回流率'] = style_stats['再分享回流uv'] / (style_stats['点击uv'] + 10)
			
 
				+    style_stats = style_stats.sort_values('点击uv', ascending=False).head(15)
			
 
				+
			
 
				+    log(f"{'视频风格':<25} {'视频数':>8} {'点击uv':>12} {'回流率':>10}")
			
 
				+    log("-" * 60)
			
 
				+    for style, row in style_stats.iterrows():
			
 
				+        style_name = str(style)[:23] if pd.notna(style) else '(空)'
			
 
				+        log(f"{style_name:<25} {int(row['视频数']):>8,} {int(row['点击uv']):>12,} {row['回流率']:>10.2%}")
			
 
				+log()
			
 
				+
			
 
				+# ============================================================
			
 
				+# 高回流视频内容特征
			
 
				+# ============================================================
			
 
				+log("=" * 70)
			
 
				+log("高回流视频内容特征（回流率≥30%，点击≥1000）")
			
 
				+log("=" * 70)
			
 
				+high_return = df[(df['再分享回流率'] >= 0.3) & (df['点击uv'] >= 1000)]
			
 
				+log(f"符合条件视频数: {len(high_return)}")
			
 
				+log()
			
 
				+
			
 
				+if len(high_return) > 0:
			
 
				+    # 传播性分布
			
 
				+    if '传播性判断' in high_return.columns:
			
 
				+        spread_dist = high_return['传播性判断'].value_counts(normalize=True)
			
 
				+        log("传播性判断分布:")
			
 
				+        for spread, pct in spread_dist.items():
			
 
				+            log(f"  {spread}: {pct:.1%}")
			
 
				+        log()
			
 
				+
			
 
				+    # 引导分布
			
 
				+    if '是否有片尾引导' in high_return.columns:
			
 
				+        guide_dist = high_return['是否有片尾引导'].value_counts(normalize=True)
			
 
				+        log("片尾引导分布:")
			
 
				+        for guide, pct in guide_dist.items():
			
 
				+            log(f"  {guide}: {pct:.1%}")
			
 
				+        log()
			
 
				+
			
 
				+    # Top 视频样例
			
 
				+    log("Top 10 高回流视频:")
			
 
				+    log("-" * 70)
			
 
				+    top_return = high_return.nlargest(10, '再分享回流uv')
			
 
				+    for _, row in top_return.iterrows():
			
 
				+        title = str(row['title'])[:40] if pd.notna(row['title']) else '(无标题)'
			
 
				+        keywords = str(row['视频关键词'])[:50] if pd.notna(row['视频关键词']) else ''
			
 
				+        log(f"  {title}")
			
 
				+        log(f"    关键词: {keywords}")
			
 
				+        log(f"    点击uv={int(row['点击uv'])}, 回流率={row['再分享回流率']:.1%}, 传播性={row['传播性判断']}")
			
 
				+log()
			
 
				+
			
 
				+# ============================================================
			
 
				+# 关键词词频分析
			
 
				+# ============================================================
			
 
				+log("=" * 70)
			
 
				+log("视频关键词词频（Top 30）")
			
 
				+log("=" * 70)
			
 
				+if '视频关键词' in df.columns:
			
 
				+    # 提取所有关键词
			
 
				+    all_keywords = []
			
 
				+    for kw in df['视频关键词'].dropna():
			
 
				+        if isinstance(kw, str):
			
 
				+            # 按常见分隔符拆分
			
 
				+            for sep in [',', '，', '、', ';', '；']:
			
 
				+                kw = kw.replace(sep, ',')
			
 
				+            all_keywords.extend([k.strip() for k in kw.split(',') if k.strip()])
			
 
				+
			
 
				+    from collections import Counter
			
 
				+    kw_counts = Counter(all_keywords).most_common(30)
			
 
				+    for kw, cnt in kw_counts:
			
 
				+        log(f"  {kw}: {cnt}")
			
 
				+log()
			
 
				+
			
 
				+# ============================================================
			
 
				+# 标题相似度效果分析
			
 
				+# ============================================================
			
 
				+log("=" * 70)
			
 
				+log("标题相似度效果分析")
			
 
				+log("=" * 70)
			
 
				+
			
 
				+# 所有相似度指标
			
 
				+similarity_cols = [
			
 
				+    ('文章标题_视频标题_相似度', '文章标题 vs 视频标题'),
			
 
				+    ('分享标题_视频标题_相似度', '分享标题 vs 视频标题'),
			
 
				+    ('文章标题_口播_相似度', '文章标题 vs 视频口播'),
			
 
				+    ('分享标题_口播_相似度', '分享标题 vs 视频口播'),
			
 
				+    ('文章标题_一级品类_相似度', '文章标题 vs 一级品类'),
			
 
				+    ('文章标题_二级品类_相似度', '文章标题 vs 二级品类'),
			
 
				+    ('分享标题_一级品类_相似度', '分享标题 vs 一级品类'),
			
 
				+    ('分享标题_二级品类_相似度', '分享标题 vs 二级品类'),
			
 
				+]
			
 
				+
			
 
				+# 相似度汇总统计
			
 
				+log("\n相似度汇总统计:")
			
 
				+log(f"{'指标':<30} {'均值':>8} {'中位数':>8} {'标准差':>8} {'覆盖率':>8}")
			
 
				+log("-" * 70)
			
 
				+for col, label in similarity_cols:
			
 
				+    if col in df.columns and df[col].notna().any():
			
 
				+        mean_val = df[col].mean()
			
 
				+        median_val = df[col].median()
			
 
				+        std_val = df[col].std()
			
 
				+        coverage = df[col].notna().mean()
			
 
				+        log(f"{label:<30} {mean_val:>8.3f} {median_val:>8.3f} {std_val:>8.3f} {coverage:>8.1%}")
			
 
				+
			
 
				+# 逐个分析相似度与回流率的关系
			
 
				+for col, label in similarity_cols:
			
 
				+    if col not in df.columns or not df[col].notna().any():
			
 
				+        continue
			
 
				+
			
 
				+    log(f"\n{label} vs 回流率:")
			
 
				+
			
 
				+    # 按相似度分组
			
 
				+    group_col = f'{col}_分组'
			
 
				+    df[group_col] = pd.cut(
			
 
				+        df[col],
			
 
				+        bins=[0, 0.3, 0.5, 0.7, 0.9, 1.0],
			
 
				+        labels=['低(0-0.3)', '较低(0.3-0.5)', '中等(0.5-0.7)', '较高(0.7-0.9)', '高(0.9-1)']
			
 
				+    )
			
 
				+
			
 
				+    sim_effect = df.groupby(group_col, observed=True).agg({
			
 
				+        'videoid': 'count',
			
 
				+        '点击uv': 'sum',
			
 
				+        '再分享回流uv': 'sum'
			
 
				+    }).rename(columns={'videoid': '记录数'})
			
 
				+    sim_effect['回流率'] = sim_effect['再分享回流uv'] / (sim_effect['点击uv'] + 10)
			
 
				+
			
 
				+    log(f"{'相似度分组':<20} {'记录数':>8} {'点击uv':>12} {'回流率':>10}")
			
 
				+    log("-" * 55)
			
 
				+    for group, row in sim_effect.iterrows():
			
 
				+        log(f"{str(group):<20} {int(row['记录数']):>8,} {int(row['点击uv']):>12,} {row['回流率']:>10.2%}")
			
 
				+
			
 
				+    # 清理临时列
			
 
				+    df.drop(columns=[group_col], inplace=True)
			
 
				+
			
 
				+log()
			
 
				+
			
 
				+# 保存带相似度的数据
			
 
				+output_with_sim = output_dir / f"{latest_file.stem}_含相似度.csv"
			
 
				+df.to_csv(output_with_sim, index=False)
			
 
				+log(f"含相似度数据已保存到: {output_with_sim}")
			
 
				+
			
 
				+# 保存分析结果
			
 
				+result_file = output_dir / f"{latest_file.stem}_分析.txt"
			
 
				+with open(result_file, 'w', encoding='utf-8') as f:
			
 
				+    f.write("\n".join(lines))
			
 
				+
			
 
				+log(f"分析结果已保存到: {result_file}")
			
--- a/tasks/素材视频内容分析/query.sql
+++ b/tasks/素材视频内容分析/query.sql
@@ -0,0 +1,102 @@
 
				+-- 素材视频内容分析
			
 
				+-- 在素材视频匹配基础上，JOIN 视频基础信息（关键词、口播等）
			
 
				+-- 用于分析素材与视频内容的匹配关系
			
 
				+
			
 
				+SELECT  a.dt
			
 
				+        ,a.channel
			
 
				+        ,a.hotsencetype
			
 
				+        ,a.合作方名
			
 
				+        ,a.公众号名
			
 
				+        -- 素材维度
			
 
				+        ,a.rootsourceid
			
 
				+        ,a.文章标题
			
 
				+        ,a.分享标题
			
 
				+        ,a.分享封面
			
 
				+        -- 视频基础信息
			
 
				+        ,a.videoid
			
 
				+        ,a.title
			
 
				+        ,a.merge一级品类
			
 
				+        ,a.merge二级品类
			
 
				+        -- 视频内容信息（来自 video_dimension 表）
			
 
				+        ,b.视频关键词
			
 
				+        ,b.视频口播
			
 
				+        ,b.视频主题
			
 
				+        ,b.视频场景
			
 
				+        ,b.情感倾向
			
 
				+        ,b.视频风格
			
 
				+        ,b.传播性判断
			
 
				+        ,b.推测观众年龄段
			
 
				+        ,b.是否有片尾引导
			
 
				+        ,b.引导强度
			
 
				+        -- 核心指标
			
 
				+        ,COUNT(DISTINCT a.mid) AS 点击uv
			
 
				+        ,COUNT(DISTINCT CASE WHEN a.是否进入推荐 = '1' THEN a.mid END) / COUNT(DISTINCT a.mid) AS 进入推荐率
			
 
				+        ,(SUM(CASE WHEN a.再分享群聊回流uv > 0 THEN a.再分享群聊回流uv ELSE 0 END)
			
 
				+          + SUM(CASE WHEN a.再分享单聊回流uv > 0 THEN a.再分享单聊回流uv ELSE 0 END)
			
 
				+         ) / (COUNT(DISTINCT a.mid) + 10) AS 再分享回流率
			
 
				+        ,(SUM(CASE WHEN a.是否原视频 = '是' THEN a.再分享群聊回流uv END)
			
 
				+          + SUM(CASE WHEN a.是否原视频 = '是' THEN a.再分享单聊回流uv END)
			
 
				+         ) / (COUNT(DISTINCT a.mid) + 10) AS 原视频再分享回流率
			
 
				+        ,(SUM(CASE WHEN a.是否原视频 = '否' THEN a.再分享群聊回流uv END)
			
 
				+          + SUM(CASE WHEN a.是否原视频 = '否' THEN a.再分享单聊回流uv END)
			
 
				+         ) / (COUNT(DISTINCT a.mid) + 10) AS 推荐再分享回流率
			
 
				+        ,SUM(CASE WHEN a.再分享群聊回流uv > 0 THEN a.再分享群聊回流uv ELSE 0 END)
			
 
				+         + SUM(CASE WHEN a.再分享单聊回流uv > 0 THEN a.再分享单聊回流uv ELSE 0 END) AS 再分享回流uv
			
 
				+FROM    loghubods.opengid_base_data a
			
 
				+LEFT JOIN (
			
 
				+    SELECT  视频id
			
 
				+            ,视频关键词
			
 
				+            ,视频口播
			
 
				+            ,视频主题
			
 
				+            ,视频场景
			
 
				+            ,情感倾向
			
 
				+            ,视频风格
			
 
				+            ,传播性判断
			
 
				+            ,推测观众年龄段
			
 
				+            ,是否有片尾引导
			
 
				+            ,引导强度
			
 
				+    FROM    loghubods.video_dimension_detail_add_column
			
 
				+    WHERE   dt = '${end}'
			
 
				+    GROUP BY 视频id
			
 
				+             ,视频关键词
			
 
				+             ,视频口播
			
 
				+             ,视频主题
			
 
				+             ,视频场景
			
 
				+             ,情感倾向
			
 
				+             ,视频风格
			
 
				+             ,传播性判断
			
 
				+             ,推测观众年龄段
			
 
				+             ,是否有片尾引导
			
 
				+             ,引导强度
			
 
				+) b ON a.videoid = b.视频id
			
 
				+WHERE   a.dt >= '${start}'
			
 
				+AND     a.dt <= '${end}'
			
 
				+AND     a.usersharedepth = 0
			
 
				+AND     a.videoid IS NOT NULL
			
 
				+AND     (a.文章标题 IS NOT NULL AND a.文章标题 != '' OR a.分享标题 IS NOT NULL AND a.分享标题 != '')
			
 
				+GROUP BY a.dt
			
 
				+         ,a.channel
			
 
				+         ,a.hotsencetype
			
 
				+         ,a.合作方名
			
 
				+         ,a.公众号名
			
 
				+         ,a.rootsourceid
			
 
				+         ,a.文章标题
			
 
				+         ,a.分享标题
			
 
				+         ,a.分享封面
			
 
				+         ,a.videoid
			
 
				+         ,a.title
			
 
				+         ,a.merge一级品类
			
 
				+         ,a.merge二级品类
			
 
				+         ,b.视频关键词
			
 
				+         ,b.视频口播
			
 
				+         ,b.视频主题
			
 
				+         ,b.视频场景
			
 
				+         ,b.情感倾向
			
 
				+         ,b.视频风格
			
 
				+         ,b.传播性判断
			
 
				+         ,b.推测观众年龄段
			
 
				+         ,b.是否有片尾引导
			
 
				+         ,b.引导强度
			
 
				+ORDER BY 点击uv DESC
			
 
				+LIMIT   50000
			
 
				+;
			
--- a/tasks/素材视频内容分析/visualize.py
+++ b/tasks/素材视频内容分析/visualize.py
@@ -0,0 +1,296 @@
 
				+#!/usr/bin/env python
			
 
				+# coding=utf-8
			
 
				+"""
			
 
				+素材视频内容分析 - 可视化
			
 
				+"""
			
 
				+import pandas as pd
			
 
				+import numpy as np
			
 
				+import matplotlib.pyplot as plt
			
 
				+import matplotlib
			
 
				+from pathlib import Path
			
 
				+
			
 
				+# 设置中文字体
			
 
				+matplotlib.rcParams['font.sans-serif'] = ['PingFang HK', 'Heiti TC', 'Arial Unicode MS']
			
 
				+matplotlib.rcParams['axes.unicode_minus'] = False
			
 
				+
			
 
				+# 找到最新的含相似度文件
			
 
				+task_dir = Path(__file__).parent
			
 
				+output_dir = task_dir / "output"
			
 
				+csv_files = list(output_dir.glob("*含相似度*.csv"))
			
 
				+if not csv_files:
			
 
				+    csv_files = list(output_dir.glob("*.csv"))
			
 
				+if not csv_files:
			
 
				+    print("没有找到数据文件")
			
 
				+    exit(1)
			
 
				+
			
 
				+latest_file = max(csv_files, key=lambda x: x.stat().st_mtime)
			
 
				+print(f"读取文件: {latest_file.name}")
			
 
				+df = pd.read_csv(latest_file)
			
 
				+
			
 
				+# 相似度列配置
			
 
				+similarity_cols = [
			
 
				+    ('文章标题_视频标题_相似度', '文章标题 vs 视频标题'),
			
 
				+    ('分享标题_视频标题_相似度', '分享标题 vs 视频标题'),
			
 
				+    ('文章标题_口播_相似度', '文章标题 vs 口播'),
			
 
				+    ('分享标题_口播_相似度', '分享标题 vs 口播'),
			
 
				+    ('文章标题_一级品类_相似度', '文章标题 vs 一级品类'),
			
 
				+    ('文章标题_二级品类_相似度', '文章标题 vs 二级品类'),
			
 
				+    ('分享标题_一级品类_相似度', '分享标题 vs 一级品类'),
			
 
				+    ('分享标题_二级品类_相似度', '分享标题 vs 二级品类'),
			
 
				+]
			
 
				+
			
 
				+# 过滤有效的相似度列
			
 
				+valid_cols = [(col, label) for col, label in similarity_cols
			
 
				+              if col in df.columns and df[col].notna().sum() > 100]
			
 
				+
			
 
				+print(f"有效相似度指标: {len(valid_cols)} 个")
			
 
				+
			
 
				+# ============================================================
			
 
				+# 图1: 相似度分布直方图
			
 
				+# ============================================================
			
 
				+fig1, axes1 = plt.subplots(2, 4, figsize=(16, 8))
			
 
				+axes1 = axes1.flatten()
			
 
				+
			
 
				+for i, (col, label) in enumerate(valid_cols[:8]):
			
 
				+    ax = axes1[i]
			
 
				+    data = df[col].dropna()
			
 
				+    ax.hist(data, bins=30, color='steelblue', edgecolor='white', alpha=0.7)
			
 
				+    ax.axvline(data.mean(), color='red', linestyle='--', label=f'均值: {data.mean():.3f}')
			
 
				+    ax.axvline(data.median(), color='orange', linestyle='--', label=f'中位数: {data.median():.3f}')
			
 
				+    ax.set_title(label, fontsize=11)
			
 
				+    ax.set_xlabel('相似度')
			
 
				+    ax.set_ylabel('频数')
			
 
				+    ax.legend(fontsize=8)
			
 
				+
			
 
				+# 隐藏多余的子图
			
 
				+for i in range(len(valid_cols), 8):
			
 
				+    axes1[i].axis('off')
			
 
				+
			
 
				+plt.suptitle('相似度分布', fontsize=14, fontweight='bold')
			
 
				+plt.tight_layout()
			
 
				+plt.savefig(output_dir / '相似度分布.png', dpi=150, bbox_inches='tight')
			
 
				+print("已保存: 相似度分布.png")
			
 
				+
			
 
				+# ============================================================
			
 
				+# 图2: 相似度 vs 回流率（分组柱状图）
			
 
				+# ============================================================
			
 
				+fig2, axes2 = plt.subplots(2, 4, figsize=(16, 10))
			
 
				+axes2 = axes2.flatten()
			
 
				+
			
 
				+bins = [0, 0.3, 0.5, 0.7, 0.9, 1.0]
			
 
				+labels = ['0-0.3', '0.3-0.5', '0.5-0.7', '0.7-0.9', '0.9-1.0']
			
 
				+
			
 
				+for i, (col, title) in enumerate(valid_cols[:8]):
			
 
				+    ax = axes2[i]
			
 
				+
			
 
				+    # 分组计算回流率
			
 
				+    df['_group'] = pd.cut(df[col], bins=bins, labels=labels)
			
 
				+    grouped = df.groupby('_group', observed=True).agg({
			
 
				+        '点击uv': 'sum',
			
 
				+        '再分享回流uv': 'sum'
			
 
				+    })
			
 
				+    grouped['回流率'] = grouped['再分享回流uv'] / (grouped['点击uv'] + 10)
			
 
				+
			
 
				+    # 绘制柱状图
			
 
				+    colors = plt.cm.Blues(np.linspace(0.3, 0.9, len(grouped)))
			
 
				+    bars = ax.bar(range(len(grouped)), grouped['回流率'] * 100, color=colors, edgecolor='white')
			
 
				+
			
 
				+    # 添加数值标签
			
 
				+    for bar, (idx, row) in zip(bars, grouped.iterrows()):
			
 
				+        height = bar.get_height()
			
 
				+        ax.text(bar.get_x() + bar.get_width()/2., height + 0.5,
			
 
				+                f'{height:.1f}%', ha='center', va='bottom', fontsize=9)
			
 
				+
			
 
				+    ax.set_xticks(range(len(grouped)))
			
 
				+    ax.set_xticklabels(grouped.index, rotation=0, fontsize=9)
			
 
				+    ax.set_title(title, fontsize=11)
			
 
				+    ax.set_xlabel('相似度区间')
			
 
				+    ax.set_ylabel('回流率 (%)')
			
 
				+    ax.set_ylim(0, max(grouped['回流率'] * 100) * 1.3)
			
 
				+
			
 
				+# 清理临时列
			
 
				+if '_group' in df.columns:
			
 
				+    df.drop(columns=['_group'], inplace=True)
			
 
				+
			
 
				+# 隐藏多余的子图
			
 
				+for i in range(len(valid_cols), 8):
			
 
				+    axes2[i].axis('off')
			
 
				+
			
 
				+plt.suptitle('相似度 vs 回流率', fontsize=14, fontweight='bold')
			
 
				+plt.tight_layout()
			
 
				+plt.savefig(output_dir / '相似度vs回流率.png', dpi=150, bbox_inches='tight')
			
 
				+print("已保存: 相似度vs回流率.png")
			
 
				+
			
 
				+# ============================================================
			
 
				+# 图3: 相似度相关性热力图
			
 
				+# ============================================================
			
 
				+sim_cols_exist = [col for col, _ in valid_cols if col in df.columns]
			
 
				+if len(sim_cols_exist) >= 2:
			
 
				+    fig3, ax3 = plt.subplots(figsize=(10, 8))
			
 
				+
			
 
				+    # 计算相关性矩阵
			
 
				+    corr_data = df[sim_cols_exist].copy()
			
 
				+    corr_data['回流率'] = df['再分享回流uv'] / (df['点击uv'] + 1)
			
 
				+    corr_matrix = corr_data.corr()
			
 
				+
			
 
				+    # 重命名列
			
 
				+    rename_map = {col: label for col, label in valid_cols}
			
 
				+    rename_map['回流率'] = '回流率'
			
 
				+    corr_matrix = corr_matrix.rename(index=rename_map, columns=rename_map)
			
 
				+
			
 
				+    # 绘制热力图
			
 
				+    im = ax3.imshow(corr_matrix, cmap='RdYlBu_r', aspect='auto', vmin=-1, vmax=1)
			
 
				+
			
 
				+    # 添加数值标签
			
 
				+    for i in range(len(corr_matrix)):
			
 
				+        for j in range(len(corr_matrix)):
			
 
				+            text = ax3.text(j, i, f'{corr_matrix.iloc[i, j]:.2f}',
			
 
				+                           ha='center', va='center', fontsize=9,
			
 
				+                           color='white' if abs(corr_matrix.iloc[i, j]) > 0.5 else 'black')
			
 
				+
			
 
				+    ax3.set_xticks(range(len(corr_matrix)))
			
 
				+    ax3.set_yticks(range(len(corr_matrix)))
			
 
				+    ax3.set_xticklabels(corr_matrix.columns, rotation=45, ha='right', fontsize=10)
			
 
				+    ax3.set_yticklabels(corr_matrix.index, fontsize=10)
			
 
				+
			
 
				+    plt.colorbar(im, ax=ax3, label='相关系数')
			
 
				+    plt.title('相似度指标相关性热力图', fontsize=14, fontweight='bold')
			
 
				+    plt.tight_layout()
			
 
				+    plt.savefig(output_dir / '相似度相关性.png', dpi=150, bbox_inches='tight')
			
 
				+    print("已保存: 相似度相关性.png")
			
 
				+
			
 
				+# ============================================================
			
 
				+# 图4: 其他维度效果对比
			
 
				+# ============================================================
			
 
				+fig4, axes4 = plt.subplots(2, 2, figsize=(14, 10))
			
 
				+
			
 
				+# 4.1 传播性判断 vs 回流率
			
 
				+ax = axes4[0, 0]
			
 
				+if '传播性判断' in df.columns:
			
 
				+    spread_stats = df.groupby('传播性判断').agg({
			
 
				+        '点击uv': 'sum',
			
 
				+        '再分享回流uv': 'sum'
			
 
				+    })
			
 
				+    spread_stats['回流率'] = spread_stats['再分享回流uv'] / (spread_stats['点击uv'] + 10) * 100
			
 
				+    spread_stats = spread_stats.sort_values('回流率', ascending=True)
			
 
				+
			
 
				+    colors = plt.cm.Greens(np.linspace(0.3, 0.9, len(spread_stats)))
			
 
				+    bars = ax.barh(range(len(spread_stats)), spread_stats['回流率'], color=colors)
			
 
				+    ax.set_yticks(range(len(spread_stats)))
			
 
				+    ax.set_yticklabels(spread_stats.index)
			
 
				+    ax.set_xlabel('回流率 (%)')
			
 
				+    ax.set_title('AI传播性判断 vs 回流率')
			
 
				+
			
 
				+    for bar, val in zip(bars, spread_stats['回流率']):
			
 
				+        ax.text(val + 0.3, bar.get_y() + bar.get_height()/2,
			
 
				+                f'{val:.1f}%', va='center', fontsize=10)
			
 
				+
			
 
				+# 4.2 片尾引导 vs 回流率
			
 
				+ax = axes4[0, 1]
			
 
				+if '是否有片尾引导' in df.columns:
			
 
				+    guide_stats = df.groupby('是否有片尾引导').agg({
			
 
				+        '点击uv': 'sum',
			
 
				+        '再分享回流uv': 'sum'
			
 
				+    })
			
 
				+    guide_stats['回流率'] = guide_stats['再分享回流uv'] / (guide_stats['点击uv'] + 10) * 100
			
 
				+
			
 
				+    colors = ['#ff7f0e', '#2ca02c']
			
 
				+    bars = ax.bar(range(len(guide_stats)), guide_stats['回流率'], color=colors[:len(guide_stats)])
			
 
				+    ax.set_xticks(range(len(guide_stats)))
			
 
				+    ax.set_xticklabels(guide_stats.index)
			
 
				+    ax.set_ylabel('回流率 (%)')
			
 
				+    ax.set_title('片尾引导 vs 回流率')
			
 
				+
			
 
				+    for bar, val in zip(bars, guide_stats['回流率']):
			
 
				+        ax.text(bar.get_x() + bar.get_width()/2, val + 0.3,
			
 
				+                f'{val:.1f}%', ha='center', fontsize=11)
			
 
				+
			
 
				+# 4.3 情感倾向 vs 回流率
			
 
				+ax = axes4[1, 0]
			
 
				+if '情感倾向' in df.columns:
			
 
				+    emotion_stats = df.groupby('情感倾向').agg({
			
 
				+        '点击uv': 'sum',
			
 
				+        '再分享回流uv': 'sum'
			
 
				+    })
			
 
				+    emotion_stats['回流率'] = emotion_stats['再分享回流uv'] / (emotion_stats['点击uv'] + 10) * 100
			
 
				+    emotion_stats = emotion_stats.sort_values('回流率', ascending=True).tail(6)
			
 
				+
			
 
				+    colors = plt.cm.Purples(np.linspace(0.3, 0.9, len(emotion_stats)))
			
 
				+    bars = ax.barh(range(len(emotion_stats)), emotion_stats['回流率'], color=colors)
			
 
				+    ax.set_yticks(range(len(emotion_stats)))
			
 
				+    ax.set_yticklabels(emotion_stats.index)
			
 
				+    ax.set_xlabel('回流率 (%)')
			
 
				+    ax.set_title('情感倾向 vs 回流率')
			
 
				+
			
 
				+    for bar, val in zip(bars, emotion_stats['回流率']):
			
 
				+        ax.text(val + 0.3, bar.get_y() + bar.get_height()/2,
			
 
				+                f'{val:.1f}%', va='center', fontsize=10)
			
 
				+
			
 
				+# 4.4 视频风格 vs 回流率 (Top 10)
			
 
				+ax = axes4[1, 1]
			
 
				+if '视频风格' in df.columns:
			
 
				+    style_stats = df.groupby('视频风格').agg({
			
 
				+        '点击uv': 'sum',
			
 
				+        '再分享回流uv': 'sum'
			
 
				+    })
			
 
				+    style_stats['回流率'] = style_stats['再分享回流uv'] / (style_stats['点击uv'] + 10) * 100
			
 
				+    style_stats = style_stats[style_stats['点击uv'] > 5000]  # 过滤小样本
			
 
				+    style_stats = style_stats.sort_values('回流率', ascending=True).tail(10)
			
 
				+
			
 
				+    colors = plt.cm.Oranges(np.linspace(0.3, 0.9, len(style_stats)))
			
 
				+    bars = ax.barh(range(len(style_stats)), style_stats['回流率'], color=colors)
			
 
				+    ax.set_yticks(range(len(style_stats)))
			
 
				+    ax.set_yticklabels(style_stats.index)
			
 
				+    ax.set_xlabel('回流率 (%)')
			
 
				+    ax.set_title('视频风格 vs 回流率 (Top 10)')
			
 
				+
			
 
				+    for bar, val in zip(bars, style_stats['回流率']):
			
 
				+        ax.text(val + 0.3, bar.get_y() + bar.get_height()/2,
			
 
				+                f'{val:.1f}%', va='center', fontsize=10)
			
 
				+
			
 
				+plt.suptitle('内容特征 vs 回流率', fontsize=14, fontweight='bold')
			
 
				+plt.tight_layout()
			
 
				+plt.savefig(output_dir / '内容特征vs回流率.png', dpi=150, bbox_inches='tight')
			
 
				+print("已保存: 内容特征vs回流率.png")
			
 
				+
			
 
				+# ============================================================
			
 
				+# 图5: 综合散点图（相似度 vs 回流率）
			
 
				+# ============================================================
			
 
				+fig5, ax5 = plt.subplots(figsize=(12, 8))
			
 
				+
			
 
				+# 选择覆盖率最高的两个相似度指标
			
 
				+main_cols = [col for col, _ in valid_cols if df[col].notna().mean() > 0.3][:2]
			
 
				+
			
 
				+if len(main_cols) >= 1:
			
 
				+    # 采样数据（避免点太多）
			
 
				+    sample_df = df[df[main_cols[0]].notna()].sample(min(2000, len(df)))
			
 
				+    sample_df['回流率'] = sample_df['再分享回流uv'] / (sample_df['点击uv'] + 1)
			
 
				+
			
 
				+    # 绘制散点图
			
 
				+    scatter = ax5.scatter(
			
 
				+        sample_df[main_cols[0]],
			
 
				+        sample_df['回流率'] * 100,
			
 
				+        c=sample_df['点击uv'],
			
 
				+        cmap='viridis',
			
 
				+        alpha=0.5,
			
 
				+        s=20
			
 
				+    )
			
 
				+
			
 
				+    # 添加趋势线
			
 
				+    z = np.polyfit(sample_df[main_cols[0]], sample_df['回流率'] * 100, 1)
			
 
				+    p = np.poly1d(z)
			
 
				+    x_line = np.linspace(sample_df[main_cols[0]].min(), sample_df[main_cols[0]].max(), 100)
			
 
				+    ax5.plot(x_line, p(x_line), 'r--', linewidth=2, label=f'趋势线')
			
 
				+
			
 
				+    plt.colorbar(scatter, label='点击UV')
			
 
				+    ax5.set_xlabel(dict(valid_cols).get(main_cols[0], main_cols[0]), fontsize=12)
			
 
				+    ax5.set_ylabel('回流率 (%)', fontsize=12)
			
 
				+    ax5.set_title('相似度 vs 回流率 散点图', fontsize=14, fontweight='bold')
			
 
				+    ax5.legend()
			
 
				+
			
 
				+plt.tight_layout()
			
 
				+plt.savefig(output_dir / '相似度散点图.png', dpi=150, bbox_inches='tight')
			
 
				+print("已保存: 相似度散点图.png")
			
 
				+
			
 
				+plt.close('all')
			
 
				+print(f"\n所有图表已保存到: {output_dir}")
			
--- a/tasks/素材视频内容分析/visualize_html.py
+++ b/tasks/素材视频内容分析/visualize_html.py
@@ -0,0 +1,649 @@
 
				+#!/usr/bin/env python
			
 
				+# coding=utf-8
			
 
				+"""
			
 
				+素材视频内容分析 - HTML 可视化（简化版：相似度 vs 回流率）
			
 
				+"""
			
 
				+import pandas as pd
			
 
				+import numpy as np
			
 
				+from pathlib import Path
			
 
				+import json
			
 
				+
			
 
				+# 找到最新的含相似度文件
			
 
				+task_dir = Path(__file__).parent
			
 
				+output_dir = task_dir / "output"
			
 
				+csv_files = list(output_dir.glob("*含相似度*.csv"))
			
 
				+if not csv_files:
			
 
				+    csv_files = list(output_dir.glob("*.csv"))
			
 
				+if not csv_files:
			
 
				+    print("没有找到数据文件")
			
 
				+    exit(1)
			
 
				+
			
 
				+latest_file = max(csv_files, key=lambda x: x.stat().st_mtime)
			
 
				+print(f"读取文件: {latest_file.name}")
			
 
				+df = pd.read_csv(latest_file)
			
 
				+
			
 
				+# 相似度列配置
			
 
				+similarity_cols = [
			
 
				+    ('分享标题_视频标题_相似度', '分享标题与视频标题'),
			
 
				+    ('分享标题_口播_相似度', '分享标题与口播内容'),
			
 
				+    ('分享标题_一级品类_相似度', '分享标题与一级品类'),
			
 
				+    ('分享标题_二级品类_相似度', '分享标题与二级品类'),
			
 
				+    ('文章标题_视频标题_相似度', '文章标题与视频标题'),
			
 
				+    ('文章标题_口播_相似度', '文章标题与口播内容'),
			
 
				+]
			
 
				+
			
 
				+# 过滤有效的相似度列
			
 
				+valid_cols = [(col, label) for col, label in similarity_cols
			
 
				+              if col in df.columns and df[col].notna().sum() > 100]
			
 
				+
			
 
				+print(f"有效相似度指标: {len(valid_cols)} 个")
			
 
				+
			
 
				+# 回流率字段
			
 
				+rate_cols = ['再分享回流率', '原视频再分享回流率', '推荐再分享回流率']
			
 
				+rate_cols = [c for c in rate_cols if c in df.columns]
			
 
				+
			
 
				+# 准备原始数据表（取关键字段）- 调整列顺序
			
 
				+table_cols = ['dt', 'channel', 'hotsencetype', '合作方名', '公众号名']  # 日期、渠道、场景、合作方、公众号在最前
			
 
				+table_cols += ['文章标题', '分享封面', '分享标题', 'title', 'videoid']  # 标题、封面和视频ID
			
 
				+table_cols += rate_cols  # 三个回流率
			
 
				+table_cols += ['点击uv']  # 点击量
			
 
				+table_cols += [col for col, _ in valid_cols]  # 相似度
			
 
				+table_cols += ['merge一级品类', 'merge二级品类']  # 品类在后
			
 
				+table_cols = [c for c in table_cols if c in df.columns]
			
 
				+
			
 
				+# 过滤有相似度数据的记录
			
 
				+raw_df = df[df[[col for col, _ in valid_cols[:2]]].notna().any(axis=1)].copy()
			
 
				+
			
 
				+# 计算分享标题聚合UV
			
 
				+share_title_uv = raw_df.groupby('分享标题')['点击uv'].transform('sum')
			
 
				+raw_df['分享标题聚合UV'] = share_title_uv
			
 
				+
			
 
				+# 按分享标题聚合UV排序，再按点击UV排序，取前2000条
			
 
				+raw_df = raw_df.sort_values(['分享标题聚合UV', '点击uv'], ascending=[False, False]).head(2000)
			
 
				+
			
 
				+# 更新table_cols，加入聚合UV
			
 
				+table_cols_with_agg = table_cols.copy()
			
 
				+# 在点击uv后面插入分享标题聚合UV
			
 
				+if '点击uv' in table_cols_with_agg:
			
 
				+    idx = table_cols_with_agg.index('点击uv')
			
 
				+    table_cols_with_agg.insert(idx, '分享标题聚合UV')
			
 
				+
			
 
				+raw_data = raw_df[table_cols_with_agg].fillna('').to_dict('records')
			
 
				+table_cols = table_cols_with_agg
			
 
				+
			
 
				+# 相似度分组统计
			
 
				+bins = [0, 0.3, 0.5, 0.7, 0.9, 1.0]
			
 
				+labels_bin = ['0-0.3', '0.3-0.5', '0.5-0.7', '0.7-0.9', '0.9-1.0']
			
 
				+
			
 
				+group_stats = []
			
 
				+for col, label in valid_cols:
			
 
				+    df['_group'] = pd.cut(df[col], bins=bins, labels=labels_bin)
			
 
				+
			
 
				+    stats = []
			
 
				+    for grp in labels_bin:
			
 
				+        grp_df = df[df['_group'] == grp]
			
 
				+        if len(grp_df) == 0:
			
 
				+            continue
			
 
				+
			
 
				+        row = {
			
 
				+            'group': grp,
			
 
				+            'count': len(grp_df),
			
 
				+            'click_uv': int(grp_df['点击uv'].sum()),
			
 
				+        }
			
 
				+
			
 
				+        # 计算加权平均回流率（保持原始小数）
			
 
				+        for rate_col in rate_cols:
			
 
				+            weighted = (grp_df[rate_col] * grp_df['点击uv']).sum()
			
 
				+            total_click = grp_df['点击uv'].sum()
			
 
				+            row[rate_col] = round(weighted / (total_click + 1), 4) if total_click > 0 else 0
			
 
				+
			
 
				+        stats.append(row)
			
 
				+
			
 
				+    group_stats.append({
			
 
				+        'label': label,
			
 
				+        'col': col,
			
 
				+        'stats': stats
			
 
				+    })
			
 
				+
			
 
				+if '_group' in df.columns:
			
 
				+    df.drop(columns=['_group'], inplace=True)
			
 
				+
			
 
				+# 列名映射（用于表头显示）
			
 
				+col_labels = {col: label for col, label in valid_cols}
			
 
				+col_labels.update({
			
 
				+    'dt': '日期',
			
 
				+    'channel': '渠道',
			
 
				+    'hotsencetype': '场景类型',
			
 
				+    '合作方名': '合作方',
			
 
				+    '公众号名': '公众号',
			
 
				+    '文章标题': '文章标题',
			
 
				+    '分享标题': '分享标题',
			
 
				+    '分享封面': '分享封面',
			
 
				+    'title': '视频标题',
			
 
				+    'videoid': '视频ID',
			
 
				+    'merge一级品类': '一级品类',
			
 
				+    'merge二级品类': '二级品类',
			
 
				+    '分享标题聚合UV': '分享标题聚合UV',
			
 
				+    '点击uv': '点击UV',
			
 
				+    '再分享回流率': '再分享回流率',
			
 
				+    '原视频再分享回流率': '原视频回流率',
			
 
				+    '推荐再分享回流率': '推荐回流率',
			
 
				+})
			
 
				+
			
 
				+# 获取筛选项的唯一值
			
 
				+date_list = sorted(df['dt'].dropna().unique().tolist()) if 'dt' in df.columns else []
			
 
				+channel_list = sorted(df['channel'].dropna().unique().tolist()) if 'channel' in df.columns else []
			
 
				+hotsencetype_list = sorted(df['hotsencetype'].dropna().unique().tolist()) if 'hotsencetype' in df.columns else []
			
 
				+partner_list = sorted(df['合作方名'].dropna().unique().tolist()) if '合作方名' in df.columns else []
			
 
				+account_list = sorted(df['公众号名'].dropna().unique().tolist()) if '公众号名' in df.columns else []
			
 
				+
			
 
				+# 生成 HTML
			
 
				+html_content = f'''<!DOCTYPE html>
			
 
				+<html lang="zh-CN">
			
 
				+<head>
			
 
				+    <meta charset="UTF-8">
			
 
				+    <meta name="viewport" content="width=device-width, initial-scale=1.0">
			
 
				+    <title>相似度 vs 回流率分析</title>
			
 
				+    <script src="https://cdn.jsdelivr.net/npm/echarts@5.4.3/dist/echarts.min.js"></script>
			
 
				+    <style>
			
 
				+        * {{ margin: 0; padding: 0; box-sizing: border-box; }}
			
 
				+        body {{
			
 
				+            font-family: -apple-system, BlinkMacSystemFont, "Segoe UI", Roboto, sans-serif;
			
 
				+            background: #f5f7fa;
			
 
				+            padding: 20px;
			
 
				+        }}
			
 
				+        .container {{ max-width: 1600px; margin: 0 auto; }}
			
 
				+        h1 {{ text-align: center; color: #333; margin-bottom: 20px; }}
			
 
				+        .section {{
			
 
				+            background: white;
			
 
				+            border-radius: 12px;
			
 
				+            padding: 20px;
			
 
				+            margin-bottom: 20px;
			
 
				+            box-shadow: 0 2px 8px rgba(0,0,0,0.08);
			
 
				+        }}
			
 
				+        .section h2 {{
			
 
				+            color: #333;
			
 
				+            margin-bottom: 15px;
			
 
				+            padding-bottom: 10px;
			
 
				+            border-bottom: 2px solid #667eea;
			
 
				+            display: inline-block;
			
 
				+        }}
			
 
				+
			
 
				+        /* 图表网格 */
			
 
				+        .chart-grid {{
			
 
				+            display: grid;
			
 
				+            grid-template-columns: repeat(3, 1fr);
			
 
				+            gap: 15px;
			
 
				+        }}
			
 
				+        .chart-item {{ height: 300px; }}
			
 
				+
			
 
				+        /* 可排序表格 */
			
 
				+        .table-controls {{
			
 
				+            display: flex;
			
 
				+            gap: 15px;
			
 
				+            margin-bottom: 15px;
			
 
				+            flex-wrap: wrap;
			
 
				+            align-items: center;
			
 
				+        }}
			
 
				+        .table-controls input {{
			
 
				+            padding: 8px 12px;
			
 
				+            border: 1px solid #ddd;
			
 
				+            border-radius: 6px;
			
 
				+            width: 300px;
			
 
				+        }}
			
 
				+        .table-controls select {{
			
 
				+            padding: 8px 12px;
			
 
				+            border: 1px solid #ddd;
			
 
				+            border-radius: 6px;
			
 
				+        }}
			
 
				+        .table-wrapper {{
			
 
				+            overflow-x: auto;
			
 
				+            max-height: 600px;
			
 
				+            overflow-y: auto;
			
 
				+        }}
			
 
				+        table {{
			
 
				+            width: 100%;
			
 
				+            border-collapse: collapse;
			
 
				+            font-size: 13px;
			
 
				+        }}
			
 
				+        th {{
			
 
				+            background: #667eea;
			
 
				+            color: white;
			
 
				+            padding: 10px 8px;
			
 
				+            text-align: left;
			
 
				+            cursor: pointer;
			
 
				+            user-select: none;
			
 
				+            white-space: nowrap;
			
 
				+            position: sticky;
			
 
				+            top: 0;
			
 
				+            z-index: 10;
			
 
				+        }}
			
 
				+        th:hover {{ background: #5a6fd6; }}
			
 
				+        th .sort-icon {{ margin-left: 5px; opacity: 0.5; }}
			
 
				+        th.sorted .sort-icon {{ opacity: 1; }}
			
 
				+        td {{
			
 
				+            padding: 8px;
			
 
				+            border-bottom: 1px solid #eee;
			
 
				+            max-width: 250px;
			
 
				+            overflow: hidden;
			
 
				+            text-overflow: ellipsis;
			
 
				+            white-space: nowrap;
			
 
				+        }}
			
 
				+        td.wrap {{
			
 
				+            white-space: normal;
			
 
				+            word-break: break-word;
			
 
				+            min-width: 180px;
			
 
				+            max-width: 220px;
			
 
				+        }}
			
 
				+        tr:hover {{ background: #f8f9fa; }}
			
 
				+        tr:nth-child(even) {{ background: #fafbfc; }}
			
 
				+        tr:nth-child(even):hover {{ background: #f0f1f2; }}
			
 
				+        .num {{ text-align: right; font-family: monospace; }}
			
 
				+        .highlight {{ background: #fff3cd !important; }}
			
 
				+
			
 
				+        /* 图片预览模态框 */
			
 
				+        .img-modal {{
			
 
				+            display: none;
			
 
				+            position: fixed;
			
 
				+            top: 0;
			
 
				+            left: 0;
			
 
				+            width: 100%;
			
 
				+            height: 100%;
			
 
				+            background: rgba(0,0,0,0.8);
			
 
				+            z-index: 1000;
			
 
				+            cursor: pointer;
			
 
				+            justify-content: center;
			
 
				+            align-items: center;
			
 
				+        }}
			
 
				+        .img-modal img {{
			
 
				+            max-width: 90%;
			
 
				+            max-height: 90%;
			
 
				+            border-radius: 8px;
			
 
				+            box-shadow: 0 4px 20px rgba(0,0,0,0.3);
			
 
				+        }}
			
 
				+        .img-modal.show {{ display: flex; }}
			
 
				+
			
 
				+        /* 统计表格 */
			
 
				+        .stats-table {{ margin-top: 10px; }}
			
 
				+        .stats-table th {{ background: #5a6fd6; font-size: 12px; }}
			
 
				+        .stats-table td {{ font-size: 12px; padding: 6px 8px; }}
			
 
				+
			
 
				+        @media (max-width: 1200px) {{
			
 
				+            .chart-grid {{ grid-template-columns: repeat(2, 1fr); }}
			
 
				+        }}
			
 
				+        @media (max-width: 768px) {{
			
 
				+            .chart-grid {{ grid-template-columns: 1fr; }}
			
 
				+        }}
			
 
				+    </style>
			
 
				+</head>
			
 
				+<body>
			
 
				+    <!-- 图片预览模态框 -->
			
 
				+    <div id="imgModal" class="img-modal" onclick="closeImgModal()">
			
 
				+        <img id="modalImg" src="" alt="预览图片">
			
 
				+    </div>
			
 
				+
			
 
				+    <div class="container">
			
 
				+        <h1>相似度 vs 回流率分析</h1>
			
 
				+
			
 
				+        <!-- 分组统计图表 -->
			
 
				+        <div class="section">
			
 
				+            <h2>相似度分组 vs 回流率</h2>
			
 
				+            <div class="chart-grid">
			
 
				+                {' '.join(f'<div id="chart_{i}" class="chart-item"></div>' for i in range(len(group_stats)))}
			
 
				+            </div>
			
 
				+        </div>
			
 
				+
			
 
				+        <!-- 分组统计表格 -->
			
 
				+        <div class="section">
			
 
				+            <h2>分组详细数据</h2>
			
 
				+            <div id="statsTablesContainer"></div>
			
 
				+        </div>
			
 
				+
			
 
				+        <!-- 原始数据表 -->
			
 
				+        <div class="section">
			
 
				+            <h2>原始数据（Top 2000 by 点击UV）</h2>
			
 
				+            <div class="table-controls">
			
 
				+                <select id="dateFilter">
			
 
				+                    <option value="">全部日期</option>
			
 
				+                    {' '.join(f'<option value="{d}">{d}</option>' for d in date_list)}
			
 
				+                </select>
			
 
				+                <select id="channelFilter">
			
 
				+                    <option value="">全部渠道</option>
			
 
				+                    {' '.join(f'<option value="{c}">{c}</option>' for c in channel_list)}
			
 
				+                </select>
			
 
				+                <select id="hotsencetypeFilter">
			
 
				+                    <option value="">全部场景</option>
			
 
				+                    {' '.join(f'<option value="{h}">{h}</option>' for h in hotsencetype_list)}
			
 
				+                </select>
			
 
				+                <select id="partnerFilter">
			
 
				+                    <option value="">全部合作方</option>
			
 
				+                    {' '.join(f'<option value="{p}">{p}</option>' for p in partner_list)}
			
 
				+                </select>
			
 
				+                <select id="accountFilter">
			
 
				+                    <option value="">全部公众号</option>
			
 
				+                    {' '.join(f'<option value="{a}">{a}</option>' for a in account_list)}
			
 
				+                </select>
			
 
				+                <input type="text" id="searchInput" placeholder="搜索标题...">
			
 
				+                <select id="simFilter">
			
 
				+                    <option value="">全部相似度</option>
			
 
				+                    <option value="high">高相似度 (≥0.7)</option>
			
 
				+                    <option value="mid">中相似度 (0.3-0.7)</option>
			
 
				+                    <option value="low">低相似度 (<0.3)</option>
			
 
				+                </select>
			
 
				+                <label>点击UV ≥ <input type="number" id="minUvInput" value="100" min="0" style="width:80px;padding:8px;border:1px solid #ddd;border-radius:6px;"></label>
			
 
				+                <span id="rowCount" style="color:#666;"></span>
			
 
				+            </div>
			
 
				+            <div class="table-wrapper">
			
 
				+                <table id="dataTable">
			
 
				+                    <thead>
			
 
				+                        <tr id="headerRow"></tr>
			
 
				+                    </thead>
			
 
				+                    <tbody id="tableBody"></tbody>
			
 
				+                </table>
			
 
				+            </div>
			
 
				+        </div>
			
 
				+    </div>
			
 
				+
			
 
				+    <script>
			
 
				+        // 数据
			
 
				+        const rawData = {json.dumps(raw_data, ensure_ascii=False, default=str)};
			
 
				+        const groupStats = {json.dumps(group_stats, ensure_ascii=False)};
			
 
				+        const tableCols = {json.dumps(table_cols, ensure_ascii=False)};
			
 
				+        const colLabels = {json.dumps(col_labels, ensure_ascii=False)};
			
 
				+        const rateCols = {json.dumps(rate_cols, ensure_ascii=False)};
			
 
				+        const validCols = {json.dumps([col for col, _ in valid_cols], ensure_ascii=False)};
			
 
				+
			
 
				+        // 当前排序状态
			
 
				+        let currentSort = {{ col: '分享标题聚合UV', dir: 'desc' }};
			
 
				+        let filteredData = [...rawData];
			
 
				+
			
 
				+        // 渲染图表
			
 
				+        function renderCharts() {{
			
 
				+            groupStats.forEach((gs, idx) => {{
			
 
				+                const chart = echarts.init(document.getElementById('chart_' + idx));
			
 
				+                const groups = gs.stats.map(s => s.group);
			
 
				+
			
 
				+                const series = rateCols.map((rc, i) => ({{
			
 
				+                    name: colLabels[rc] || rc,
			
 
				+                    type: 'bar',
			
 
				+                    data: gs.stats.map(s => s[rc] || 0),
			
 
				+                    itemStyle: {{ color: ['#667eea', '#f093fb', '#43e97b'][i] }}
			
 
				+                }}));
			
 
				+
			
 
				+                chart.setOption({{
			
 
				+                    title: {{ text: gs.label, left: 'center', textStyle: {{ fontSize: 14 }} }},
			
 
				+                    tooltip: {{ trigger: 'axis' }},
			
 
				+                    legend: {{ bottom: 0, textStyle: {{ fontSize: 10 }} }},
			
 
				+                    xAxis: {{ type: 'category', data: groups, axisLabel: {{ fontSize: 11 }} }},
			
 
				+                    yAxis: {{ type: 'value', name: '回流率(%)', axisLabel: {{ fontSize: 10 }} }},
			
 
				+                    series: series,
			
 
				+                    grid: {{ top: 50, bottom: 60, left: 50, right: 20 }}
			
 
				+                }});
			
 
				+            }});
			
 
				+        }}
			
 
				+
			
 
				+        // 渲染统计表格
			
 
				+        function renderStatsTables() {{
			
 
				+            const container = document.getElementById('statsTablesContainer');
			
 
				+            let html = '<div style="display:grid;grid-template-columns:repeat(2,1fr);gap:20px;">';
			
 
				+
			
 
				+            groupStats.forEach(gs => {{
			
 
				+                html += `<div>
			
 
				+                    <h4 style="margin-bottom:10px;color:#333;">${{gs.label}}</h4>
			
 
				+                    <table class="stats-table">
			
 
				+                        <tr>
			
 
				+                            <th>相似度区间</th>
			
 
				+                            <th>记录数</th>
			
 
				+                            <th>点击UV</th>
			
 
				+                            ${{rateCols.map(rc => `<th>${{colLabels[rc] || rc}}</th>`).join('')}}
			
 
				+                        </tr>`;
			
 
				+
			
 
				+                gs.stats.forEach(row => {{
			
 
				+                    html += `<tr>
			
 
				+                        <td>${{row.group}}</td>
			
 
				+                        <td class="num">${{row.count.toLocaleString()}}</td>
			
 
				+                        <td class="num">${{row.click_uv.toLocaleString()}}</td>
			
 
				+                        ${{rateCols.map(rc => `<td class="num">${{(row[rc] || 0).toFixed(4)}}</td>`).join('')}}
			
 
				+                    </tr>`;
			
 
				+                }});
			
 
				+
			
 
				+                html += '</table></div>';
			
 
				+            }});
			
 
				+
			
 
				+            html += '</div>';
			
 
				+            container.innerHTML = html;
			
 
				+        }}
			
 
				+
			
 
				+        // 渲染表头
			
 
				+        function renderHeader() {{
			
 
				+            const headerRow = document.getElementById('headerRow');
			
 
				+            headerRow.innerHTML = tableCols.map(col => {{
			
 
				+                const label = colLabels[col] || col;
			
 
				+                const isSorted = currentSort.col === col;
			
 
				+                const icon = isSorted ? (currentSort.dir === 'asc' ? '▲' : '▼') : '▼';
			
 
				+                return `<th class="${{isSorted ? 'sorted' : ''}}" onclick="sortBy('${{col}}')">
			
 
				+                    ${{label}}<span class="sort-icon">${{icon}}</span>
			
 
				+                </th>`;
			
 
				+            }}).join('');
			
 
				+        }}
			
 
				+
			
 
				+        // 计算每列的最大最小值（用于渐变）
			
 
				+        function getColumnRange(data, col) {{
			
 
				+            const vals = data.map(r => r[col]).filter(v => typeof v === 'number' && !isNaN(v));
			
 
				+            if (vals.length === 0) return {{ min: 0, max: 1 }};
			
 
				+            return {{ min: Math.min(...vals), max: Math.max(...vals) }};
			
 
				+        }}
			
 
				+
			
 
				+        // 根据值获取渐变背景色（绿色系）
			
 
				+        function getGradientColor(val, min, max) {{
			
 
				+            if (typeof val !== 'number' || isNaN(val)) return '';
			
 
				+            const ratio = max > min ? (val - min) / (max - min) : 0;
			
 
				+            // 绿色系，alpha 从 0.05 到 0.6
			
 
				+            const alpha = 0.05 + ratio * 0.55;
			
 
				+            return `rgba(34, 197, 94, ${{alpha}})`;
			
 
				+        }}
			
 
				+
			
 
				+        // 渲染表格数据
			
 
				+        function renderTable() {{
			
 
				+            const tbody = document.getElementById('tableBody');
			
 
				+            const search = document.getElementById('searchInput').value.toLowerCase();
			
 
				+            const simFilter = document.getElementById('simFilter').value;
			
 
				+
			
 
				+            // 筛选条件
			
 
				+            const minUv = parseInt(document.getElementById('minUvInput').value) || 0;
			
 
				+            const dateFilter = document.getElementById('dateFilter').value;
			
 
				+            const channelFilter = document.getElementById('channelFilter').value;
			
 
				+            const hotsencetypeFilter = document.getElementById('hotsencetypeFilter').value;
			
 
				+            const partnerFilter = document.getElementById('partnerFilter').value;
			
 
				+            const accountFilter = document.getElementById('accountFilter').value;
			
 
				+
			
 
				+            // 过滤
			
 
				+            filteredData = rawData.filter(row => {{
			
 
				+                // 日期过滤（转字符串比较）
			
 
				+                if (dateFilter && String(row['dt']) !== dateFilter) return false;
			
 
				+
			
 
				+                // 渠道过滤
			
 
				+                if (channelFilter && row['channel'] !== channelFilter) return false;
			
 
				+
			
 
				+                // 场景类型过滤（转字符串比较）
			
 
				+                if (hotsencetypeFilter && String(row['hotsencetype']) !== hotsencetypeFilter) return false;
			
 
				+
			
 
				+                // 合作方过滤
			
 
				+                if (partnerFilter && row['合作方名'] !== partnerFilter) return false;
			
 
				+
			
 
				+                // 公众号过滤
			
 
				+                if (accountFilter && row['公众号名'] !== accountFilter) return false;
			
 
				+
			
 
				+                // 点击UV过滤
			
 
				+                if (row['点击uv'] < minUv) return false;
			
 
				+
			
 
				+                // 搜索过滤
			
 
				+                if (search) {{
			
 
				+                    const title1 = (row['分享标题'] || '').toLowerCase();
			
 
				+                    const title2 = (row['title'] || '').toLowerCase();
			
 
				+                    if (!title1.includes(search) && !title2.includes(search)) return false;
			
 
				+                }}
			
 
				+
			
 
				+                // 相似度过滤
			
 
				+                if (simFilter) {{
			
 
				+                    const simVal = validCols.map(c => row[c]).find(v => v !== '' && v !== null);
			
 
				+                    if (simVal === undefined) return false;
			
 
				+                    if (simFilter === 'high' && simVal < 0.7) return false;
			
 
				+                    if (simFilter === 'mid' && (simVal < 0.3 || simVal >= 0.7)) return false;
			
 
				+                    if (simFilter === 'low' && simVal >= 0.3) return false;
			
 
				+                }}
			
 
				+
			
 
				+                return true;
			
 
				+            }});
			
 
				+
			
 
				+            // 排序
			
 
				+            filteredData.sort((a, b) => {{
			
 
				+                let va = a[currentSort.col];
			
 
				+                let vb = b[currentSort.col];
			
 
				+
			
 
				+                // 处理空值
			
 
				+                if (va === '' || va === null) va = currentSort.dir === 'asc' ? Infinity : -Infinity;
			
 
				+                if (vb === '' || vb === null) vb = currentSort.dir === 'asc' ? Infinity : -Infinity;
			
 
				+
			
 
				+                // 数值比较
			
 
				+                if (typeof va === 'number' && typeof vb === 'number') {{
			
 
				+                    return currentSort.dir === 'asc' ? va - vb : vb - va;
			
 
				+                }}
			
 
				+
			
 
				+                // 字符串比较
			
 
				+                va = String(va);
			
 
				+                vb = String(vb);
			
 
				+                return currentSort.dir === 'asc' ? va.localeCompare(vb) : vb.localeCompare(va);
			
 
				+            }});
			
 
				+
			
 
				+            // 计算全局列范围（用于渐变）
			
 
				+            const globalRanges = {{}};
			
 
				+            tableCols.forEach(col => {{
			
 
				+                globalRanges[col] = getColumnRange(filteredData, col);
			
 
				+            }});
			
 
				+
			
 
				+            // 渲染行
			
 
				+            tbody.innerHTML = filteredData.map(row => {{
			
 
				+                return '<tr>' + tableCols.map(col => {{
			
 
				+                    let val = row[col];
			
 
				+                    const isNum = typeof val === 'number';
			
 
				+
			
 
				+                    if (val === '' || val === null || val === undefined) {{
			
 
				+                        return '<td>-</td>';
			
 
				+                    }}
			
 
				+
			
 
				+                    // 分享封面 - 显示为图片缩略图，点击放大预览
			
 
				+                    if (col === '分享封面') {{
			
 
				+                        return `<td><img src="${{val}}" style="max-width:80px;max-height:60px;cursor:pointer;border-radius:4px;" onclick="showImgModal('${{val}}')" onerror="this.style.display='none'"></td>`;
			
 
				+                    }}
			
 
				+
			
 
				+                    // videoid - 显示为超链接（优先处理，避免被数字判断拦截）
			
 
				+                    if (col === 'videoid') {{
			
 
				+                        return `<td><a href="https://admin.piaoquantv.com/cms/post-detail/${{val}}/detail" target="_blank" style="color:#667eea;text-decoration:none;">${{val}}</a></td>`;
			
 
				+                    }}
			
 
				+
			
 
				+                    // 日期、场景类型 - 强制显示为字符串
			
 
				+                    if (col === 'dt' || col === 'hotsencetype') {{
			
 
				+                        return `<td>${{val}}</td>`;
			
 
				+                    }}
			
 
				+
			
 
				+                    if (isNum) {{
			
 
				+                        const range = globalRanges[col] || {{ min: 0, max: 1 }};
			
 
				+                        let displayVal = '';
			
 
				+                        let needGradient = false;
			
 
				+
			
 
				+                        // 相似度列 - 需要渐变
			
 
				+                        if (col.includes('相似度')) {{
			
 
				+                            displayVal = val.toFixed(3);
			
 
				+                            needGradient = true;
			
 
				+                        }}
			
 
				+                        // 回流率列 - 需要渐变
			
 
				+                        else if (col.includes('回流率')) {{
			
 
				+                            displayVal = val.toFixed(4);
			
 
				+                            needGradient = true;
			
 
				+                        }}
			
 
				+                        // UV列 - 不需要渐变
			
 
				+                        else if (col.includes('UV') || col.includes('uv')) {{
			
 
				+                            displayVal = Math.round(val).toLocaleString();
			
 
				+                        }}
			
 
				+                        else {{
			
 
				+                            displayVal = val.toFixed(2);
			
 
				+                        }}
			
 
				+
			
 
				+                        const bgColor = needGradient ? getGradientColor(val, range.min, range.max) : '';
			
 
				+                        const style = bgColor ? `style="background:${{bgColor}}"` : '';
			
 
				+                        return `<td class="num" ${{style}}>${{displayVal}}</td>`;
			
 
				+                    }}
			
 
				+
			
 
				+                    // 标题列 - 允许换行不截断
			
 
				+                    if (col === 'title' || col === '分享标题' || col === '文章标题') {{
			
 
				+                        return `<td class="wrap">${{val}}</td>`;
			
 
				+                    }}
			
 
				+
			
 
				+                    // 其他文本列，截断显示
			
 
				+                    const displayVal = String(val).substring(0, 40) + (String(val).length > 40 ? '...' : '');
			
 
				+                    return `<td title="${{val}}">${{displayVal}}</td>`;
			
 
				+                }}).join('') + '</tr>';
			
 
				+            }}).join('');
			
 
				+
			
 
				+            document.getElementById('rowCount').textContent = `显示 ${{filteredData.length}} 条`;
			
 
				+        }}
			
 
				+
			
 
				+        // 排序
			
 
				+        function sortBy(col) {{
			
 
				+            if (currentSort.col === col) {{
			
 
				+                currentSort.dir = currentSort.dir === 'asc' ? 'desc' : 'asc';
			
 
				+            }} else {{
			
 
				+                currentSort.col = col;
			
 
				+                currentSort.dir = 'desc';
			
 
				+            }}
			
 
				+            renderHeader();
			
 
				+            renderTable();
			
 
				+        }}
			
 
				+
			
 
				+        // 图片预览功能
			
 
				+        function showImgModal(src) {{
			
 
				+            document.getElementById('modalImg').src = src;
			
 
				+            document.getElementById('imgModal').classList.add('show');
			
 
				+        }}
			
 
				+        function closeImgModal() {{
			
 
				+            document.getElementById('imgModal').classList.remove('show');
			
 
				+        }}
			
 
				+        // ESC 关闭预览
			
 
				+        document.addEventListener('keydown', (e) => {{
			
 
				+            if (e.key === 'Escape') closeImgModal();
			
 
				+        }});
			
 
				+
			
 
				+        // 事件绑定
			
 
				+        document.getElementById('searchInput').addEventListener('input', renderTable);
			
 
				+        document.getElementById('simFilter').addEventListener('change', renderTable);
			
 
				+        document.getElementById('minUvInput').addEventListener('input', renderTable);
			
 
				+        document.getElementById('dateFilter').addEventListener('change', renderTable);
			
 
				+        document.getElementById('channelFilter').addEventListener('change', renderTable);
			
 
				+        document.getElementById('hotsencetypeFilter').addEventListener('change', renderTable);
			
 
				+        document.getElementById('partnerFilter').addEventListener('change', renderTable);
			
 
				+        document.getElementById('accountFilter').addEventListener('change', renderTable);
			
 
				+
			
 
				+        // 初始化
			
 
				+        renderCharts();
			
 
				+        renderStatsTables();
			
 
				+        renderHeader();
			
 
				+        renderTable();
			
 
				+
			
 
				+        // 响应式
			
 
				+        window.addEventListener('resize', () => {{
			
 
				+            groupStats.forEach((_, idx) => {{
			
 
				+                echarts.getInstanceByDom(document.getElementById('chart_' + idx))?.resize();
			
 
				+            }});
			
 
				+        }});
			
 
				+    </script>
			
 
				+</body>
			
 
				+</html>
			
 
				+'''
			
 
				+
			
 
				+# 保存 HTML
			
 
				+output_path = output_dir / '素材视频内容分析.html'
			
 
				+with open(output_path, 'w', encoding='utf-8') as f:
			
 
				+    f.write(html_content)
			
 
				+
			
 
				+print(f"\n已保存: {output_path}")
			
--- a/tasks/表关联验证/query.sql
+++ b/tasks/表关联验证/query.sql
@@ -0,0 +1,45 @@
 
				+-- 验证 opengid_base_data 和 dwd_recsys_alg_exposure_base 的关联情况（检查 in_out 冲突）
			
 
				+WITH t_head AS (
			
 
				+    -- 头部点击表
			
 
				+    SELECT  dt
			
 
				+            ,mid
			
 
				+            ,sessionid
			
 
				+            ,CASE WHEN rootsourceid = '' OR rootsourceid IS NULL THEN '内部' ELSE '外部' END AS in_out
			
 
				+            ,COUNT(1) AS head_cnt
			
 
				+    FROM    loghubods.opengid_base_data
			
 
				+    WHERE   dt BETWEEN "${start}" AND "${end}"
			
 
				+    GROUP BY dt, mid, sessionid
			
 
				+            ,CASE WHEN rootsourceid = '' OR rootsourceid IS NULL THEN '内部' ELSE '外部' END
			
 
				+)
			
 
				+,t_rec AS (
			
 
				+    -- 推荐曝光表
			
 
				+    SELECT  dt
			
 
				+            ,mid
			
 
				+            ,sessionid
			
 
				+            ,CASE WHEN rootsourceid = '' OR rootsourceid IS NULL THEN '内部' ELSE '外部' END AS in_out
			
 
				+            ,COUNT(1) AS rec_cnt
			
 
				+    FROM    loghubods.dwd_recsys_alg_exposure_base_20250108
			
 
				+    WHERE   dt BETWEEN "${start}" AND "${end}"
			
 
				+    GROUP BY dt, mid, sessionid
			
 
				+            ,CASE WHEN rootsourceid = '' OR rootsourceid IS NULL THEN '内部' ELSE '外部' END
			
 
				+)
			
 
				+SELECT  COALESCE(a.dt, b.dt) AS dt
			
 
				+        ,a.in_out AS head_in_out
			
 
				+        ,b.in_out AS rec_in_out
			
 
				+        -- Session
			
 
				+        ,COUNT(DISTINCT CONCAT(COALESCE(a.mid, b.mid), COALESCE(a.sessionid, b.sessionid))) AS sessions
			
 
				+        -- UV
			
 
				+        ,COUNT(DISTINCT COALESCE(a.mid, b.mid)) AS uv
			
 
				+        -- 行数
			
 
				+        ,SUM(COALESCE(a.head_cnt, 0)) AS head_rows
			
 
				+        ,SUM(COALESCE(b.rec_cnt, 0)) AS rec_rows
			
 
				+FROM    t_head a
			
 
				+FULL OUTER JOIN t_rec b
			
 
				+ON      a.dt = b.dt
			
 
				+AND     a.mid = b.mid
			
 
				+AND     a.sessionid = b.sessionid
			
 
				+GROUP BY COALESCE(a.dt, b.dt)
			
 
				+        ,a.in_out
			
 
				+        ,b.in_out
			
 
				+ORDER BY dt, head_in_out, rec_in_out
			
 
				+;
			
--- a/tasks/表关联验证/query_overall.sql
+++ b/tasks/表关联验证/query_overall.sql
@@ -0,0 +1,43 @@
 
				+-- 验证 opengid_base_data 和 dwd_recsys_alg_exposure_base 的关联情况（用 subsessionid join）
			
 
				+WITH t_head AS (
			
 
				+    -- 头部点击表
			
 
				+    SELECT  dt
			
 
				+            ,mid
			
 
				+            ,subsessionid
			
 
				+            ,COUNT(1) AS head_cnt
			
 
				+    FROM    loghubods.opengid_base_data
			
 
				+    WHERE   dt BETWEEN "${start}" AND "${end}"
			
 
				+    GROUP BY dt, mid, subsessionid
			
 
				+)
			
 
				+,t_rec AS (
			
 
				+    -- 推荐曝光表
			
 
				+    SELECT  dt
			
 
				+            ,mid
			
 
				+            ,subsessionid
			
 
				+            ,COUNT(1) AS rec_cnt
			
 
				+    FROM    loghubods.dwd_recsys_alg_exposure_base_20250108
			
 
				+    WHERE   dt BETWEEN "${start}" AND "${end}"
			
 
				+    GROUP BY dt, mid, subsessionid
			
 
				+)
			
 
				+SELECT  COALESCE(a.dt, b.dt) AS dt
			
 
				+        -- UV
			
 
				+        ,COUNT(DISTINCT COALESCE(a.mid, b.mid)) AS total_uv
			
 
				+        ,COUNT(DISTINCT CASE WHEN a.mid IS NOT NULL THEN a.mid END) AS head_uv
			
 
				+        ,COUNT(DISTINCT CASE WHEN b.mid IS NOT NULL THEN b.mid END) AS rec_uv
			
 
				+        ,COUNT(DISTINCT CASE WHEN a.mid IS NOT NULL AND b.mid IS NOT NULL THEN a.mid END) AS matched_uv
			
 
				+        -- Subsession
			
 
				+        ,COUNT(DISTINCT COALESCE(CONCAT(a.mid, a.subsessionid), CONCAT(b.mid, b.subsessionid))) AS total_subsessions
			
 
				+        ,COUNT(DISTINCT CASE WHEN a.subsessionid IS NOT NULL THEN CONCAT(a.mid, a.subsessionid) END) AS head_subsessions
			
 
				+        ,COUNT(DISTINCT CASE WHEN b.subsessionid IS NOT NULL THEN CONCAT(b.mid, b.subsessionid) END) AS rec_subsessions
			
 
				+        ,COUNT(DISTINCT CASE WHEN a.subsessionid IS NOT NULL AND b.subsessionid IS NOT NULL THEN CONCAT(a.mid, a.subsessionid) END) AS matched_subsessions
			
 
				+        -- 行数
			
 
				+        ,SUM(COALESCE(a.head_cnt, 0)) AS head_rows
			
 
				+        ,SUM(COALESCE(b.rec_cnt, 0)) AS rec_rows
			
 
				+FROM    t_head a
			
 
				+FULL OUTER JOIN t_rec b
			
 
				+ON      a.dt = b.dt
			
 
				+AND     a.mid = b.mid
			
 
				+AND     a.subsessionid = b.subsessionid
			
 
				+GROUP BY COALESCE(a.dt, b.dt)
			
 
				+ORDER BY dt
			
 
				+;
			
--- a/tasks/表关联验证/内外部UV_subsession/query.sql
+++ b/tasks/表关联验证/内外部UV_subsession/query.sql
@@ -0,0 +1,48 @@
 
				+-- 用 subsessionid join，按内外部分组统计 UV 情况
			
 
				+WITH t_head AS (
			
 
				+    SELECT  dt
			
 
				+            ,mid
			
 
				+            ,subsessionid
			
 
				+            ,CASE WHEN rootsourceid = '' OR rootsourceid IS NULL THEN '内部' ELSE '外部' END AS in_out
			
 
				+            ,COUNT(1) AS head_cnt
			
 
				+    FROM    loghubods.opengid_base_data
			
 
				+    WHERE   dt BETWEEN "${start}" AND "${end}"
			
 
				+    GROUP BY dt, mid, subsessionid
			
 
				+            ,CASE WHEN rootsourceid = '' OR rootsourceid IS NULL THEN '内部' ELSE '外部' END
			
 
				+)
			
 
				+,t_rec AS (
			
 
				+    SELECT  dt
			
 
				+            ,mid
			
 
				+            ,subsessionid
			
 
				+            ,CASE WHEN rootsourceid = '' OR rootsourceid IS NULL THEN '内部' ELSE '外部' END AS in_out
			
 
				+            ,COUNT(1) AS rec_cnt
			
 
				+    FROM    loghubods.dwd_recsys_alg_exposure_base_20250108
			
 
				+    WHERE   dt BETWEEN "${start}" AND "${end}"
			
 
				+    GROUP BY dt, mid, subsessionid
			
 
				+            ,CASE WHEN rootsourceid = '' OR rootsourceid IS NULL THEN '内部' ELSE '外部' END
			
 
				+)
			
 
				+SELECT  COALESCE(a.dt, b.dt) AS dt
			
 
				+        ,COALESCE(a.in_out, b.in_out) AS in_out
			
 
				+        -- UV
			
 
				+        ,COUNT(DISTINCT COALESCE(a.mid, b.mid)) AS total_uv
			
 
				+        ,COUNT(DISTINCT CASE WHEN a.mid IS NOT NULL THEN a.mid END) AS head_uv
			
 
				+        ,COUNT(DISTINCT CASE WHEN b.mid IS NOT NULL THEN b.mid END) AS rec_uv
			
 
				+        ,COUNT(DISTINCT CASE WHEN a.mid IS NOT NULL AND b.mid IS NOT NULL THEN a.mid END) AS matched_uv
			
 
				+        -- Subsession
			
 
				+        ,COUNT(DISTINCT COALESCE(CONCAT(a.mid, a.subsessionid), CONCAT(b.mid, b.subsessionid))) AS total_subsessions
			
 
				+        ,COUNT(DISTINCT CASE WHEN a.subsessionid IS NOT NULL THEN CONCAT(a.mid, a.subsessionid) END) AS head_subsessions
			
 
				+        ,COUNT(DISTINCT CASE WHEN b.subsessionid IS NOT NULL THEN CONCAT(b.mid, b.subsessionid) END) AS rec_subsessions
			
 
				+        ,COUNT(DISTINCT CASE WHEN a.subsessionid IS NOT NULL AND b.subsessionid IS NOT NULL THEN CONCAT(a.mid, a.subsessionid) END) AS matched_subsessions
			
 
				+        -- 行数
			
 
				+        ,SUM(COALESCE(a.head_cnt, 0)) AS head_rows
			
 
				+        ,SUM(COALESCE(b.rec_cnt, 0)) AS rec_rows
			
 
				+FROM    t_head a
			
 
				+FULL OUTER JOIN t_rec b
			
 
				+ON      a.dt = b.dt
			
 
				+AND     a.mid = b.mid
			
 
				+AND     a.subsessionid = b.subsessionid
			
 
				+AND     a.in_out = b.in_out
			
 
				+GROUP BY COALESCE(a.dt, b.dt)
			
 
				+        ,COALESCE(a.in_out, b.in_out)
			
 
				+ORDER BY dt, in_out
			
 
				+;
			
--- a/tasks/表关联验证/内外部验证_subsession/query.sql
+++ b/tasks/表关联验证/内外部验证_subsession/query.sql
@@ -0,0 +1,43 @@
 
				+-- 用 subsessionid join，检查内外部冲突情况
			
 
				+WITH t_head AS (
			
 
				+    SELECT  dt
			
 
				+            ,mid
			
 
				+            ,subsessionid
			
 
				+            ,CASE WHEN rootsourceid = '' OR rootsourceid IS NULL THEN '内部' ELSE '外部' END AS in_out
			
 
				+            ,COUNT(1) AS head_cnt
			
 
				+    FROM    loghubods.opengid_base_data
			
 
				+    WHERE   dt BETWEEN "${start}" AND "${end}"
			
 
				+    GROUP BY dt, mid, subsessionid
			
 
				+            ,CASE WHEN rootsourceid = '' OR rootsourceid IS NULL THEN '内部' ELSE '外部' END
			
 
				+)
			
 
				+,t_rec AS (
			
 
				+    SELECT  dt
			
 
				+            ,mid
			
 
				+            ,subsessionid
			
 
				+            ,CASE WHEN rootsourceid = '' OR rootsourceid IS NULL THEN '内部' ELSE '外部' END AS in_out
			
 
				+            ,COUNT(1) AS rec_cnt
			
 
				+    FROM    loghubods.dwd_recsys_alg_exposure_base_20250108
			
 
				+    WHERE   dt BETWEEN "${start}" AND "${end}"
			
 
				+    GROUP BY dt, mid, subsessionid
			
 
				+            ,CASE WHEN rootsourceid = '' OR rootsourceid IS NULL THEN '内部' ELSE '外部' END
			
 
				+)
			
 
				+SELECT  COALESCE(a.dt, b.dt) AS dt
			
 
				+        ,a.in_out AS head_in_out
			
 
				+        ,b.in_out AS rec_in_out
			
 
				+        -- Subsession
			
 
				+        ,COUNT(DISTINCT CONCAT(COALESCE(a.mid, b.mid), COALESCE(a.subsessionid, b.subsessionid))) AS subsessions
			
 
				+        -- UV
			
 
				+        ,COUNT(DISTINCT COALESCE(a.mid, b.mid)) AS uv
			
 
				+        -- 行数
			
 
				+        ,SUM(COALESCE(a.head_cnt, 0)) AS head_rows
			
 
				+        ,SUM(COALESCE(b.rec_cnt, 0)) AS rec_rows
			
 
				+FROM    t_head a
			
 
				+FULL OUTER JOIN t_rec b
			
 
				+ON      a.dt = b.dt
			
 
				+AND     a.mid = b.mid
			
 
				+AND     a.subsessionid = b.subsessionid
			
 
				+GROUP BY COALESCE(a.dt, b.dt)
			
 
				+        ,a.in_out
			
 
				+        ,b.in_out
			
 
				+ORDER BY dt, head_in_out, rec_in_out
			
 
				+;
			
--- a/tasks/表关联验证/冲突排查/query.sql
+++ b/tasks/表关联验证/冲突排查/query.sql
@@ -0,0 +1,73 @@
 
				+-- 抽样查看冲突 session，包含视频信息和时间戳
			
 
				+WITH t_head AS (
			
 
				+    SELECT  dt
			
 
				+            ,mid
			
 
				+            ,sessionid
			
 
				+            ,subsessionid
			
 
				+            ,rootsourceid
			
 
				+            ,CASE WHEN rootsourceid = '' OR rootsourceid IS NULL THEN '内部' ELSE '外部' END AS in_out
			
 
				+            ,videoid
			
 
				+            ,title
			
 
				+            ,`merge一级品类` AS head_cate1
			
 
				+            ,`merge二级品类` AS head_cate2
			
 
				+            ,`点击时间` AS head_click_time
			
 
				+            ,pagesource
			
 
				+            ,`页面` AS head_page
			
 
				+    FROM    loghubods.opengid_base_data
			
 
				+    WHERE   dt = "${start}"
			
 
				+)
			
 
				+,t_rec AS (
			
 
				+    SELECT  dt
			
 
				+            ,mid
			
 
				+            ,sessionid
			
 
				+            ,subsessionid
			
 
				+            ,rootsourceid
			
 
				+            ,CASE WHEN rootsourceid = '' OR rootsourceid IS NULL THEN '内部' ELSE '外部' END AS in_out
			
 
				+            ,vid
			
 
				+            ,page
			
 
				+            ,pagesource AS rec_pagesource
			
 
				+            ,ts AS rec_ts
			
 
				+            ,flowpool
			
 
				+    FROM    loghubods.dwd_recsys_alg_exposure_base_20250108
			
 
				+    WHERE   dt = "${start}"
			
 
				+)
			
 
				+-- 先找出有冲突的 session
			
 
				+,t_conflict_sessions AS (
			
 
				+    SELECT  DISTINCT a.mid, a.sessionid
			
 
				+    FROM    t_head a
			
 
				+    JOIN    t_rec b
			
 
				+    ON      a.dt = b.dt AND a.mid = b.mid AND a.sessionid = b.sessionid
			
 
				+    WHERE   a.in_out <> b.in_out
			
 
				+    LIMIT   10
			
 
				+)
			
 
				+-- 展示这些 session 的所有记录
			
 
				+SELECT  'head' AS source
			
 
				+        ,a.dt
			
 
				+        ,a.mid
			
 
				+        ,a.sessionid
			
 
				+        ,a.subsessionid
			
 
				+        ,a.in_out
			
 
				+        ,a.rootsourceid
			
 
				+        ,a.videoid AS vid
			
 
				+        ,CAST(a.head_click_time AS STRING) AS ts
			
 
				+        ,a.head_page AS page
			
 
				+FROM    t_head a
			
 
				+JOIN    t_conflict_sessions c ON a.mid = c.mid AND a.sessionid = c.sessionid
			
 
				+
			
 
				+UNION ALL
			
 
				+
			
 
				+SELECT  'rec' AS source
			
 
				+        ,b.dt
			
 
				+        ,b.mid
			
 
				+        ,b.sessionid
			
 
				+        ,b.subsessionid
			
 
				+        ,b.in_out
			
 
				+        ,b.rootsourceid
			
 
				+        ,b.vid
			
 
				+        ,b.rec_ts AS ts
			
 
				+        ,b.page
			
 
				+FROM    t_rec b
			
 
				+JOIN    t_conflict_sessions c ON b.mid = c.mid AND b.sessionid = c.sessionid
			
 
				+
			
 
				+ORDER BY mid, sessionid, subsessionid, ts
			
 
				+;
			
--- a/tasks/表结构查询_video_dimension_detail_add_column.csv
+++ b/tasks/表结构查询_video_dimension_detail_add_column.csv
@@ -0,0 +1,257 @@
 
				+序号,字段名,类型,注释

			
 
				+1,数据时间,BIGINT,

			
 
				+2,上传时间,BIGINT,

			
 
				+3,视频id,BIGINT,

			
 
				+4,是否当日新推荐,BIGINT,

			
 
				+5,历史入流量池次数,BIGINT,

			
 
				+6,创建天数间隔,BIGINT,

			
 
				+7,是否七日内创建,BIGINT,

			
 
				+8,视频地址,STRING,

			
 
				+9,grafana链接,STRING,

			
 
				+10,站内uid,BIGINT,

			
 
				+11,发布者昵称,STRING,

			
 
				+12,owner,STRING,

			
 
				+13,标题,STRING,

			
 
				+14,一级品类,STRING,

			
 
				+15,映射一级品类,STRING,

			
 
				+16,二级品类,STRING,

			
 
				+17,热点品类,STRING,

			
 
				+18,类型,STRING,

			
 
				+19,上传渠道,STRING,

			
 
				+20,推荐状态,STRING,

			
 
				+21,首次审核类型,STRING,

			
 
				+22,审核人,STRING,

			
 
				+23,首次审核时间,DATETIME,

			
 
				+24,首次审核日期,BIGINT,

			
 
				+25,首次机审审核状态,STRING,

			
 
				+26,首次机审不通过原因,STRING,

			
 
				+27,首次机审推荐状态,STRING,

			
 
				+28,首次机审不推荐原因,STRING,

			
 
				+29,7日策略入池次数,BIGINT,

			
 
				+30,7日rov入池次数,BIGINT,

			
 
				+31,7日vov入池次数,BIGINT,

			
 
				+32,7日低曝光高ros入池次数,BIGINT,

			
 
				+33,7日手动入池次数,BIGINT,

			
 
				+34,7日内最近一次非自动送入时间,DATETIME,

			
 
				+35,最近一次非自动送入类型,STRING,

			
 
				+36,送入人,STRING,

			
 
				+37,抓取平台,STRING,

			
 
				+38,抓取目标,STRING,

			
 
				+39,视频时长,BIGINT,

			
 
				+40,首发videoid,BIGINT,

			
 
				+41,首发uid,BIGINT,

			
 
				+42,首发时间,DATETIME,

			
 
				+43,首发日期,BIGINT,

			
 
				+44,首发播放量,BIGINT,

			
 
				+45,首发来源,STRING,

			
 
				+46,首发渠道,STRING,

			
 
				+47,是否首发视频,BIGINT,

			
 
				+48,是否首发来源,BIGINT,

			
 
				+49,是否首发渠道,BIGINT,

			
 
				+50,首发距今时间,BIGINT,

			
 
				+51,当日分发曝光pv,BIGINT,

			
 
				+52,当日曝光收益,BIGINT,

			
 
				+53,当日分发分享pv,BIGINT,

			
 
				+54,当日分发回流uv,BIGINT,

			
 
				+55,当日分发拉回曝光pv,BIGINT,

			
 
				+56,vov_t0,DOUBLE,

			
 
				+57,rov_t0,DOUBLE,

			
 
				+58,vor_t0,DOUBLE,

			
 
				+59,str_t0,DOUBLE,

			
 
				+60,ros_t0,DOUBLE,

			
 
				+61,当日推荐当日分发曝光pv,BIGINT,

			
 
				+62,当日推荐当日曝光收益,BIGINT,

			
 
				+63,当日推荐当日分发分享pv,BIGINT,

			
 
				+64,当日推荐当日分发回流uv,BIGINT,

			
 
				+65,当日推荐当日分发拉回曝光pv,BIGINT,

			
 
				+66,当日推荐vov_t0,DOUBLE,

			
 
				+67,当日推荐rov_t0,DOUBLE,

			
 
				+68,当日推荐vor_t0,DOUBLE,

			
 
				+69,当日推荐str_t0,DOUBLE,

			
 
				+70,当日推荐ros_t0,DOUBLE,

			
 
				+71,流量池曝光,BIGINT,

			
 
				+72,流量池播放,BIGINT,

			
 
				+73,流量池分享,BIGINT,

			
 
				+74,流量池回流,BIGINT,

			
 
				+75,流量池str,DOUBLE,

			
 
				+76,流量池ros,DOUBLE,

			
 
				+77,流量池rov,DOUBLE,

			
 
				+78,推荐曝光,BIGINT,

			
 
				+79,推荐播放,BIGINT,

			
 
				+80,推荐分享,BIGINT,

			
 
				+81,推荐回流,BIGINT,

			
 
				+82,推荐str,DOUBLE,

			
 
				+83,推荐ros,DOUBLE,

			
 
				+84,推荐rov,DOUBLE,

			
 
				+85,0_1日分发曝光pv,BIGINT,

			
 
				+86,0_1当日分发分享pv,BIGINT,

			
 
				+87,0_1日分发回流uv,BIGINT,

			
 
				+88,0_1日分发拉回曝光pv,BIGINT,

			
 
				+89,vov_t0_1,DOUBLE,

			
 
				+90,rov_t0_1,DOUBLE,

			
 
				+91,vor_t0_1,DOUBLE,

			
 
				+92,str_t0_1,DOUBLE,

			
 
				+93,ros_t0_1,DOUBLE,

			
 
				+94,0_2日分发曝光pv,BIGINT,

			
 
				+95,0_2当日分发分享pv,BIGINT,

			
 
				+96,0_2日分发回流uv,BIGINT,

			
 
				+97,0_2日分发拉回曝光pv,BIGINT,

			
 
				+98,vov_t0_2,DOUBLE,

			
 
				+99,rov_t0_2,DOUBLE,

			
 
				+100,vor_t0_2,DOUBLE,

			
 
				+101,str_t0_2,DOUBLE,

			
 
				+102,ros_t0_2,DOUBLE,

			
 
				+103,0_3日分发曝光pv,BIGINT,

			
 
				+104,0_3当日分发分享pv,BIGINT,

			
 
				+105,0_3日分发回流uv,BIGINT,

			
 
				+106,0_3日分发拉回曝光pv,BIGINT,

			
 
				+107,vov_t0_3,DOUBLE,

			
 
				+108,rov_t0_3,DOUBLE,

			
 
				+109,vor_t0_3,DOUBLE,

			
 
				+110,str_t0_3,DOUBLE,

			
 
				+111,ros_t0_3,DOUBLE,

			
 
				+112,过去7日总发布量,BIGINT,

			
 
				+113,过去7日总推荐量,BIGINT,

			
 
				+114,姓名,STRING,

			
 
				+115,出生年份,BIGINT,

			
 
				+116,身份证号码,BIGINT,

			
 
				+117,性别,STRING,

			
 
				+118,测试品类,STRING,

			
 
				+119,title_duration,STRING,

			
 
				+120,最近复推日期,STRING,

			
 
				+121,rov入池距当前天数,BIGINT,

			
 
				+122,vov入池距当前天数,BIGINT,

			
 
				+123,低曝光高ros入池距当前天数,BIGINT,

			
 
				+124,手动入池距当前天数,BIGINT,

			
 
				+125,人打二级标签复用,STRING,

			
 
				+126,1日分发回流uv,BIGINT,

			
 
				+127,1日分发拉回曝光pv,BIGINT,

			
 
				+128,2日分发回流uv,BIGINT,

			
 
				+129,2日分发拉回曝光pv,BIGINT,

			
 
				+130,3日分发回流uv,BIGINT,

			
 
				+131,3日分发拉回曝光pv,BIGINT,

			
 
				+132,7日分发回流uv,BIGINT,

			
 
				+133,7日分发拉回曝光pv,BIGINT,

			
 
				+134,14日分发回流uv,BIGINT,

			
 
				+135,14日分发拉回曝光pv,BIGINT,

			
 
				+136,30日分发回流uv,BIGINT,

			
 
				+137,30日分发拉回曝光pv,BIGINT,

			
 
				+138,0_7日分发回流uv,BIGINT,

			
 
				+139,0_7日分发拉回曝光pv,BIGINT,

			
 
				+140,0_14日分发回流uv,BIGINT,

			
 
				+141,0_14日分发拉回曝光pv,BIGINT,

			
 
				+142,0_30日分发回流uv,BIGINT,

			
 
				+143,0_30日分发拉回曝光pv,BIGINT,

			
 
				+144,ai标签集合,STRING,

			
 
				+145,ai标签top1,STRING,

			
 
				+146,ai标签top2,STRING,

			
 
				+147,ai标签top3,STRING,

			
 
				+148,首次推荐时间,BIGINT,

			
 
				+149,最近复推时间,BIGINT,

			
 
				+150,推荐天数间隔,BIGINT,

			
 
				+151,复推天数间隔,BIGINT,

			
 
				+152,人工及ai标签复用二级品类,STRING,

			
 
				+153,人工及ai标签映射一级品类,STRING,

			
 
				+154,人工及复用二级品类,STRING,

			
 
				+155,merge二级品类,STRING,

			
 
				+156,merge一级品类,STRING,

			
 
				+157,在top50,STRING,

			
 
				+158,在top200,STRING,

			
 
				+159,回流rank,STRING,

			
 
				+160,入池人,STRING,

			
 
				+161,人工入池层数,BIGINT,

			
 
				+162,人工入池距今天数,BIGINT,

			
 
				+163,入池策略,STRING,

			
 
				+164,策略入池层数,BIGINT,

			
 
				+165,策略入池距今天数,BIGINT,

			
 
				+166,首次人审审核状态,STRING,

			
 
				+167,首次人审不通过原因,STRING,

			
 
				+168,首次人审推荐状态,STRING,

			
 
				+169,策略,STRING,

			
 
				+170,策略标签距今天数,BIGINT,

			
 
				+171,实验角色,STRING,

			
 
				+172,实验角色标签距今天数,BIGINT,

			
 
				+173,实验层,STRING,

			
 
				+174,实验层标签距今天数,BIGINT,

			
 
				+175,分辨率,STRING,分辨率

			
 
				+176,分辨率比值,STRING,分辨率比值

			
 
				+177,视觉音乐文字,STRING,视觉音乐文字

			
 
				+178,内容选题,STRING,内容选题

			
 
				+179,视频主题,STRING,视频主题

			
 
				+180,视频关键词,STRING,视频关键词

			
 
				+181,视频主体,STRING,视频主体

			
 
				+182,视频场景,STRING,视频场景

			
 
				+183,情感倾向,STRING,情感倾向

			
 
				+184,视频风格,STRING,视频风格

			
 
				+185,是否有片尾引导,STRING,是否有片尾引导

			
 
				+186,引导时长,STRING,引导时长

			
 
				+187,引导强度,STRING,引导强度

			
 
				+188,传播性判断,STRING,传播性判断

			
 
				+189,推测观众地域,STRING,推测观众地域

			
 
				+190,推测观众年龄段,STRING,推测观众年龄段

			
 
				+191,推测观众性别,STRING,推测观众性别

			
 
				+192,推测观众价值类型,STRING,推测观众价值类型

			
 
				+193,推测观众用户价值点,STRING,推测观众用户价值点

			
 
				+194,推测观众用观众收入,STRING,推测观众用观众收入

			
 
				+195,背景音类型,STRING,背景音类型

			
 
				+196,背景音风格,STRING,背景音风格

			
 
				+197,语音类型,STRING,语音类型

			
 
				+198,歌曲名,STRING,歌曲名

			
 
				+199,音色,STRING,音色

			
 
				+200,产品水印,STRING,产品水印

			
 
				+201,产品名称,STRING,产品名称

			
 
				+202,字幕,STRING,字幕

			
 
				+203,颜色,STRING,颜色

			
 
				+204,字号,STRING,字号

			
 
				+205,位置,STRING,位置

			
 
				+206,视频口播,STRING,视频口播

			
 
				+207,封面主体,STRING,封面主体

			
 
				+208,人物个数,STRING,人物个数

			
 
				+209,文字数量,STRING,文字数量

			
 
				+210,文字关键字,STRING,文字关键字

			
 
				+211,封面主题,STRING,封面主题

			
 
				+212,知名人物,STRING,知名人物

			
 
				+213,人物年龄段,STRING,人物年龄段

			
 
				+214,场景描述,STRING,场景描述

			
 
				+215,时效性_有无时效,STRING,时效性_有无时效

			
 
				+216,时效性_具体时间,STRING,时效性_具体时间

			
 
				+217,1007回流人数,BIGINT,

			
 
				+218,1008回流人数,BIGINT,

			
 
				+219,带来1007回流的分享数,BIGINT,

			
 
				+220,带来1008回流的分享数,BIGINT,

			
 
				+221,1007进入分发曝光pv,BIGINT,

			
 
				+222,1008进入分发曝光pv,BIGINT,

			
 
				+223,1007回流再分享pv,BIGINT,

			
 
				+224,1008回流再分享pv,BIGINT,

			
 
				+225,总分享pv,BIGINT,

			
 
				+226,总回流uv,BIGINT,

			
 
				+227,有回流分享pv,BIGINT,

			
 
				+228,累计分享回流uv,BIGINT,

			
 
				+229,分发分享pv,BIGINT,

			
 
				+230,头部分享pv,BIGINT,

			
 
				+231,当日分发头部分享pv,BIGINT,

			
 
				+232,当日分享当日回流uv,BIGINT,

			
 
				+233,当日分享当日回流首层uv,BIGINT,

			
 
				+234,当日分享当日回流非首层uv,BIGINT,

			
 
				+235,非当日分享回流uv,BIGINT,

			
 
				+236,n当日分发回流uv,BIGINT,

			
 
				+237,非当日分发回流uv,BIGINT,

			
 
				+238,原视频id,BIGINT,原视频ID

			
 
				+239,是否存在热点,STRING,是否存在热点信息

			
 
				+240,该热点的特征,STRING,热点的特征描述

			
 
				+241,热点内容概括,STRING,热点内容的概括

			
 
				+242,判断是热点的原因,STRING,判断为热点的原因

			
 
				+243,曝光rank,BIGINT,

			
 
				+244,拉回曝光rank,BIGINT,

			
 
				+245,流量池1007回流人数,BIGINT,

			
 
				+246,流量池1008回流人数,BIGINT,

			
 
				+247,带来流量池1007回流的分享数,BIGINT,

			
 
				+248,带来流量池1008回流的分享数,BIGINT,

			
 
				+249,首发账号名,STRING,

			
 
				+250,首发owner,STRING,

			
 
				+251,流量池回流人数,BIGINT,

			
 
				+252,带来流量池回流的分享数,BIGINT,

			
 
				+253,aidit详情,STRING,

			
 
				+254,项目名称,STRING,

			
 
				+255,rank,BIGINT,

			
 
				+256,dt,STRING,

			
--- a/tasks/视频二级品类分析/README.md
+++ b/tasks/视频二级品类分析/README.md
@@ -0,0 +1,49 @@
 
				+# 视频二级品类分析
			
 
				+
			
 
				+## 数据源
			
 
				+- 表名：`loghubods.video_dimension_detail_add_column`
			
 
				+- 筛选条件：`推荐状态 = '推荐'`
			
 
				+- 粒度：merge二级品类 × 视频id × 日期
			
 
				+
			
 
				+## 业务背景
			
 
				+按二级品类+视频维度聚合分析，用于评估不同品类下视频的分发效果、传播效率和长尾价值。
			
 
				+
			
 
				+## 核心指标说明
			
 
				+
			
 
				+### 效率指标
			
 
				+| 指标 | 含义 | 计算方式 |
			
 
				+|------|------|----------|
			
 
				+| vov0 | 当日曝光价值 | 当日拉回曝光 / 当日曝光 |
			
 
				+| vov1 | 次日曝光价值 | 0~1日拉回曝光 / 当日曝光 |
			
 
				+| rov_t0 | 回流率 | 当日回流uv / 当日曝光 |
			
 
				+| ros_t0 | 分享回流率 | 当日回流uv / 当日分享 |
			
 
				+| str_t0 | 分享率 | 当日分享 / 当日曝光 |
			
 
				+| vor_t0 | 回流价值 | 当日拉回曝光 / 当日回流uv |
			
 
				+
			
 
				+### 新视频分析
			
 
				+按推荐天数间隔划分：
			
 
				+- **新0视频**：当日推荐的视频
			
 
				+- **新1~3视频**：推荐后 1~3 天的视频
			
 
				+- **新0~7视频**：推荐后 7 天内的视频
			
 
				+- **非0~7视频**：推荐超过 7 天的老视频
			
 
				+
			
 
				+### 群聊 vs 单聊
			
 
				+- **1007**：单聊回流
			
 
				+- **1008**：群聊回流
			
 
				+- 群聊占比 = 群聊回流 / 总回流
			
 
				+- 群聊ros = 群聊回流人数 / 带来群聊回流的分享数
			
 
				+
			
 
				+### 流量池 vs 推荐
			
 
				+- **流量池**：视频入池后的分发效果
			
 
				+- **推荐**：进入推荐位后的分发效果
			
 
				+- 流量池曝光roi = 推荐回流 / 流量池曝光
			
 
				+
			
 
				+### 视频量级分布
			
 
				+统计不同曝光量级（100/500/1k/1w）的视频数量，以及高 VoV 视频占比。
			
 
				+
			
 
				+## 常见分析场景
			
 
				+1. **品类效果对比**：哪些二级品类的 vov/rov 表现更好
			
 
				+2. **新视频效果**：新推荐视频 vs 老视频的效率差异
			
 
				+3. **传播链路**：群聊 vs 单聊的传播效率对比
			
 
				+4. **高质量视频**：vov≥0.7 的视频占比分析
			
 
				+5. **供给分析**：首发视频比例、供给 uid 数量
			
--- a/tasks/视频二级品类分析/analyze.py
+++ b/tasks/视频二级品类分析/analyze.py
@@ -0,0 +1,238 @@
 
				+#!/usr/bin/env python
			
 
				+# coding=utf-8
			
 
				+"""
			
 
				+视频二级品类分析
			
 
				+"""
			
 
				+import pandas as pd
			
 
				+import numpy as np
			
 
				+from pathlib import Path
			
 
				+
			
 
				+# 找到最新的输出文件
			
 
				+task_dir = Path(__file__).parent
			
 
				+output_dir = task_dir / "output"
			
 
				+csv_files = list(output_dir.glob("*.csv"))
			
 
				+if not csv_files:
			
 
				+    print("没有找到数据文件，请先运行 query.sql")
			
 
				+    exit(1)
			
 
				+
			
 
				+latest_file = max(csv_files, key=lambda x: x.stat().st_mtime)
			
 
				+df = pd.read_csv(latest_file)
			
 
				+
			
 
				+# 输出结果收集
			
 
				+lines = []
			
 
				+
			
 
				+
			
 
				+def log(text=""):
			
 
				+    print(text)
			
 
				+    lines.append(text)
			
 
				+
			
 
				+
			
 
				+def safe_div(a, b):
			
 
				+    return a / b if b and b > 0 else 0
			
 
				+
			
 
				+
			
 
				+log(f"分析文件: {latest_file.name}")
			
 
				+log()
			
 
				+
			
 
				+# ============================================================
			
 
				+# 基本信息
			
 
				+# ============================================================
			
 
				+log("=" * 70)
			
 
				+log("基本信息")
			
 
				+log("=" * 70)
			
 
				+log(f"记录数: {len(df):,}")
			
 
				+log(f"视频数: {df['视频id'].nunique():,}")
			
 
				+log(f"二级品类数: {df['merge二级品类'].nunique()}")
			
 
				+log(f"总曝光pv: {df['分发曝光pv'].sum():,.0f}")
			
 
				+log(f"总回流uv: {df['分发回流_当日'].sum():,.0f}")
			
 
				+log(f"整体 vov0: {df['分发拉回曝光pv'].sum() / (df['分发曝光pv'].sum() + 1):.3f}")
			
 
				+log(f"整体 rov: {df['分发回流_当日'].sum() / (df['分发曝光pv'].sum() + 1):.4%}")
			
 
				+log()
			
 
				+
			
 
				+# ============================================================
			
 
				+# 二级品类效果排名（按曝光）
			
 
				+# ============================================================
			
 
				+log("=" * 70)
			
 
				+log("二级品类效果排名（Top 20，按曝光）")
			
 
				+log("=" * 70)
			
 
				+cat_stats = df.groupby('merge二级品类').agg({
			
 
				+    '视频id': 'nunique',
			
 
				+    '分发曝光pv': 'sum',
			
 
				+    '分发拉回曝光pv': 'sum',
			
 
				+    '分发回流_当日': 'sum',
			
 
				+    '分发分享pv': 'sum'
			
 
				+}).rename(columns={'视频id': '视频数'})
			
 
				+cat_stats['vov0'] = cat_stats['分发拉回曝光pv'] / (cat_stats['分发曝光pv'] + 1)
			
 
				+cat_stats['rov'] = cat_stats['分发回流_当日'] / (cat_stats['分发曝光pv'] + 1)
			
 
				+cat_stats['str'] = cat_stats['分发分享pv'] / (cat_stats['分发曝光pv'] + 1)
			
 
				+cat_stats = cat_stats.sort_values('分发曝光pv', ascending=False).head(20)
			
 
				+
			
 
				+log(f"{'品类':<25} {'视频数':>8} {'曝光':>14} {'vov0':>8} {'rov':>10} {'str':>8}")
			
 
				+log("-" * 80)
			
 
				+for cat, row in cat_stats.iterrows():
			
 
				+    cat_name = str(cat)[:23] if pd.notna(cat) else '(空)'
			
 
				+    log(f"{cat_name:<25} {int(row['视频数']):>8,} {int(row['分发曝光pv']):>14,} {row['vov0']:>8.3f} {row['rov']:>10.4%} {row['str']:>8.3%}")
			
 
				+log()
			
 
				+
			
 
				+# ============================================================
			
 
				+# 二级品类效果排名（按 vov0）
			
 
				+# ============================================================
			
 
				+log("=" * 70)
			
 
				+log("二级品类效果排名（Top 20，按 vov0，曝光≥100万）")
			
 
				+log("=" * 70)
			
 
				+cat_by_vov = df.groupby('merge二级品类').agg({
			
 
				+    '视频id': 'nunique',
			
 
				+    '分发曝光pv': 'sum',
			
 
				+    '分发拉回曝光pv': 'sum',
			
 
				+    '分发回流_当日': 'sum'
			
 
				+}).rename(columns={'视频id': '视频数'})
			
 
				+cat_by_vov['vov0'] = cat_by_vov['分发拉回曝光pv'] / (cat_by_vov['分发曝光pv'] + 1)
			
 
				+cat_by_vov['rov'] = cat_by_vov['分发回流_当日'] / (cat_by_vov['分发曝光pv'] + 1)
			
 
				+# 过滤曝光≥100万
			
 
				+cat_by_vov = cat_by_vov[cat_by_vov['分发曝光pv'] >= 1000000]
			
 
				+cat_by_vov = cat_by_vov.sort_values('vov0', ascending=False).head(20)
			
 
				+
			
 
				+log(f"{'品类':<25} {'视频数':>8} {'曝光':>14} {'vov0':>8} {'rov':>10}")
			
 
				+log("-" * 70)
			
 
				+for cat, row in cat_by_vov.iterrows():
			
 
				+    cat_name = str(cat)[:23] if pd.notna(cat) else '(空)'
			
 
				+    log(f"{cat_name:<25} {int(row['视频数']):>8,} {int(row['分发曝光pv']):>14,} {row['vov0']:>8.3f} {row['rov']:>10.4%}")
			
 
				+log()
			
 
				+
			
 
				+# ============================================================
			
 
				+# Top 视频（按曝光）
			
 
				+# ============================================================
			
 
				+log("=" * 70)
			
 
				+log("Top 30 视频（按曝光）")
			
 
				+log("=" * 70)
			
 
				+top_videos = df.nlargest(30, '分发曝光pv')
			
 
				+for _, row in top_videos.iterrows():
			
 
				+    title = str(row['标题'])[:35] if pd.notna(row['标题']) else '(无标题)'
			
 
				+    cat = str(row['merge二级品类'])[:15] if pd.notna(row['merge二级品类']) else ''
			
 
				+    log(f"  {title}")
			
 
				+    log(f"    品类={cat}, 曝光={int(row['分发曝光pv']):,}, vov0={row['vov0']:.3f}, vov1={row['vov1']:.3f}")
			
 
				+log()
			
 
				+
			
 
				+# ============================================================
			
 
				+# Top 视频（按 vov1，高质量视频）
			
 
				+# ============================================================
			
 
				+log("=" * 70)
			
 
				+log("高质量视频（vov1≥0.7，曝光≥10万，Top 30）")
			
 
				+log("=" * 70)
			
 
				+high_quality = df[(df['vov1'] >= 0.7) & (df['分发曝光pv'] >= 100000)]
			
 
				+high_quality = high_quality.nlargest(30, '分发曝光pv')
			
 
				+for _, row in high_quality.iterrows():
			
 
				+    title = str(row['标题'])[:35] if pd.notna(row['标题']) else '(无标题)'
			
 
				+    cat = str(row['merge二级品类'])[:15] if pd.notna(row['merge二级品类']) else ''
			
 
				+    log(f"  {title}")
			
 
				+    log(f"    品类={cat}, 曝光={int(row['分发曝光pv']):,}, vov0={row['vov0']:.3f}, vov1={row['vov1']:.3f}")
			
 
				+log()
			
 
				+
			
 
				+# ============================================================
			
 
				+# VoV 分布分析
			
 
				+# ============================================================
			
 
				+log("=" * 70)
			
 
				+log("VoV 分布分析")
			
 
				+log("=" * 70)
			
 
				+# 整体 VoV 分布
			
 
				+total_pv = df['分发曝光pv'].sum()
			
 
				+total_vov0 = df['分发拉回曝光pv'].sum() / (total_pv + 1)
			
 
				+total_vov1 = df['0_1日分发拉回曝光pv'].sum() / (total_pv + 1) if '0_1日分发拉回曝光pv' in df.columns else 0
			
 
				+total_vov7 = df['0_7日分发拉回曝光pv'].sum() / (total_pv + 1) if '0_7日分发拉回曝光pv' in df.columns else 0
			
 
				+
			
 
				+log(f"整体 vov0: {total_vov0:.3f}")
			
 
				+log(f"整体 vov1: {total_vov1:.3f}")
			
 
				+log(f"整体 vov7: {total_vov7:.3f}")
			
 
				+log(f"vov1-vov0 (次日增量): {total_vov1 - total_vov0:.3f}")
			
 
				+log()
			
 
				+
			
 
				+# 高 VoV 视频占比
			
 
				+if 't0_500曝光视频量' in df.columns:
			
 
				+    total_500 = df['t0_500曝光视频量'].sum()
			
 
				+    vov07_500 = df['vov1_07_500视频量'].sum() if 'vov1_07_500视频量' in df.columns else 0
			
 
				+    vov08_500 = df['vov1_08_500视频量'].sum() if 'vov1_08_500视频量' in df.columns else 0
			
 
				+    log(f"500+曝光视频中 vov1≥0.7 占比: {vov07_500 / (total_500 + 1):.2%}")
			
 
				+    log(f"500+曝光视频中 vov1≥0.8 占比: {vov08_500 / (total_500 + 1):.2%}")
			
 
				+    log()
			
 
				+
			
 
				+# ============================================================
			
 
				+# 新视频 vs 老视频
			
 
				+# ============================================================
			
 
				+log("=" * 70)
			
 
				+log("新视频 vs 老视频效果对比")
			
 
				+log("=" * 70)
			
 
				+# 尝试多种列名格式
			
 
				+col_mapping = {col: col for col in df.columns}
			
 
				+for col in df.columns:
			
 
				+    col_mapping[col.replace('_', '')] = col
			
 
				+
			
 
				+if '新0_7曝光占比' in df.columns or '新07曝光占比' in col_mapping:
			
 
				+    ratio_col = '新0_7曝光占比' if '新0_7曝光占比' in df.columns else col_mapping.get('新07曝光占比')
			
 
				+    weights = df['分发曝光pv']
			
 
				+
			
 
				+    if ratio_col and ratio_col in df.columns:
			
 
				+        new_07_ratio = (df[ratio_col] * weights).sum() / weights.sum() if weights.sum() > 0 else 0
			
 
				+        log(f"新0~7天视频曝光占比: {new_07_ratio:.2%}")
			
 
				+
			
 
				+    # 新视频 vov 分析（从聚合数据计算）
			
 
				+    new_vov0_col = [c for c in df.columns if '新0_7VoV0' in c or '新07VoV0' in c]
			
 
				+    if new_vov0_col:
			
 
				+        new_07_vov0 = df[df[new_vov0_col[0]].notna()][new_vov0_col[0]].mean()
			
 
				+        log(f"新0~7天视频平均 vov0: {new_07_vov0:.3f}")
			
 
				+
			
 
				+    old_vov0_col = [c for c in df.columns if '非0_7_VoV0' in c or '非07VoV0' in c]
			
 
				+    if old_vov0_col:
			
 
				+        old_vov0 = df[df[old_vov0_col[0]].notna()][old_vov0_col[0]].mean()
			
 
				+        log(f"老视频（>7天）平均 vov0: {old_vov0:.3f}")
			
 
				+log()
			
 
				+
			
 
				+# ============================================================
			
 
				+# 群聊 vs 单聊
			
 
				+# ============================================================
			
 
				+log("=" * 70)
			
 
				+log("群聊 vs 单聊效果对比")
			
 
				+log("=" * 70)
			
 
				+if '群聊占比' in df.columns and '1008回流人数' in df.columns:
			
 
				+    total_1008 = df['1008回流人数'].sum()
			
 
				+    total_1007 = df['1007回流人数'].sum()
			
 
				+    total_return = total_1008 + total_1007
			
 
				+
			
 
				+    log(f"群聊回流占比: {total_1008 / (total_return + 1):.2%}")
			
 
				+    log(f"单聊回流占比: {total_1007 / (total_return + 1):.2%}")
			
 
				+
			
 
				+    if '群聊ros' in df.columns:
			
 
				+        avg_qunliao_ros = df[df['群聊ros'].notna() & (df['群聊ros'] < 10)]['群聊ros'].mean()
			
 
				+        avg_danliao_ros = df[df['单聊ros'].notna() & (df['单聊ros'] < 10)]['单聊ros'].mean()
			
 
				+        log(f"群聊 ros（平均）: {avg_qunliao_ros:.2f}")
			
 
				+        log(f"单聊 ros（平均）: {avg_danliao_ros:.2f}")
			
 
				+log()
			
 
				+
			
 
				+# ============================================================
			
 
				+# 上传渠道分析
			
 
				+# ============================================================
			
 
				+log("=" * 70)
			
 
				+log("上传渠道效果（Top 10）")
			
 
				+log("=" * 70)
			
 
				+channel_stats = df.groupby('上传渠道').agg({
			
 
				+    '视频id': 'nunique',
			
 
				+    '分发曝光pv': 'sum',
			
 
				+    '分发拉回曝光pv': 'sum',
			
 
				+    '分发回流_当日': 'sum'
			
 
				+}).rename(columns={'视频id': '视频数'})
			
 
				+channel_stats['vov0'] = channel_stats['分发拉回曝光pv'] / (channel_stats['分发曝光pv'] + 1)
			
 
				+channel_stats['rov'] = channel_stats['分发回流_当日'] / (channel_stats['分发曝光pv'] + 1)
			
 
				+channel_stats = channel_stats.sort_values('分发曝光pv', ascending=False).head(10)
			
 
				+
			
 
				+log(f"{'上传渠道':<20} {'视频数':>8} {'曝光':>14} {'vov0':>8} {'rov':>10}")
			
 
				+log("-" * 65)
			
 
				+for ch, row in channel_stats.iterrows():
			
 
				+    ch_name = str(ch)[:18] if pd.notna(ch) else '(空)'
			
 
				+    log(f"{ch_name:<20} {int(row['视频数']):>8,} {int(row['分发曝光pv']):>14,} {row['vov0']:>8.3f} {row['rov']:>10.4%}")
			
 
				+log()
			
 
				+
			
 
				+# 保存分析结果
			
 
				+result_file = output_dir / f"{latest_file.stem}_分析.txt"
			
 
				+with open(result_file, 'w', encoding='utf-8') as f:
			
 
				+    f.write("\n".join(lines))
			
 
				+
			
 
				+log(f"分析结果已保存到: {result_file}")
			
--- a/tasks/视频二级品类分析/query.sql
+++ b/tasks/视频二级品类分析/query.sql
@@ -0,0 +1,220 @@
 
				+-- 视频二级品类分析
			
 
				+-- 按 merge二级品类+视频 维度聚合，分析视频效果指标
			
 
				+-- 包含：分发效果、流量池效果、推荐效果、新视频表现、群聊/单聊分析等
			
 
				+
			
 
				+SELECT  0
			
 
				+        ,merge二级品类
			
 
				+        ,视频id
			
 
				+        ,标题
			
 
				+        ,类型
			
 
				+        ,上传渠道
			
 
				+        ,推荐状态
			
 
				+        ,首次推荐时间
			
 
				+        ,视频关键词
			
 
				+        ,视频口播
			
 
				+        -- 核心分发指标
			
 
				+        ,SUM(当日分发曝光pv) AS 分发曝光pv
			
 
				+        ,SUM(当日分发拉回曝光pv) AS 分发拉回曝光pv
			
 
				+        ,SUM(当日分发回流uv) AS 分发回流_当日
			
 
				+        ,SUM(累计分享回流uv) AS 总回流uv
			
 
				+        -- 效率指标
			
 
				+        ,SUM(当日分发回流uv) / SUM(当日分发曝光pv) AS rov_t0
			
 
				+        ,SUM(当日分发回流uv) / SUM(当日分发分享pv) AS ros_t0
			
 
				+        ,SUM(当日分发拉回曝光pv) / SUM(当日分发曝光pv) AS vov0
			
 
				+        ,SUM(0_1日分发拉回曝光pv) / SUM(当日分发曝光pv) AS vov1
			
 
				+        ,SUM(当日分发拉回曝光pv) / SUM(当日分发回流uv) AS vor_t0
			
 
				+        ,SUM(当日分发分享pv) / SUM(当日分发曝光pv) AS str_t0
			
 
				+        ,AVG(视频时长) AS 视频时长
			
 
				+        -- 视频量统计
			
 
				+        ,COUNT(DISTINCT 视频id) AS 分发视频量
			
 
				+        ,COUNT(DISTINCT IF(是否当日新推荐 > 0, 视频id, NULL)) AS 新推荐视频量
			
 
				+        -- 群聊/头部分享
			
 
				+        ,SUM(1008回流人数) / SUM(总回流uv) AS 群聊占比
			
 
				+        ,SUM(头部分享pv) / SUM(总分享pv) AS 头部分享占比
			
 
				+        ,SUM(当日分发头部分享pv) / SUM(当日分发曝光pv) AS 头部str_t0
			
 
				+        ,SUM(当日分发头部分享pv) / SUM(当日分发头部分享pv + 当日分发分享pv) AS 当日分发头部分享占比
			
 
				+        -- 流量池相关
			
 
				+        ,SUM(推荐回流) / SUM(流量池曝光) AS 流量池曝光roi
			
 
				+        ,SUM(流量池曝光) AS 流量池分发曝光
			
 
				+        -- 新视频 VoV 分析
			
 
				+        ,SUM(CASE WHEN 推荐天数间隔 IN (0,1,2,3) THEN 当日分发拉回曝光pv END)
			
 
				+         / SUM(CASE WHEN 推荐天数间隔 IN (0,1,2,3) THEN 当日分发曝光pv END) AS 新0_3VoV0
			
 
				+        -- 排名分析
			
 
				+        ,AVG(曝光rank) - AVG(回流rank) AS rankdiff
			
 
				+        ,AVG(回流rank) AS 回流rank_avg
			
 
				+        ,AVG(曝光rank) AS 曝光rank_avg
			
 
				+        -- 流量池效率
			
 
				+        ,SUM(流量池回流) / SUM(流量池曝光) AS 流量池rov
			
 
				+        ,SUM(流量池回流) / SUM(流量池分享) AS 流量池ros
			
 
				+        ,SUM(流量池分享) / SUM(流量池曝光) AS 流量池str
			
 
				+        -- 推荐效率
			
 
				+        ,SUM(推荐回流) / SUM(推荐曝光) AS 推荐rov
			
 
				+        ,SUM(推荐回流) / SUM(推荐分享) AS 推荐ros
			
 
				+        ,SUM(推荐分享) / SUM(推荐曝光) AS 推荐str
			
 
				+        -- 有效分享率
			
 
				+        ,(SUM(带来1007回流的分享数) + SUM(带来1008回流的分享数)) / SUM(总分享pv) AS 有效分享率
			
 
				+        -- 新视频各时间窗口 VoV
			
 
				+        ,SUM(CASE WHEN 推荐天数间隔 IN (0,1,2,3,4,5,6,7) THEN 0_1日分发拉回曝光pv END)
			
 
				+         / SUM(CASE WHEN 推荐天数间隔 IN (0,1,2,3,4,5,6,7) THEN 当日分发曝光pv END) AS 新0_7VoV1
			
 
				+        ,SUM(CASE WHEN 推荐天数间隔 IN (0,1,2,3,4,5,6,7) THEN 当日分发拉回曝光pv END)
			
 
				+         / SUM(CASE WHEN 推荐天数间隔 IN (0,1,2,3,4,5,6,7) THEN 当日分发曝光pv END) AS 新0_7VoV0
			
 
				+        ,SUM(CASE WHEN 推荐天数间隔 IN (0,1,2,3,4,5,6,7) THEN 当日分发曝光pv END)
			
 
				+         / SUM(当日分发曝光pv) AS 新0_7曝光占比
			
 
				+        ,SUM(CASE WHEN 推荐天数间隔 IN (0,1,2,3) THEN 0_1日分发拉回曝光pv END)
			
 
				+         / SUM(CASE WHEN 推荐天数间隔 IN (0,1,2,3) THEN 当日分发曝光pv END) AS 新0_3VoV1
			
 
				+        ,SUM(CASE WHEN 推荐天数间隔 IN (0,1,2,3) THEN 当日分发曝光pv END)
			
 
				+         / SUM(当日分发曝光pv) AS 新0_3曝光占比
			
 
				+        ,SUM(CASE WHEN 推荐天数间隔 IN (1,2,3) THEN 0_1日分发拉回曝光pv END)
			
 
				+         / SUM(CASE WHEN 推荐天数间隔 IN (1,2,3) THEN 当日分发曝光pv END) AS 新1_3VoV1
			
 
				+        ,SUM(CASE WHEN 推荐天数间隔 IN (1,2,3) THEN 当日分发拉回曝光pv END)
			
 
				+         / SUM(CASE WHEN 推荐天数间隔 IN (1,2,3) THEN 当日分发曝光pv END) AS 新1_3VoV0
			
 
				+        ,SUM(CASE WHEN 推荐天数间隔 IN (0) THEN 0_1日分发拉回曝光pv END)
			
 
				+         / SUM(CASE WHEN 推荐天数间隔 IN (0) THEN 当日分发曝光pv END) AS 新0VoV1
			
 
				+        ,SUM(CASE WHEN 推荐天数间隔 IN (0) THEN 当日分发拉回曝光pv END)
			
 
				+         / SUM(CASE WHEN 推荐天数间隔 IN (0) THEN 当日分发曝光pv END) AS 新0VoV0
			
 
				+        ,SUM(CASE WHEN 推荐天数间隔 IN (0) THEN 当日分发曝光pv END)
			
 
				+         / SUM(当日分发曝光pv) AS 新0曝光占比
			
 
				+        -- 各天新视频量
			
 
				+        ,COUNT(DISTINCT IF(推荐天数间隔 = 1, 视频id, NULL)) AS 新1视频量
			
 
				+        ,SUM(CASE WHEN 推荐天数间隔 IN (1) THEN 0_1日分发拉回曝光pv END)
			
 
				+         / SUM(CASE WHEN 推荐天数间隔 IN (1) THEN 当日分发曝光pv END) AS 新1VoV1
			
 
				+        ,SUM(CASE WHEN 推荐天数间隔 IN (1) THEN 当日分发拉回曝光pv END)
			
 
				+         / SUM(CASE WHEN 推荐天数间隔 IN (1) THEN 当日分发曝光pv END) AS 新1VoV0
			
 
				+        ,SUM(CASE WHEN 推荐天数间隔 IN (1) THEN 当日分发曝光pv END)
			
 
				+         / SUM(当日分发曝光pv) AS 新1曝光占比
			
 
				+        ,COUNT(DISTINCT IF(推荐天数间隔 = 2, 视频id, NULL)) AS 新2视频量
			
 
				+        ,SUM(CASE WHEN 推荐天数间隔 IN (2) THEN 0_1日分发拉回曝光pv END)
			
 
				+         / SUM(CASE WHEN 推荐天数间隔 IN (2) THEN 当日分发曝光pv END) AS 新2VoV1
			
 
				+        ,SUM(CASE WHEN 推荐天数间隔 IN (2) THEN 当日分发拉回曝光pv END)
			
 
				+         / SUM(CASE WHEN 推荐天数间隔 IN (2) THEN 当日分发曝光pv END) AS 新2VoV0
			
 
				+        ,SUM(CASE WHEN 推荐天数间隔 IN (2) THEN 当日分发曝光pv END)
			
 
				+         / SUM(当日分发曝光pv) AS 新2曝光占比
			
 
				+        ,COUNT(DISTINCT IF(推荐天数间隔 = 3, 视频id, NULL)) AS 新3视频量
			
 
				+        ,SUM(CASE WHEN 推荐天数间隔 IN (3) THEN 0_1日分发拉回曝光pv END)
			
 
				+         / SUM(CASE WHEN 推荐天数间隔 IN (3) THEN 当日分发曝光pv END) AS 新3VoV1
			
 
				+        ,SUM(CASE WHEN 推荐天数间隔 IN (3) THEN 当日分发拉回曝光pv END)
			
 
				+         / SUM(CASE WHEN 推荐天数间隔 IN (3) THEN 当日分发曝光pv END) AS 新3VoV0
			
 
				+        ,SUM(CASE WHEN 推荐天数间隔 IN (3) THEN 当日分发曝光pv END)
			
 
				+         / SUM(当日分发曝光pv) AS 新3曝光占比
			
 
				+        -- 非新视频
			
 
				+        ,SUM(CASE WHEN 推荐天数间隔 NOT IN (0,1,2,3,4,5,6,7) THEN 0_1日分发拉回曝光pv END)
			
 
				+         / SUM(CASE WHEN 推荐天数间隔 NOT IN (0,1,2,3,4,5,6,7) THEN 当日分发曝光pv END) AS 非0_7_VoV1
			
 
				+        ,SUM(CASE WHEN 推荐天数间隔 NOT IN (0,1,2,3,4,5,6,7) THEN 当日分发拉回曝光pv END)
			
 
				+         / SUM(CASE WHEN 推荐天数间隔 NOT IN (0,1,2,3,4,5,6,7) THEN 当日分发曝光pv END) AS 非0_7_VoV0
			
 
				+        -- VoV 时间序列
			
 
				+        ,SUM(0_2日分发拉回曝光pv) / SUM(当日分发曝光pv) AS vov2
			
 
				+        ,SUM(0_7日分发拉回曝光pv) / SUM(当日分发曝光pv) AS vov7
			
 
				+        ,SUM(0_30日分发拉回曝光pv) / SUM(当日分发曝光pv) AS vov30
			
 
				+        ,(SUM(0_1日分发拉回曝光pv) / SUM(当日分发曝光pv)) - (SUM(当日分发拉回曝光pv) / SUM(当日分发曝光pv)) AS vov1减vov0
			
 
				+        -- 分发数据
			
 
				+        ,SUM(当日分发回流uv) AS 分发回流uv
			
 
				+        ,SUM(当日分发分享pv) AS 分发分享pv
			
 
				+        -- 群聊/单聊效率
			
 
				+        ,SUM(1008回流人数) / SUM(带来1008回流的分享数) AS 群聊ros
			
 
				+        ,SUM(1007回流人数) / SUM(带来1007回流的分享数) AS 单聊ros
			
 
				+        ,SUM(1007进入分发曝光pv) / SUM(1007回流人数) AS 单聊vor
			
 
				+        ,SUM(1008进入分发曝光pv) / SUM(1008回流人数) AS 群聊vor
			
 
				+        -- 回流后行为
			
 
				+        ,(SUM(1007回流再分享pv) + SUM(1008回流再分享pv)) / (SUM(1007进入分发曝光pv) + SUM(1008进入分发曝光pv)) AS 回流后str
			
 
				+        ,SUM(1008回流再分享pv) / SUM(1008进入分发曝光pv) AS 群聊后str
			
 
				+        ,SUM(1007回流再分享pv) / SUM(1007进入分发曝光pv) AS 单聊后str
			
 
				+        ,SUM(总回流uv) / SUM(累计分享回流uv) AS 当日分享回流占比
			
 
				+        ,SUM(当日分享当日回流首层uv) / SUM(当日分享当日回流uv) AS 当日分享当日回流首层比当日分享当日回流
			
 
				+        -- 供给统计
			
 
				+        ,COUNT(DISTINCT IF(是否七日内创建 > 0, 视频id, NULL)) AS 七日内新视频量
			
 
				+        ,COUNT(DISTINCT IF(是否首发视频 > 0, 视频id, NULL)) AS 首发视频量
			
 
				+        ,COUNT(DISTINCT IF(是否首发视频 > 0, 视频id, NULL)) / COUNT(DISTINCT 视频id) AS 首发视频比例
			
 
				+        ,COUNT(DISTINCT 站内uid) AS 供给uid量
			
 
				+        ,AVG(首发距今时间) AS 首发距今间隔avg
			
 
				+        ,AVG(推荐天数间隔) AS 推荐距今间隔avg
			
 
				+        ,AVG(创建天数间隔) AS 创建距今间隔avg
			
 
				+        -- 累计拉回曝光
			
 
				+        ,SUM(0_1日分发拉回曝光pv) AS 0_1日分发拉回曝光pv
			
 
				+        ,SUM(0_2日分发拉回曝光pv) AS 0_2日分发拉回曝光pv
			
 
				+        ,SUM(0_3日分发拉回曝光pv) AS 0_3日分发拉回曝光pv
			
 
				+        ,SUM(0_7日分发拉回曝光pv) AS 0_7日分发拉回曝光pv
			
 
				+        ,SUM(0_30日分发拉回曝光pv) AS 0_30日分发拉回曝光pv
			
 
				+        -- ROV 时间序列
			
 
				+        ,SUM(0_1日分发回流uv) / SUM(当日分发曝光pv) AS rov1
			
 
				+        ,SUM(0_7日分发回流uv) / SUM(当日分发曝光pv) AS rov7
			
 
				+        ,SUM(0_30日分发回流uv) / SUM(当日分发曝光pv) AS rov30
			
 
				+        -- VOR 时间序列
			
 
				+        ,SUM(0_1日分发拉回曝光pv) / SUM(0_1日分发回流uv) AS vor1
			
 
				+        ,SUM(0_7日分发拉回曝光pv) / SUM(0_7日分发回流uv) AS vor7
			
 
				+        ,SUM(0_30日分发拉回曝光pv) / SUM(0_30日分发回流uv) AS vor30
			
 
				+        -- 流量池明细
			
 
				+        ,SUM(流量池曝光) AS 流量池曝光
			
 
				+        ,SUM(流量池播放) AS 流量池播放
			
 
				+        ,SUM(流量池分享) AS 流量池分享
			
 
				+        ,SUM(流量池回流) AS 流量池回流
			
 
				+        -- 推荐明细
			
 
				+        ,SUM(推荐曝光) AS 推荐曝光
			
 
				+        ,SUM(推荐播放) AS 推荐播放
			
 
				+        ,SUM(推荐分享) AS 推荐分享
			
 
				+        ,SUM(推荐回流) AS 推荐回流
			
 
				+        -- 分享/回流明细
			
 
				+        ,SUM(总分享pv) AS 总分享pv
			
 
				+        ,SUM(总回流uv) AS 总回流uv
			
 
				+        ,SUM(1007回流人数) AS 1007回流人数
			
 
				+        ,SUM(1008回流人数) AS 1008回流人数
			
 
				+        ,SUM(带来1007回流的分享数) AS 带来1007回流的分享数
			
 
				+        ,SUM(带来1008回流的分享数) AS 带来1008回流的分享数
			
 
				+        ,SUM(1007进入分发曝光pv) AS 1007进入分发曝光pv
			
 
				+        ,SUM(1008进入分发曝光pv) AS 1008进入分发曝光pv
			
 
				+        ,SUM(1007回流再分享pv) AS 1007回流再分享pv
			
 
				+        ,SUM(1008回流再分享pv) AS 1008回流再分享pv
			
 
				+        ,SUM(有回流分享pv) AS 有回流分享pv
			
 
				+        ,SUM(累计分享回流uv) AS 累计分享回流uv
			
 
				+        ,SUM(分发分享pv) AS 分发分享pv
			
 
				+        ,SUM(头部分享pv) AS 头部分享pv
			
 
				+        ,SUM(当日分发头部分享pv) AS 当日分发头部分享pv
			
 
				+        ,SUM(当日分享当日回流uv) AS 当日分享当日回流uv
			
 
				+        ,SUM(当日分享当日回流首层uv) AS 当日分享当日回流首层uv
			
 
				+        ,SUM(当日分享当日回流非首层uv) AS 当日分享当日回流非首层uv
			
 
				+        ,SUM(非当日分享回流uv) AS 非当日分享回流uv
			
 
				+        ,SUM(n当日分发回流uv) AS n当日分发回流uv
			
 
				+        ,SUM(非当日分发回流uv) AS 非当日分发回流uv
			
 
				+        -- 视频量级分布
			
 
				+        ,COUNT(DISTINCT IF(当日分发曝光pv >= 100, 视频id, NULL)) AS t0_100曝光视频量
			
 
				+        ,COUNT(DISTINCT IF(当日分发曝光pv >= 500, 视频id, NULL)) AS t0_500曝光视频量
			
 
				+        ,COUNT(DISTINCT IF(当日分发曝光pv >= 1000, 视频id, NULL)) AS t0_1k曝光视频量
			
 
				+        ,COUNT(DISTINCT IF(当日分发曝光pv >= 10000, 视频id, NULL)) AS t0_1w曝光视频量
			
 
				+        -- VoV 高质量视频
			
 
				+        ,COUNT(DISTINCT IF((0_1日分发拉回曝光pv) / (当日分发曝光pv) - (当日分发拉回曝光pv) / (当日分发曝光pv) >= 0.2 AND 当日分发曝光pv >= 500, 视频id, NULL)) AS vov1_0_02_500视频量
			
 
				+        ,COUNT(DISTINCT IF((0_1日分发拉回曝光pv) / (当日分发曝光pv) - (当日分发拉回曝光pv) / (当日分发曝光pv) >= 0.2 AND 当日分发曝光pv >= 500, 视频id, NULL)) / COUNT(DISTINCT IF(当日分发曝光pv >= 500, 视频id, NULL)) AS vov1_0_02_500视频占比
			
 
				+        ,COUNT(DISTINCT IF((当日分发拉回曝光pv) / (当日分发曝光pv) >= 0.4 AND 当日分发曝光pv >= 500, 视频id, NULL)) AS vov0_04_500视频量
			
 
				+        ,COUNT(DISTINCT IF((当日分发拉回曝光pv) / (当日分发曝光pv) >= 0.4 AND 当日分发曝光pv >= 500, 视频id, NULL)) / COUNT(DISTINCT IF(当日分发曝光pv >= 500, 视频id, NULL)) AS vov0_04_500视频占比
			
 
				+        ,COUNT(DISTINCT IF((0_1日分发拉回曝光pv) / (当日分发曝光pv) >= 0.7 AND 当日分发曝光pv >= 500, 视频id, NULL)) AS vov1_07_500视频量
			
 
				+        ,COUNT(DISTINCT IF((0_1日分发拉回曝光pv) / (当日分发曝光pv) >= 0.7 AND 当日分发曝光pv >= 500, 视频id, NULL)) / COUNT(DISTINCT IF(当日分发曝光pv >= 500, 视频id, NULL)) AS vov1_07_500视频占比
			
 
				+        ,COUNT(DISTINCT IF((0_1日分发拉回曝光pv) / (当日分发曝光pv) >= 0.8 AND 当日分发曝光pv >= 500, 视频id, NULL)) AS vov1_08_500视频量
			
 
				+        ,COUNT(DISTINCT IF((0_1日分发拉回曝光pv) / (当日分发曝光pv) >= 0.8 AND 当日分发曝光pv >= 500, 视频id, NULL)) / COUNT(DISTINCT IF(当日分发曝光pv >= 500, 视频id, NULL)) AS vov1_08_500视频占比
			
 
				+        -- 拉回曝光量级分布
			
 
				+        ,COUNT(DISTINCT IF(当日分发拉回曝光pv >= 500, 视频id, NULL)) AS t0_500拉回曝光视频量
			
 
				+        ,COUNT(DISTINCT IF(0_1日分发拉回曝光pv >= 500, 视频id, NULL)) AS t1_500拉回曝光视频量
			
 
				+        ,COUNT(DISTINCT IF(当日分发拉回曝光pv >= 10000, 视频id, NULL)) AS t0_1w拉回曝光视频量
			
 
				+        ,COUNT(DISTINCT IF(0_1日分发拉回曝光pv >= 10000, 视频id, NULL)) AS t1_1w拉回曝光视频量
			
 
				+        ,COUNT(DISTINCT IF(当日分发拉回曝光pv >= 100000, 视频id, NULL)) AS t0_10w拉回曝光视频量
			
 
				+        ,COUNT(DISTINCT IF(0_1日分发拉回曝光pv >= 100000, 视频id, NULL)) AS t1_10w拉回曝光视频量
			
 
				+        ,COUNT(DISTINCT IF(当日分发拉回曝光pv >= 1000000, 视频id, NULL)) AS t0_100w拉回曝光视频量
			
 
				+        ,COUNT(DISTINCT IF(0_1日分发拉回曝光pv >= 1000000, 视频id, NULL)) AS t1_100w拉回曝光视频量
			
 
				+        -- 流量池指标
			
 
				+        ,(SUM(带来流量池1007回流的分享数) + SUM(带来流量池1008回流的分享数)) / SUM(带来流量池回流的分享数) AS 流量池有效分享率
			
 
				+        ,SUM(流量池1008回流人数) / SUM(流量池回流人数) AS 流量池群聊占比
			
 
				+FROM    loghubods.video_dimension_detail_add_column
			
 
				+WHERE   dt >= '${start}'
			
 
				+AND     dt <= '${end}'
			
 
				+AND     推荐状态 = '推荐'
			
 
				+GROUP BY 0
			
 
				+         ,merge二级品类
			
 
				+         ,视频id
			
 
				+         ,标题
			
 
				+         ,类型
			
 
				+         ,上传渠道
			
 
				+         ,推荐状态
			
 
				+         ,首次推荐时间
			
 
				+         ,视频关键词
			
 
				+         ,视频口播
			
 
				+ORDER BY 0 DESC
			
 
				+         ,分发曝光pv DESC
			
 
				+LIMIT   50000
			
 
				+;
			
--- a/tasks/视频维度详情分析/README.md
+++ b/tasks/视频维度详情分析/README.md
@@ -0,0 +1,79 @@
 
				+# 视频维度详情分析
			
 
				+
			
 
				+## 数据源
			
 
				+- 表名：`loghubods.video_dimension_detail_add_column`
			
 
				+- 分区：按 `dt` 日期分区
			
 
				+- 粒度：视频 × 日期
			
 
				+
			
 
				+## 业务背景
			
 
				+这是视频全生命周期的核心宽表，记录了视频从创建、审核、入池、分发到回流的完整链路数据。
			
 
				+
			
 
				+## 核心业务指标
			
 
				+
			
 
				+### 效率指标
			
 
				+| 指标 | 含义 | 计算逻辑 |
			
 
				+|------|------|----------|
			
 
				+| vov | 曝光价值 | 拉回曝光 / 曝光 |
			
 
				+| rov | 回流价值 | 回流uv / 曝光 |
			
 
				+| vor | 曝光回流比 | 拉回曝光 / 回流uv |
			
 
				+| str | 分享率 | 分享pv / 曝光 |
			
 
				+| ros | 分享回流率 | 回流uv / 分享pv |
			
 
				+
			
 
				+### 时间窗口
			
 
				+- `t0`：当日
			
 
				+- `t0_1`：累计 0~1 日
			
 
				+- `t0_2`：累计 0~2 日
			
 
				+- `t0_3`：累计 0~3 日
			
 
				+- 另有 1日/2日/3日/7日/14日/30日 单独统计
			
 
				+
			
 
				+### 流量来源
			
 
				+- **流量池**：策略/rov/vov/低曝光高ros/手动入池
			
 
				+- **推荐**：进入推荐后的分发效果
			
 
				+- **当日推荐**：当日新推荐视频的效果
			
 
				+
			
 
				+## 字段分类
			
 
				+
			
 
				+### 1. 视频基础信息
			
 
				+视频id、标题、视频地址、视频时长、grafana链接
			
 
				+
			
 
				+### 2. 发布者信息
			
 
				+站内uid、发布者昵称、owner、姓名、性别、出生年份
			
 
				+
			
 
				+### 3. 品类标签
			
 
				+- 原始品类：一级品类、二级品类
			
 
				+- 映射品类：映射一级品类、merge一级品类、merge二级品类
			
 
				+- AI标签：ai标签top1/2/3、ai标签集合
			
 
				+- 热点品类
			
 
				+
			
 
				+### 4. 审核信息
			
 
				+- 机审：首次机审审核状态、不通过原因、推荐状态
			
 
				+- 人审：首次人审审核状态、不通过原因、推荐状态
			
 
				+- 审核人、审核时间
			
 
				+
			
 
				+### 5. 流量池信息
			
 
				+- 入池次数：7日策略/rov/vov/低曝光高ros/手动入池次数
			
 
				+- 入池人、入池策略、入池层数
			
 
				+- 入池距今天数
			
 
				+
			
 
				+### 6. 首发信息
			
 
				+首发videoid、首发uid、首发时间、首发来源、首发渠道、是否首发视频
			
 
				+
			
 
				+### 7. AI 内容分析
			
 
				+视频主题、视频关键词、视频场景、情感倾向、视频风格、传播性判断
			
 
				+
			
 
				+### 8. 受众画像
			
 
				+推测观众地域、年龄段、性别、价值类型、收入
			
 
				+
			
 
				+### 9. 视觉元素
			
 
				+分辨率、字幕、封面主体、背景音类型、是否有片尾引导
			
 
				+
			
 
				+### 10. 热点信息
			
 
				+是否存在热点、热点特征、热点内容概括
			
 
				+
			
 
				+## 常见分析场景
			
 
				+1. 品类效果分析：不同品类的 vov/rov/ros 表现
			
 
				+2. 入池策略分析：各入池策略的效果对比
			
 
				+3. 审核效率分析：机审 vs 人审的推荐率
			
 
				+4. 首发渠道分析：不同首发渠道的后续表现
			
 
				+5. AI标签效果：AI标签与实际效果的关联
			
 
				+6. 热点内容分析：热点视频的特征和效果
			
--- a/tasks/视频维度详情分析/analyze.py
+++ b/tasks/视频维度详情分析/analyze.py
@@ -0,0 +1,215 @@
 
				+#!/usr/bin/env python
			
 
				+# coding=utf-8
			
 
				+"""
			
 
				+视频维度详情分析
			
 
				+"""
			
 
				+import pandas as pd
			
 
				+import numpy as np
			
 
				+from pathlib import Path
			
 
				+
			
 
				+# 找到最新的输出文件
			
 
				+task_dir = Path(__file__).parent
			
 
				+output_dir = task_dir / "output"
			
 
				+csv_files = list(output_dir.glob("*.csv"))
			
 
				+if not csv_files:
			
 
				+    print("没有找到数据文件，请先运行 query.sql")
			
 
				+    exit(1)
			
 
				+
			
 
				+latest_file = max(csv_files, key=lambda x: x.stat().st_mtime)
			
 
				+df = pd.read_csv(latest_file)
			
 
				+
			
 
				+# 输出结果收集
			
 
				+lines = []
			
 
				+
			
 
				+
			
 
				+def log(text=""):
			
 
				+    print(text)
			
 
				+    lines.append(text)
			
 
				+
			
 
				+
			
 
				+log(f"分析文件: {latest_file.name}")
			
 
				+log(f"时间范围: {df['dt'].min()} ~ {df['dt'].max()}")
			
 
				+log()
			
 
				+
			
 
				+# ============================================================
			
 
				+# 基本信息
			
 
				+# ============================================================
			
 
				+log("=" * 70)
			
 
				+log("基本信息")
			
 
				+log("=" * 70)
			
 
				+log(f"记录数: {len(df):,}")
			
 
				+log(f"视频数: {df['视频id'].nunique():,}")
			
 
				+log(f"日期数: {df['dt'].nunique()}")
			
 
				+log(f"总曝光pv: {df['曝光pv'].sum():,}")
			
 
				+log(f"总回流uv: {df['回流uv'].sum():,}")
			
 
				+log(f"整体回流率: {df['回流uv'].sum() / (df['曝光pv'].sum() + 1):.4%}")
			
 
				+log()
			
 
				+
			
 
				+# ============================================================
			
 
				+# 品类分布
			
 
				+# ============================================================
			
 
				+log("=" * 70)
			
 
				+log("一级品类分布（Top 15）")
			
 
				+log("=" * 70)
			
 
				+cat_stats = df.groupby('一级品类').agg({
			
 
				+    '视频id': 'nunique',
			
 
				+    '曝光pv': 'sum',
			
 
				+    '分享pv': 'sum',
			
 
				+    '回流uv': 'sum',
			
 
				+    '拉回曝光pv': 'sum'
			
 
				+}).rename(columns={'视频id': '视频数'})
			
 
				+cat_stats['回流率'] = cat_stats['回流uv'] / (cat_stats['曝光pv'] + 1)
			
 
				+cat_stats['vov'] = cat_stats['拉回曝光pv'] / (cat_stats['曝光pv'] + 1)
			
 
				+cat_stats = cat_stats.sort_values('曝光pv', ascending=False).head(15)
			
 
				+
			
 
				+log(f"{'品类':<20} {'视频数':>8} {'曝光pv':>12} {'回流率':>10} {'vov':>10}")
			
 
				+log("-" * 70)
			
 
				+for cat, row in cat_stats.iterrows():
			
 
				+    cat_name = str(cat)[:18] if pd.notna(cat) else '(空)'
			
 
				+    log(f"{cat_name:<20} {int(row['视频数']):>8,} {int(row['曝光pv']):>12,} {row['回流率']:>10.3%} {row['vov']:>10.3f}")
			
 
				+log()
			
 
				+
			
 
				+# ============================================================
			
 
				+# 入池策略效果
			
 
				+# ============================================================
			
 
				+log("=" * 70)
			
 
				+log("入池策略效果分析")
			
 
				+log("=" * 70)
			
 
				+strategy_stats = df.groupby('入池策略').agg({
			
 
				+    '视频id': 'nunique',
			
 
				+    '曝光pv': 'sum',
			
 
				+    '回流uv': 'sum',
			
 
				+    '拉回曝光pv': 'sum'
			
 
				+}).rename(columns={'视频id': '视频数'})
			
 
				+strategy_stats['回流率'] = strategy_stats['回流uv'] / (strategy_stats['曝光pv'] + 1)
			
 
				+strategy_stats['vov'] = strategy_stats['拉回曝光pv'] / (strategy_stats['曝光pv'] + 1)
			
 
				+strategy_stats = strategy_stats.sort_values('曝光pv', ascending=False)
			
 
				+
			
 
				+log(f"{'入池策略':<25} {'视频数':>8} {'曝光pv':>12} {'回流率':>10} {'vov':>10}")
			
 
				+log("-" * 70)
			
 
				+for strat, row in strategy_stats.iterrows():
			
 
				+    strat_name = str(strat)[:23] if pd.notna(strat) else '(空)'
			
 
				+    log(f"{strat_name:<25} {int(row['视频数']):>8,} {int(row['曝光pv']):>12,} {row['回流率']:>10.3%} {row['vov']:>10.3f}")
			
 
				+log()
			
 
				+
			
 
				+# ============================================================
			
 
				+# 首发渠道效果
			
 
				+# ============================================================
			
 
				+log("=" * 70)
			
 
				+log("首发渠道效果分析")
			
 
				+log("=" * 70)
			
 
				+channel_stats = df.groupby('首发渠道').agg({
			
 
				+    '视频id': 'nunique',
			
 
				+    '曝光pv': 'sum',
			
 
				+    '回流uv': 'sum',
			
 
				+    '拉回曝光pv': 'sum'
			
 
				+}).rename(columns={'视频id': '视频数'})
			
 
				+channel_stats['回流率'] = channel_stats['回流uv'] / (channel_stats['曝光pv'] + 1)
			
 
				+channel_stats['vov'] = channel_stats['拉回曝光pv'] / (channel_stats['曝光pv'] + 1)
			
 
				+channel_stats = channel_stats.sort_values('曝光pv', ascending=False).head(10)
			
 
				+
			
 
				+log(f"{'首发渠道':<20} {'视频数':>8} {'曝光pv':>12} {'回流率':>10} {'vov':>10}")
			
 
				+log("-" * 70)
			
 
				+for ch, row in channel_stats.iterrows():
			
 
				+    ch_name = str(ch)[:18] if pd.notna(ch) else '(空)'
			
 
				+    log(f"{ch_name:<20} {int(row['视频数']):>8,} {int(row['曝光pv']):>12,} {row['回流率']:>10.3%} {row['vov']:>10.3f}")
			
 
				+log()
			
 
				+
			
 
				+# ============================================================
			
 
				+# 热点内容分析
			
 
				+# ============================================================
			
 
				+log("=" * 70)
			
 
				+log("热点内容分析")
			
 
				+log("=" * 70)
			
 
				+hotspot_stats = df.groupby('是否存在热点').agg({
			
 
				+    '视频id': 'nunique',
			
 
				+    '曝光pv': 'sum',
			
 
				+    '回流uv': 'sum',
			
 
				+    '拉回曝光pv': 'sum'
			
 
				+}).rename(columns={'视频id': '视频数'})
			
 
				+hotspot_stats['回流率'] = hotspot_stats['回流uv'] / (hotspot_stats['曝光pv'] + 1)
			
 
				+hotspot_stats['vov'] = hotspot_stats['拉回曝光pv'] / (hotspot_stats['曝光pv'] + 1)
			
 
				+
			
 
				+log(f"{'是否热点':<15} {'视频数':>8} {'曝光pv':>12} {'回流率':>10} {'vov':>10}")
			
 
				+log("-" * 70)
			
 
				+for hot, row in hotspot_stats.iterrows():
			
 
				+    hot_name = str(hot)[:13] if pd.notna(hot) else '(空)'
			
 
				+    log(f"{hot_name:<15} {int(row['视频数']):>8,} {int(row['曝光pv']):>12,} {row['回流率']:>10.3%} {row['vov']:>10.3f}")
			
 
				+log()
			
 
				+
			
 
				+# ============================================================
			
 
				+# AI 传播性判断效果
			
 
				+# ============================================================
			
 
				+log("=" * 70)
			
 
				+log("AI 传播性判断 vs 实际效果")
			
 
				+log("=" * 70)
			
 
				+spread_stats = df.groupby('传播性判断').agg({
			
 
				+    '视频id': 'nunique',
			
 
				+    '曝光pv': 'sum',
			
 
				+    '回流uv': 'sum',
			
 
				+    '拉回曝光pv': 'sum'
			
 
				+}).rename(columns={'视频id': '视频数'})
			
 
				+spread_stats['回流率'] = spread_stats['回流uv'] / (spread_stats['曝光pv'] + 1)
			
 
				+spread_stats['vov'] = spread_stats['拉回曝光pv'] / (spread_stats['曝光pv'] + 1)
			
 
				+spread_stats = spread_stats.sort_values('曝光pv', ascending=False)
			
 
				+
			
 
				+log(f"{'传播性判断':<20} {'视频数':>8} {'曝光pv':>12} {'回流率':>10} {'vov':>10}")
			
 
				+log("-" * 70)
			
 
				+for spread, row in spread_stats.iterrows():
			
 
				+    spread_name = str(spread)[:18] if pd.notna(spread) else '(空)'
			
 
				+    log(f"{spread_name:<20} {int(row['视频数']):>8,} {int(row['曝光pv']):>12,} {row['回流率']:>10.3%} {row['vov']:>10.3f}")
			
 
				+log()
			
 
				+
			
 
				+# ============================================================
			
 
				+# 受众年龄段分析
			
 
				+# ============================================================
			
 
				+log("=" * 70)
			
 
				+log("受众年龄段分析")
			
 
				+log("=" * 70)
			
 
				+age_stats = df.groupby('推测观众年龄段').agg({
			
 
				+    '视频id': 'nunique',
			
 
				+    '曝光pv': 'sum',
			
 
				+    '回流uv': 'sum'
			
 
				+}).rename(columns={'视频id': '视频数'})
			
 
				+age_stats['回流率'] = age_stats['回流uv'] / (age_stats['曝光pv'] + 1)
			
 
				+age_stats = age_stats.sort_values('曝光pv', ascending=False)
			
 
				+
			
 
				+log(f"{'年龄段':<20} {'视频数':>8} {'曝光pv':>12} {'回流率':>10}")
			
 
				+log("-" * 60)
			
 
				+for age, row in age_stats.iterrows():
			
 
				+    age_name = str(age)[:18] if pd.notna(age) else '(空)'
			
 
				+    log(f"{age_name:<20} {int(row['视频数']):>8,} {int(row['曝光pv']):>12,} {row['回流率']:>10.3%}")
			
 
				+log()
			
 
				+
			
 
				+# ============================================================
			
 
				+# Top 视频
			
 
				+# ============================================================
			
 
				+log("=" * 70)
			
 
				+log("Top 20 视频（按曝光pv）")
			
 
				+log("=" * 70)
			
 
				+top_videos = df.nlargest(20, '曝光pv')
			
 
				+for _, row in top_videos.iterrows():
			
 
				+    title = str(row['标题'])[:40] if pd.notna(row['标题']) else '(无标题)'
			
 
				+    log(f"  {title}")
			
 
				+    log(f"    品类={row['一级品类']}, 曝光={int(row['曝光pv']):,}, 回流={int(row['回流uv'])}, rov={row['rov_t0']:.4f}")
			
 
				+log()
			
 
				+
			
 
				+# ============================================================
			
 
				+# Top 回流视频
			
 
				+# ============================================================
			
 
				+log("=" * 70)
			
 
				+log("Top 20 视频（按回流uv）")
			
 
				+log("=" * 70)
			
 
				+top_return = df.nlargest(20, '回流uv')
			
 
				+for _, row in top_return.iterrows():
			
 
				+    title = str(row['标题'])[:40] if pd.notna(row['标题']) else '(无标题)'
			
 
				+    log(f"  {title}")
			
 
				+    log(f"    品类={row['一级品类']}, 曝光={int(row['曝光pv']):,}, 回流={int(row['回流uv'])}, ros={row['ros_t0']:.2%}")
			
 
				+log()
			
 
				+
			
 
				+# 保存分析结果
			
 
				+result_file = output_dir / f"{latest_file.stem}_分析.txt"
			
 
				+with open(result_file, 'w', encoding='utf-8') as f:
			
 
				+    f.write("\n".join(lines))
			
 
				+
			
 
				+log(f"分析结果已保存到: {result_file}")
			
--- a/tasks/视频维度详情分析/query.sql
+++ b/tasks/视频维度详情分析/query.sql
@@ -0,0 +1,62 @@
 
				+-- 视频维度详情分析
			
 
				+-- 从 video_dimension_detail_add_column 表提取核心数据
			
 
				+
			
 
				+SELECT  dt
			
 
				+        ,视频id
			
 
				+        ,标题
			
 
				+        ,视频时长
			
 
				+        -- 品类
			
 
				+        ,merge一级品类 AS 一级品类
			
 
				+        ,merge二级品类 AS 二级品类
			
 
				+        ,热点品类
			
 
				+        -- 状态
			
 
				+        ,推荐状态
			
 
				+        ,是否当日新推荐
			
 
				+        ,历史入流量池次数
			
 
				+        -- 入池信息
			
 
				+        ,入池策略
			
 
				+        ,入池人
			
 
				+        ,策略入池层数
			
 
				+        ,人工入池层数
			
 
				+        -- 首发信息
			
 
				+        ,首发来源
			
 
				+        ,首发渠道
			
 
				+        ,是否首发视频
			
 
				+        -- 当日效果
			
 
				+        ,当日分发曝光pv AS 曝光pv
			
 
				+        ,当日分发分享pv AS 分享pv
			
 
				+        ,当日分发回流uv AS 回流uv
			
 
				+        ,当日分发拉回曝光pv AS 拉回曝光pv
			
 
				+        -- 效率指标
			
 
				+        ,vov_t0
			
 
				+        ,rov_t0
			
 
				+        ,str_t0
			
 
				+        ,ros_t0
			
 
				+        -- 流量池效果
			
 
				+        ,流量池曝光
			
 
				+        ,流量池分享
			
 
				+        ,流量池回流
			
 
				+        ,流量池rov
			
 
				+        ,流量池ros
			
 
				+        -- 累计效果
			
 
				+        ,0_7日分发回流uv AS 七日累计回流uv
			
 
				+        ,0_7日分发拉回曝光pv AS 七日累计拉回曝光pv
			
 
				+        -- AI分析
			
 
				+        ,ai标签top1
			
 
				+        ,视频主题
			
 
				+        ,传播性判断
			
 
				+        -- 受众
			
 
				+        ,推测观众年龄段
			
 
				+        ,推测观众性别
			
 
				+        -- 热点
			
 
				+        ,是否存在热点
			
 
				+        -- 排名
			
 
				+        ,曝光rank
			
 
				+        ,回流rank
			
 
				+FROM    loghubods.video_dimension_detail_add_column
			
 
				+WHERE   dt >= '${start}'
			
 
				+AND     dt <= '${end}'
			
 
				+AND     当日分发曝光pv > 0
			
 
				+ORDER BY 当日分发曝光pv DESC
			
 
				+LIMIT   10000
			
 
				+;