1 settimana fa · a50627e226
--- a/app/hot_content/repository.py
+++ b/app/hot_content/repository.py
@@ -1145,25 +1145,25 @@ class HotContentRepository:
 
				                 )
			
 
				         return stale_words
			
 
				 
			
 
				-    def list_low_avg_wxindex_words(
			
 
				+    def list_low_max_wxindex_words(
			
 
				         self,
			
 
				         *,
			
 
				-        min_avg_score: float,
			
 
				+        min_max_score: float,
			
 
				     ) -> list[dict[str, Any]]:
			
 
				-        """按 name 聚合，返回平均分低于阈值的词。"""
			
 
				+        """按 name 聚合，返回最大值低于阈值的词。"""
			
 
				         self._ensure_wxindex_words_table()
			
 
				         sql = """
			
 
				             SELECT
			
 
				                 name,
			
 
				-                AVG(total_score) AS avg_score,
			
 
				+                MAX(total_score) AS max_score,
			
 
				                 COUNT(*) AS row_count
			
 
				             FROM hot_content_wxindex_words
			
 
				             GROUP BY name
			
 
				-            HAVING AVG(total_score) < %s
			
 
				+            HAVING MAX(total_score) < %s
			
 
				             ORDER BY name ASC
			
 
				         """
			
 
				         with self.conn.cursor() as cursor:
			
 
				-            cursor.execute(sql, (min_avg_score,))
			
 
				+            cursor.execute(sql, (min_max_score,))
			
 
				             rows = cursor.fetchall()
			
 
				 
			
 
				         low_words: list[dict[str, Any]] = []
			
@@ -1172,14 +1172,14 @@ class HotContentRepository:
 
				             if not name:
			
 
				                 continue
			
 
				             try:
			
 
				-                avg_score = float(row["avg_score"])
			
 
				+                max_score = float(row["max_score"])
			
 
				                 row_count = int(row["row_count"])
			
 
				             except (TypeError, ValueError, KeyError):
			
 
				                 continue
			
 
				             low_words.append(
			
 
				                 {
			
 
				                     "name": name,
			
 
				-                    "avg_score": avg_score,
			
 
				+                    "max_score": max_score,
			
 
				                     "row_count": row_count,
			
 
				                 }
			
 
				             )
			
--- a/app/hot_content/wxindex_words.py
+++ b/app/hot_content/wxindex_words.py
@@ -12,7 +12,7 @@ from app.hot_content.timezone import SHANGHAI_TZ
 
				 
			
 
				 WXINDEX_WORDS_START_YMD = "20260601"
			
 
				 WXINDEX_WORDS_RECORD_SINCE = date(2026, 6, 11)
			
 
				-WXINDEX_WORDS_MIN_AVG_SCORE = 100_000.0
			
 
				+WXINDEX_WORDS_MIN_MAX_SCORE = 100_000.0
			
 
				 
			
 
				 
			
 
				 def get_wxindex_end_ymd(*, today: date | None = None) -> str:
			
@@ -86,6 +86,33 @@ def fetch_wxindex_scores(
 
				     return parse_wxindex_total_scores(wx_resp)
			
 
				 
			
 
				 
			
 
				+def get_max_total_score(scores: list[dict[str, Any]]) -> float | None:
			
 
				+    """从指数序列中取 total_score 最大值。"""
			
 
				+    values: list[float] = []
			
 
				+    for item in scores:
			
 
				+        if not isinstance(item, dict):
			
 
				+            continue
			
 
				+        try:
			
 
				+            values.append(float(item["total_score"]))
			
 
				+        except (TypeError, ValueError, KeyError):
			
 
				+            continue
			
 
				+    if not values:
			
 
				+        return None
			
 
				+    return max(values)
			
 
				+
			
 
				+
			
 
				+def word_meets_max_score_threshold(
			
 
				+    scores: list[dict[str, Any]],
			
 
				+    *,
			
 
				+    min_max_score: float = WXINDEX_WORDS_MIN_MAX_SCORE,
			
 
				+) -> bool:
			
 
				+    """新增词时：最大值需严格大于阈值（不超过阈值则不添加）。"""
			
 
				+    max_score = get_max_total_score(scores)
			
 
				+    if max_score is None:
			
 
				+        return False
			
 
				+    return max_score > min_max_score
			
 
				+
			
 
				+
			
 
				 def get_word_score_bounds(
			
 
				     scores: list[dict[str, Any]],
			
 
				 ) -> tuple[str | None, str | None]:
			
@@ -275,21 +302,21 @@ def refresh_stale_wxindex_words(
 
				     return summary
			
 
				 
			
 
				 
			
 
				-def cleanup_low_avg_wxindex_words(
			
 
				+def cleanup_low_max_wxindex_words(
			
 
				     repository: HotContentRepository,
			
 
				     *,
			
 
				-    min_avg_score: float = WXINDEX_WORDS_MIN_AVG_SCORE,
			
 
				+    min_max_score: float = WXINDEX_WORDS_MIN_MAX_SCORE,
			
 
				     dry_run: bool = False,
			
 
				     verbose: bool = False,
			
 
				 ) -> dict[str, int | float]:
			
 
				-    """删除各 dt 平均分低于阈值的词（按 name 整词删除）。"""
			
 
				+    """删除各 dt 最大值低于阈值的词（按 name 整词删除）。"""
			
 
				     summary: dict[str, int | float] = {
			
 
				-        "min_avg_score": min_avg_score,
			
 
				-        "low_avg_words": 0,
			
 
				+        "min_max_score": min_max_score,
			
 
				+        "low_max_words": 0,
			
 
				         "deleted_rows": 0,
			
 
				     }
			
 
				-    low_words = repository.list_low_avg_wxindex_words(min_avg_score=min_avg_score)
			
 
				-    summary["low_avg_words"] = len(low_words)
			
 
				+    low_words = repository.list_low_max_wxindex_words(min_max_score=min_max_score)
			
 
				+    summary["low_max_words"] = len(low_words)
			
 
				     if not low_words:
			
 
				         return summary
			
 
				 
			
@@ -298,7 +325,7 @@ def cleanup_low_avg_wxindex_words(
 
				             for item in low_words:
			
 
				                 print(
			
 
				                     f"[dry-run] would delete word={item['name']} "
			
 
				-                    f"avg_score={item['avg_score']:.0f} rows={item['row_count']}"
			
 
				+                    f"max_score={item['max_score']:.0f} rows={item['row_count']}"
			
 
				                 )
			
 
				         summary["deleted_rows"] = sum(int(item["row_count"]) for item in low_words)
			
 
				         return summary
			
@@ -310,7 +337,7 @@ def cleanup_low_avg_wxindex_words(
 
				         for item in low_words:
			
 
				             print(
			
 
				                 f"deleted word={item['name']} "
			
 
				-                f"avg_score={item['avg_score']:.0f} rows={item['row_count']}"
			
 
				+                f"max_score={item['max_score']:.0f} rows={item['row_count']}"
			
 
				             )
			
 
				     return summary
			
 
				 
			
@@ -321,11 +348,11 @@ def run_wxindex_words_daily_job(
 
				     api_url: str,
			
 
				     *,
			
 
				     end_ymd: str | None = None,
			
 
				-    min_avg_score: float = WXINDEX_WORDS_MIN_AVG_SCORE,
			
 
				+    min_max_score: float = WXINDEX_WORDS_MIN_MAX_SCORE,
			
 
				     dry_run: bool = False,
			
 
				     verbose: bool = False,
			
 
				 ) -> dict[str, Any]:
			
 
				-    """定时任务：先补全缺失日期，再清理低均值词。"""
			
 
				+    """定时任务：先补全缺失日期，再清理低最大值词。"""
			
 
				     refresh_summary = refresh_stale_wxindex_words(
			
 
				         repository,
			
 
				         api_client,
			
@@ -334,9 +361,9 @@ def run_wxindex_words_daily_job(
 
				         dry_run=dry_run,
			
 
				         verbose=verbose,
			
 
				     )
			
 
				-    cleanup_summary = cleanup_low_avg_wxindex_words(
			
 
				+    cleanup_summary = cleanup_low_max_wxindex_words(
			
 
				         repository,
			
 
				-        min_avg_score=min_avg_score,
			
 
				+        min_max_score=min_max_score,
			
 
				         dry_run=dry_run,
			
 
				         verbose=verbose,
			
 
				     )
			
@@ -389,6 +416,12 @@ def ensure_word_full_scores(
 
				     if not api_scores:
			
 
				         return stored_scores, "api_empty"
			
 
				 
			
 
				+    if not had_data and not word_meets_max_score_threshold(
			
 
				+        api_scores,
			
 
				+        min_max_score=WXINDEX_WORDS_MIN_MAX_SCORE,
			
 
				+    ):
			
 
				+        return [], "below_threshold"
			
 
				+
			
 
				     inserted, _skipped = repository.save_wxindex_daily_scores(
			
 
				         name=word,
			
 
				         scores=api_scores,
			
@@ -420,6 +453,7 @@ def sync_words_from_trend_json(
 
				         "updated": 0,
			
 
				         "cached": 0,
			
 
				         "api_empty": 0,
			
 
				+        "below_threshold": 0,
			
 
				         "fetch_failed": 0,
			
 
				     }
			
 
				     words = extract_searched_words(trend_json)
			
@@ -450,6 +484,8 @@ def sync_words_from_trend_json(
 
				             summary["cached"] += 1
			
 
				         elif action == "api_empty":
			
 
				             summary["api_empty"] += 1
			
 
				+        elif action == "below_threshold":
			
 
				+            summary["below_threshold"] += 1
			
 
				         elif action == "dry_run":
			
 
				             summary["inserted"] += 1
			
 
				 
			
@@ -477,6 +513,7 @@ def backfill_wxindex_words(
 
				         "updated": 0,
			
 
				         "cached": 0,
			
 
				         "api_empty": 0,
			
 
				+        "below_threshold": 0,
			
 
				         "fetch_failed": 0,
			
 
				         "invalid_json": 0,
			
 
				     }
			
@@ -513,7 +550,15 @@ def backfill_wxindex_words(
 
				             dry_run=dry_run,
			
 
				             verbose=verbose,
			
 
				         )
			
 
				-        for key in ("words_found", "inserted", "updated", "cached", "api_empty", "fetch_failed"):
			
 
				+        for key in (
			
 
				+            "words_found",
			
 
				+            "inserted",
			
 
				+            "updated",
			
 
				+            "cached",
			
 
				+            "api_empty",
			
 
				+            "below_threshold",
			
 
				+            "fetch_failed",
			
 
				+        ):
			
 
				             summary[key] += result[key]
			
 
				 
			
 
				     return summary