فهرست منبع

修改正则提取url

zhangliang 3 هفته پیش
والد
کامیت
35f8a6a7fd
1فایلهای تغییر یافته به همراه6 افزوده شده و 3 حذف شده
  1. 6 3
      utils/dy_ks_get_url.py

+ 6 - 3
utils/dy_ks_get_url.py

@@ -124,10 +124,13 @@ class Dy_KS:
                 host = urlparse(url).netloc
                 logger.info(f"[+] host=={host}")
             else:
-                msg = html.unescape(url).split('?')[0]
-                pattern = re.search(r'https?://[^\s<>"\'\u4e00-\u9fff]+', msg)
+                # msg = html.unescape(url).split('?')[0]
+                # pattern = re.search(r'https?://[^\s<>"\'\u4e00-\u9fff]+', msg)
+                msg = html.unescape(url)
+                pattern = re.search(r'https?://(?:[-\w.]|(?:%[\da-fA-F]{2}))+(/[-\w._~:/#[\]@!$&()*+,;=]*)', msg)
                 logger.info(f"[+] pattern == {pattern}")
-                if not pattern:
+                if pattern is None:
+                    logger.error(f"[+] {url} 提取 url失败")
                     return "重新处理",None,None,None
                 url = pattern.group()
                 host = urlparse(url).netloc