Server
/
piaoquan_crawler


			
							12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667686970717273747576777879808182838485868788899091929394959697989910010110210310410510610710810911011111211311411511611711811912012112212312412512612712812913013113213313413513613713813914014114214314414514614714814915015115215315415515615715815916016116216316416516616716816917017117217317417517617717817918018118218318418518618718818919019119219319419519619719819920020120220320420520620720820921021121221321421521621721821922022122222322422522622722822923023123223323423523623723823924024124224324424524624724824925025125225325425525625725825926026126226326426526626726826927027127227327427527627727827928028128228328428528628728828929029129229329429529629729829930030130230330430530630730830931031131231331431531631731831932032132232332432532632732832933033133233333433533633733833934034134234334434534634734834935035135235335435535635735835936036136236336436536636736836937037137237337437537637737837938038138238338438538638738838939039139239339439539639739839940040140240340440540640740840941041141241341441541641741841942042142242342442542642742842943043143243343443543643743843944044144244344444544644744844945045145245345445545645745845946046146246346446546646746846947047147247347447547647747847948048148248348448548648748848949049149249349449549649749849950050150250350450550650750850951051151251351451551651751851952052152252352452552652752852953053153253353453553653753853954054154254354454554654754854955055155255355455555655755855956056156256356456556656756856957057157257357457557657757857958058158258358458558658758858959059159259359459559659759859960060160260360460560660760860961061161261361461561661761861962062162262362462562662762862963063163263363463563663763863964064164264364464564664764864965065165265365465565665765865966066166266366466566666766866967067167267367467567667767867968068168268368468568668768868969069169269369469569669769869970070170270370470570670770870971071171271371471571671771871972072172272372472572672772872973073173273373473573673773873974074174274374474574674774874975075175275375475575675775875976076176276376476576676776876977077177277377477577677777877978078178278378478578678778878979079179279379479579679779879980080180280380480580680780880981081181281381481581681781881982082182282382482582682782882983083183283383483583683783883984084184284384484584684784884985085185285385485585685785885986086186286386486586686786886987087187287387487587687787887988088188288388488588688788888989089189289389489589689789889990090190290390490590690790890991091191291391491591691791891992092192292392492592692792892993093193293393493593693793893994094194294394494594694794894995095195295395495595695795895996096196296396496596696796896997097197297397497597697797897998098198298398498598698798898999099199299399499599699799899910001001100210031004100510061007100810091010101110121013101410151016101710181019102010211022102310241025102610271028102910301031103210331034103510361037103810391040104110421043104410451046104710481049105010511052105310541055105610571058105910601061106210631064106510661067106810691070107110721073107410751076107710781079108010811082108310841085108610871088108910901091109210931094109510961097109810991100110111021103110411051106110711081109111011111112111311141115111611171118111911201121112211231124112511261127112811291130113111321133113411351136113711381139114011411142114311441145114611471148114911501151
							import json
import os
import re
import random
import sys
import string
import time
import uuid
import base64
import requests
from fake_useragent import FakeUserAgent

from common.mq import MQ

sys.path.append(os.getcwd())

from common import AliyunLogger, PiaoQuanPipeline, tunnel_proxies
from common.limit import AuthorLimit


def extract_info_by_re(text):
    """
    通过正则表达式获取文本中的信息
    :param text:
    :return:
    """
    # 标题
    title_match = re.search(r'<title[^>]*>(.*?)</title>', text)
    if title_match:
        title_content = title_match.group(1)
        title_content = title_content.split(" - ")[0]
        title_content = bytes(title_content, "latin1").decode()
    else:
        title_content = ""
    # video_url
    main_url = re.search(r'("main_url":")(.*?)"', text)[0]
    main_url = main_url.split(":")[1]
    decoded_data = base64.b64decode(main_url)
    try:
        # 尝试使用utf-8解码
        video_url = decoded_data.decode()
    except UnicodeDecodeError:
        # 如果utf-8解码失败，尝试使用其他编码方式
        video_url = decoded_data.decode('latin-1')

    # video_id
    video_id = re.search(r'"vid":"(.*?)"', text).group(1)

    # like_count
    like_count = re.search(r'"video_like_count":(.*?),', text).group(1)

    # cover_url
    cover_url = re.search(r'"avatar_url":"(.*?)"', text).group(1)

    # video_play
    video_watch_count = re.search(r'"video_watch_count":(.*?),', text).group(1)

    # "video_publish_time"
    publish_time = re.search(r'"video_publish_time":"(.*?)"', text).group(1)

    # video_duration
    duration = re.search(r'("video_duration":)(.*?)"', text).group(2).replace(",", "")
    return {
        "title": title_content,
        "url": video_url,
        "video_id": video_id,
        "like_count": like_count,
        "cover_url": cover_url,
        "play_count": video_watch_count,
        "publish_time": publish_time,
        "duration": duration
    }

def random_signature():
    """
    随机生成签名
    """
    src_digits = string.digits  # string_数字
    src_uppercase = string.ascii_uppercase  # string_大写字母
    src_lowercase = string.ascii_lowercase  # string_小写字母
    digits_num = random.randint(1, 6)
    uppercase_num = random.randint(1, 26 - digits_num - 1)
    lowercase_num = 26 - (digits_num + uppercase_num)
    password = (
            random.sample(src_digits, digits_num)
            + random.sample(src_uppercase, uppercase_num)
            + random.sample(src_lowercase, lowercase_num)
    )
    random.shuffle(password)
    new_password = "AAAAAAAAAA" + "".join(password)[10:-4] + "AAAB"
    new_password_start = new_password[0:18]
    new_password_end = new_password[-7:]
    if new_password[18] == "8":
        new_password = new_password_start + "w" + new_password_end
    elif new_password[18] == "9":
        new_password = new_password_start + "x" + new_password_end
    elif new_password[18] == "-":
        new_password = new_password_start + "y" + new_password_end
    elif new_password[18] == ".":
        new_password = new_password_start + "z" + new_password_end
    else:
        new_password = new_password_start + "y" + new_password_end
    return new_password

def byte_dance_cookie(item_id):
    """
    获取西瓜视频的 cookie
    :param item_id:
    """
    sess = requests.Session()
    sess.headers.update({
        'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_1_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36',
        'referer': 'https://www.ixigua.com/home/{}/'.format(item_id),
    })

    # 获取 cookies
    sess.get('https://i.snssdk.com/slardar/sdk.js?bid=xigua_video_web_pc')
    data = '{"region":"cn","aid":1768,"needFid":false,"service":"www.ixigua.com","migrate_info":{"ticket":"","source":"node"},"cbUrlProtocol":"https","union":true}'
    r = sess.post('https://ttwid.bytedance.com/ttwid/union/register/', data=data)
    # print(r.text)
    return r.cookies.values()[0]

def get_video_url(video_info):
    """
    获取视频的链接
    """
    video_url_dict = {}
    # video_url
    if "videoResource" not in video_info:
        video_url_dict["video_url"] = ""
        video_url_dict["audio_url"] = ""
        video_url_dict["video_width"] = 0
        video_url_dict["video_height"] = 0

    elif "dash_120fps" in video_info["videoResource"]:
        if (
                "video_list" in video_info["videoResource"]["dash_120fps"]
                and "video_4" in video_info["videoResource"]["dash_120fps"]["video_list"]
        ):
            video_url = video_info["videoResource"]["dash_120fps"]["video_list"][
                "video_4"
            ]["backup_url_1"]
            audio_url = video_info["videoResource"]["dash_120fps"]["video_list"][
                "video_4"
            ]["backup_url_1"]
            if len(video_url) % 3 == 1:
                video_url += "=="
            elif len(video_url) % 3 == 2:
                video_url += "="
            elif len(audio_url) % 3 == 1:
                audio_url += "=="
            elif len(audio_url) % 3 == 2:
                audio_url += "="
            video_url = base64.b64decode(video_url).decode("utf8")
            audio_url = base64.b64decode(audio_url).decode("utf8")
            video_width = video_info["videoResource"]["dash_120fps"]["video_list"][
                "video_4"
            ]["vwidth"]
            video_height = video_info["videoResource"]["dash_120fps"]["video_list"][
                "video_4"
            ]["vheight"]
            video_url_dict["video_url"] = video_url
            video_url_dict["audio_url"] = audio_url
            video_url_dict["video_width"] = video_width
            video_url_dict["video_height"] = video_height
        elif (
                "video_list" in video_info["videoResource"]["dash_120fps"]
                and "video_3" in video_info["videoResource"]["dash_120fps"]["video_list"]
        ):
            video_url = video_info["videoResource"]["dash_120fps"]["video_list"][
                "video_3"
            ]["backup_url_1"]
            audio_url = video_info["videoResource"]["dash_120fps"]["video_list"][
                "video_3"
            ]["backup_url_1"]
            if len(video_url) % 3 == 1:
                video_url += "=="
            elif len(video_url) % 3 == 2:
                video_url += "="
            elif len(audio_url) % 3 == 1:
                audio_url += "=="
            elif len(audio_url) % 3 == 2:
                audio_url += "="
            video_url = base64.b64decode(video_url).decode("utf8")
            audio_url = base64.b64decode(audio_url).decode("utf8")
            video_width = video_info["videoResource"]["dash_120fps"]["video_list"][
                "video_3"
            ]["vwidth"]
            video_height = video_info["videoResource"]["dash_120fps"]["video_list"][
                "video_3"
            ]["vheight"]
            video_url_dict["video_url"] = video_url
            video_url_dict["audio_url"] = audio_url
            video_url_dict["video_width"] = video_width
            video_url_dict["video_height"] = video_height
        elif (
                "video_list" in video_info["videoResource"]["dash_120fps"]
                and "video_2" in video_info["videoResource"]["dash_120fps"]["video_list"]
        ):
            video_url = video_info["videoResource"]["dash_120fps"]["video_list"][
                "video_2"
            ]["backup_url_1"]
            audio_url = video_info["videoResource"]["dash_120fps"]["video_list"][
                "video_2"
            ]["backup_url_1"]
            if len(video_url) % 3 == 1:
                video_url += "=="
            elif len(video_url) % 3 == 2:
                video_url += "="
            elif len(audio_url) % 3 == 1:
                audio_url += "=="
            elif len(audio_url) % 3 == 2:
                audio_url += "="
            video_url = base64.b64decode(video_url).decode("utf8")
            audio_url = base64.b64decode(audio_url).decode("utf8")
            video_width = video_info["videoResource"]["dash_120fps"]["video_list"][
                "video_2"
            ]["vwidth"]
            video_height = video_info["videoResource"]["dash_120fps"]["video_list"][
                "video_2"
            ]["vheight"]
            video_url_dict["video_url"] = video_url
            video_url_dict["audio_url"] = audio_url
            video_url_dict["video_width"] = video_width
            video_url_dict["video_height"] = video_height
        elif (
                "video_list" in video_info["videoResource"]["dash_120fps"]
                and "video_1" in video_info["videoResource"]["dash_120fps"]["video_list"]
        ):
            video_url = video_info["videoResource"]["dash_120fps"]["video_list"][
                "video_1"
            ]["backup_url_1"]
            audio_url = video_info["videoResource"]["dash_120fps"]["video_list"][
                "video_1"
            ]["backup_url_1"]
            if len(video_url) % 3 == 1:
                video_url += "=="
            elif len(video_url) % 3 == 2:
                video_url += "="
            elif len(audio_url) % 3 == 1:
                audio_url += "=="
            elif len(audio_url) % 3 == 2:
                audio_url += "="
            video_url = base64.b64decode(video_url).decode("utf8")
            audio_url = base64.b64decode(audio_url).decode("utf8")
            video_width = video_info["videoResource"]["dash_120fps"]["video_list"][
                "video_1"
            ]["vwidth"]
            video_height = video_info["videoResource"]["dash_120fps"]["video_list"][
                "video_1"
            ]["vheight"]
            video_url_dict["video_url"] = video_url
            video_url_dict["audio_url"] = audio_url
            video_url_dict["video_width"] = video_width
            video_url_dict["video_height"] = video_height

        elif (
                "dynamic_video" in video_info["videoResource"]["dash_120fps"]
                and "dynamic_video_list"
                in video_info["videoResource"]["dash_120fps"]["dynamic_video"]
                and "dynamic_audio_list"
                in video_info["videoResource"]["dash_120fps"]["dynamic_video"]
                and len(
            video_info["videoResource"]["dash_120fps"]["dynamic_video"][
                "dynamic_video_list"
            ]
        )
                != 0
                and len(
            video_info["videoResource"]["dash_120fps"]["dynamic_video"][
                "dynamic_audio_list"
            ]
        )
                != 0
        ):
            video_url = video_info["videoResource"]["dash_120fps"]["dynamic_video"][
                "dynamic_video_list"
            ][-1]["backup_url_1"]
            audio_url = video_info["videoResource"]["dash_120fps"]["dynamic_video"][
                "dynamic_audio_list"
            ][-1]["backup_url_1"]
            if len(video_url) % 3 == 1:
                video_url += "=="
            elif len(video_url) % 3 == 2:
                video_url += "="
            elif len(audio_url) % 3 == 1:
                audio_url += "=="
            elif len(audio_url) % 3 == 2:
                audio_url += "="
            video_url = base64.b64decode(video_url).decode("utf8")
            audio_url = base64.b64decode(audio_url).decode("utf8")
            video_width = video_info["videoResource"]["dash_120fps"]["dynamic_video"][
                "dynamic_video_list"
            ][-1]["vwidth"]
            video_height = video_info["videoResource"]["dash_120fps"]["dynamic_video"][
                "dynamic_video_list"
            ][-1]["vheight"]
            video_url_dict["video_url"] = video_url
            video_url_dict["audio_url"] = audio_url
            video_url_dict["video_width"] = video_width
            video_url_dict["video_height"] = video_height
        else:
            video_url_dict["video_url"] = ""
            video_url_dict["audio_url"] = ""
            video_url_dict["video_width"] = 0
            video_url_dict["video_height"] = 0

    elif "dash" in video_info["videoResource"]:
        if (
                "video_list" in video_info["videoResource"]["dash"]
                and "video_4" in video_info["videoResource"]["dash"]["video_list"]
        ):
            video_url = video_info["videoResource"]["dash"]["video_list"]["video_4"][
                "backup_url_1"
            ]
            audio_url = video_info["videoResource"]["dash"]["video_list"]["video_4"][
                "backup_url_1"
            ]
            if len(video_url) % 3 == 1:
                video_url += "=="
            elif len(video_url) % 3 == 2:
                video_url += "="
            elif len(audio_url) % 3 == 1:
                audio_url += "=="
            elif len(audio_url) % 3 == 2:
                audio_url += "="
            video_url = base64.b64decode(video_url).decode("utf8")
            audio_url = base64.b64decode(audio_url).decode("utf8")
            video_width = video_info["videoResource"]["dash"]["video_list"]["video_4"][
                "vwidth"
            ]
            video_height = video_info["videoResource"]["dash"]["video_list"]["video_4"][
                "vheight"
            ]
            video_url_dict["video_url"] = video_url
            video_url_dict["audio_url"] = audio_url
            video_url_dict["video_width"] = video_width
            video_url_dict["video_height"] = video_height
        elif (
                "video_list" in video_info["videoResource"]["dash"]
                and "video_3" in video_info["videoResource"]["dash"]["video_list"]
        ):
            video_url = video_info["videoResource"]["dash"]["video_list"]["video_3"][
                "backup_url_1"
            ]
            audio_url = video_info["videoResource"]["dash"]["video_list"]["video_3"][
                "backup_url_1"
            ]
            if len(video_url) % 3 == 1:
                video_url += "=="
            elif len(video_url) % 3 == 2:
                video_url += "="
            elif len(audio_url) % 3 == 1:
                audio_url += "=="
            elif len(audio_url) % 3 == 2:
                audio_url += "="
            video_url = base64.b64decode(video_url).decode("utf8")
            audio_url = base64.b64decode(audio_url).decode("utf8")
            video_width = video_info["videoResource"]["dash"]["video_list"]["video_3"][
                "vwidth"
            ]
            video_height = video_info["videoResource"]["dash"]["video_list"]["video_3"][
                "vheight"
            ]
            video_url_dict["video_url"] = video_url
            video_url_dict["audio_url"] = audio_url
            video_url_dict["video_width"] = video_width
            video_url_dict["video_height"] = video_height
        elif (
                "video_list" in video_info["videoResource"]["dash"]
                and "video_2" in video_info["videoResource"]["dash"]["video_list"]
        ):
            video_url = video_info["videoResource"]["dash"]["video_list"]["video_2"][
                "backup_url_1"
            ]
            audio_url = video_info["videoResource"]["dash"]["video_list"]["video_2"][
                "backup_url_1"
            ]
            if len(video_url) % 3 == 1:
                video_url += "=="
            elif len(video_url) % 3 == 2:
                video_url += "="
            elif len(audio_url) % 3 == 1:
                audio_url += "=="
            elif len(audio_url) % 3 == 2:
                audio_url += "="
            video_url = base64.b64decode(video_url).decode("utf8")
            audio_url = base64.b64decode(audio_url).decode("utf8")
            video_width = video_info["videoResource"]["dash"]["video_list"]["video_2"][
                "vwidth"
            ]
            video_height = video_info["videoResource"]["dash"]["video_list"]["video_2"][
                "vheight"
            ]
            video_url_dict["video_url"] = video_url
            video_url_dict["audio_url"] = audio_url
            video_url_dict["video_width"] = video_width
            video_url_dict["video_height"] = video_height
        elif (
                "video_list" in video_info["videoResource"]["dash"]
                and "video_1" in video_info["videoResource"]["dash"]["video_list"]
        ):
            video_url = video_info["videoResource"]["dash"]["video_list"]["video_1"][
                "backup_url_1"
            ]
            audio_url = video_info["videoResource"]["dash"]["video_list"]["video_1"][
                "backup_url_1"
            ]
            if len(video_url) % 3 == 1:
                video_url += "=="
            elif len(video_url) % 3 == 2:
                video_url += "="
            elif len(audio_url) % 3 == 1:
                audio_url += "=="
            elif len(audio_url) % 3 == 2:
                audio_url += "="
            video_url = base64.b64decode(video_url).decode("utf8")
            audio_url = base64.b64decode(audio_url).decode("utf8")
            video_width = video_info["videoResource"]["dash"]["video_list"]["video_1"][
                "vwidth"
            ]
            video_height = video_info["videoResource"]["dash"]["video_list"]["video_1"][
                "vheight"
            ]
            video_url_dict["video_url"] = video_url
            video_url_dict["audio_url"] = audio_url
            video_url_dict["video_width"] = video_width
            video_url_dict["video_height"] = video_height

        elif (
                "dynamic_video" in video_info["videoResource"]["dash"]
                and "dynamic_video_list"
                in video_info["videoResource"]["dash"]["dynamic_video"]
                and "dynamic_audio_list"
                in video_info["videoResource"]["dash"]["dynamic_video"]
                and len(
            video_info["videoResource"]["dash"]["dynamic_video"][
                "dynamic_video_list"
            ]
        )
                != 0
                and len(
            video_info["videoResource"]["dash"]["dynamic_video"][
                "dynamic_audio_list"
            ]
        )
                != 0
        ):
            video_url = video_info["videoResource"]["dash"]["dynamic_video"][
                "dynamic_video_list"
            ][-1]["backup_url_1"]
            audio_url = video_info["videoResource"]["dash"]["dynamic_video"][
                "dynamic_audio_list"
            ][-1]["backup_url_1"]
            if len(video_url) % 3 == 1:
                video_url += "=="
            elif len(video_url) % 3 == 2:
                video_url += "="
            elif len(audio_url) % 3 == 1:
                audio_url += "=="
            elif len(audio_url) % 3 == 2:
                audio_url += "="
            video_url = base64.b64decode(video_url).decode("utf8")
            audio_url = base64.b64decode(audio_url).decode("utf8")
            video_width = video_info["videoResource"]["dash"]["dynamic_video"][
                "dynamic_video_list"
            ][-1]["vwidth"]
            video_height = video_info["videoResource"]["dash"]["dynamic_video"][
                "dynamic_video_list"
            ][-1]["vheight"]
            video_url_dict["video_url"] = video_url
            video_url_dict["audio_url"] = audio_url
            video_url_dict["video_width"] = video_width
            video_url_dict["video_height"] = video_height
        else:
            video_url_dict["video_url"] = ""
            video_url_dict["audio_url"] = ""
            video_url_dict["video_width"] = 0
            video_url_dict["video_height"] = 0

    elif "normal" in video_info["videoResource"]:
        if (
                "video_list" in video_info["videoResource"]["normal"]
                and "video_4" in video_info["videoResource"]["normal"]["video_list"]
        ):
            video_url = video_info["videoResource"]["normal"]["video_list"]["video_4"][
                "backup_url_1"
            ]
            audio_url = video_info["videoResource"]["normal"]["video_list"]["video_4"][
                "backup_url_1"
            ]
            if len(video_url) % 3 == 1:
                video_url += "=="
            elif len(video_url) % 3 == 2:
                video_url += "="
            elif len(audio_url) % 3 == 1:
                audio_url += "=="
            elif len(audio_url) % 3 == 2:
                audio_url += "="
            video_url = base64.b64decode(video_url).decode("utf8")
            audio_url = base64.b64decode(audio_url).decode("utf8")
            video_width = video_info["videoResource"]["normal"]["video_list"][
                "video_4"
            ]["vwidth"]
            video_height = video_info["videoResource"]["normal"]["video_list"][
                "video_4"
            ]["vheight"]
            video_url_dict["video_url"] = video_url
            video_url_dict["audio_url"] = audio_url
            video_url_dict["video_width"] = video_width
            video_url_dict["video_height"] = video_height
        elif (
                "video_list" in video_info["videoResource"]["normal"]
                and "video_3" in video_info["videoResource"]["normal"]["video_list"]
        ):
            video_url = video_info["videoResource"]["normal"]["video_list"]["video_3"][
                "backup_url_1"
            ]
            audio_url = video_info["videoResource"]["normal"]["video_list"]["video_3"][
                "backup_url_1"
            ]
            if len(video_url) % 3 == 1:
                video_url += "=="
            elif len(video_url) % 3 == 2:
                video_url += "="
            elif len(audio_url) % 3 == 1:
                audio_url += "=="
            elif len(audio_url) % 3 == 2:
                audio_url += "="
            video_url = base64.b64decode(video_url).decode("utf8")
            audio_url = base64.b64decode(audio_url).decode("utf8")
            video_width = video_info["videoResource"]["normal"]["video_list"][
                "video_3"
            ]["vwidth"]
            video_height = video_info["videoResource"]["normal"]["video_list"][
                "video_3"
            ]["vheight"]
            video_url_dict["video_url"] = video_url
            video_url_dict["audio_url"] = audio_url
            video_url_dict["video_width"] = video_width
            video_url_dict["video_height"] = video_height
        elif (
                "video_list" in video_info["videoResource"]["normal"]
                and "video_2" in video_info["videoResource"]["normal"]["video_list"]
        ):
            video_url = video_info["videoResource"]["normal"]["video_list"]["video_2"][
                "backup_url_1"
            ]
            audio_url = video_info["videoResource"]["normal"]["video_list"]["video_2"][
                "backup_url_1"
            ]
            if len(video_url) % 3 == 1:
                video_url += "=="
            elif len(video_url) % 3 == 2:
                video_url += "="
            elif len(audio_url) % 3 == 1:
                audio_url += "=="
            elif len(audio_url) % 3 == 2:
                audio_url += "="
            video_url = base64.b64decode(video_url).decode("utf8")
            audio_url = base64.b64decode(audio_url).decode("utf8")
            video_width = video_info["videoResource"]["normal"]["video_list"][
                "video_2"
            ]["vwidth"]
            video_height = video_info["videoResource"]["normal"]["video_list"][
                "video_2"
            ]["vheight"]
            video_url_dict["video_url"] = video_url
            video_url_dict["audio_url"] = audio_url
            video_url_dict["video_width"] = video_width
            video_url_dict["video_height"] = video_height
        elif (
                "video_list" in video_info["videoResource"]["normal"]
                and "video_1" in video_info["videoResource"]["normal"]["video_list"]
        ):
            video_url = video_info["videoResource"]["normal"]["video_list"]["video_1"][
                "backup_url_1"
            ]
            audio_url = video_info["videoResource"]["normal"]["video_list"]["video_1"][
                "backup_url_1"
            ]
            if len(video_url) % 3 == 1:
                video_url += "=="
            elif len(video_url) % 3 == 2:
                video_url += "="
            elif len(audio_url) % 3 == 1:
                audio_url += "=="
            elif len(audio_url) % 3 == 2:
                audio_url += "="
            video_url = base64.b64decode(video_url).decode("utf8")
            audio_url = base64.b64decode(audio_url).decode("utf8")
            video_width = video_info["videoResource"]["normal"]["video_list"][
                "video_1"
            ]["vwidth"]
            video_height = video_info["videoResource"]["normal"]["video_list"][
                "video_1"
            ]["vheight"]
            video_url_dict["video_url"] = video_url
            video_url_dict["audio_url"] = audio_url
            video_url_dict["video_width"] = video_width
            video_url_dict["video_height"] = video_height

        elif (
                "dynamic_video" in video_info["videoResource"]["normal"]
                and "dynamic_video_list"
                in video_info["videoResource"]["normal"]["dynamic_video"]
                and "dynamic_audio_list"
                in video_info["videoResource"]["normal"]["dynamic_video"]
                and len(
            video_info["videoResource"]["normal"]["dynamic_video"][
                "dynamic_video_list"
            ]
        )
                != 0
                and len(
            video_info["videoResource"]["normal"]["dynamic_video"][
                "dynamic_audio_list"
            ]
        )
                != 0
        ):
            video_url = video_info["videoResource"]["normal"]["dynamic_video"][
                "dynamic_video_list"
            ][-1]["backup_url_1"]
            audio_url = video_info["videoResource"]["normal"]["dynamic_video"][
                "dynamic_audio_list"
            ][-1]["backup_url_1"]
            if len(video_url) % 3 == 1:
                video_url += "=="
            elif len(video_url) % 3 == 2:
                video_url += "="
            elif len(audio_url) % 3 == 1:
                audio_url += "=="
            elif len(audio_url) % 3 == 2:
                audio_url += "="
            video_url = base64.b64decode(video_url).decode("utf8")
            audio_url = base64.b64decode(audio_url).decode("utf8")
            video_width = video_info["videoResource"]["normal"]["dynamic_video"][
                "dynamic_video_list"
            ][-1]["vwidth"]
            video_height = video_info["videoResource"]["normal"]["dynamic_video"][
                "dynamic_video_list"
            ][-1]["vheight"]
            video_url_dict["video_url"] = video_url
            video_url_dict["audio_url"] = audio_url
            video_url_dict["video_width"] = video_width
            video_url_dict["video_height"] = video_height
        else:
            video_url_dict["video_url"] = ""
            video_url_dict["audio_url"] = ""
            video_url_dict["video_width"] = 0
            video_url_dict["video_height"] = 0

    else:
        video_url_dict["video_url"] = ""
        video_url_dict["audio_url"] = ""
        video_url_dict["video_width"] = 0
        video_url_dict["video_height"] = 0

    return video_url_dict


def get_comment_cnt(item_id):
    """
    获取视频的评论数量
    """
    url = "https://www.ixigua.com/tlb/comment/article/v5/tab_comments/?"
    params = {
        "tab_index": "0",
        "count": "10",
        "offset": "10",
        "group_id": str(item_id),
        "item_id": str(item_id),
        "aid": "1768",
        "msToken": "50-JJObWB07HfHs-BMJWT1eIDX3G-6lPSF_i-QwxBIXE9VVa-iN0jbEXR5pG2DKjXBmP299n6ZTuXzY-GAy968CCvouSAYIS4GzvGQT3pNlKNejr5G4-1g==",
        "X-Bogus": "DFSzswVOyGtANVeWtCLMqR/F6q9U",
        "_signature": random_signature(),
    }
    headers = {
        "authority": "www.ixigua.com",
        "accept": "application/json, text/plain, */*",
        "accept-language": "zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6",
        "cache-control": "no-cache",
        "cookie": "MONITOR_WEB_ID=67cb5099-a022-4ec3-bb8e-c4de6ba51dd0; passport_csrf_token=72b2574f3c99f8ba670e42df430218fd; passport_csrf_token_default=72b2574f3c99f8ba670e42df430218fd; sid_guard=c7472b508ea631823ba765a60cf8757f%7C1680867422%7C3024002%7CFri%2C+12-May-2023+11%3A37%3A04+GMT; uid_tt=c13f47d51767f616befe32fb3e9f485a; uid_tt_ss=c13f47d51767f616befe32fb3e9f485a; sid_tt=c7472b508ea631823ba765a60cf8757f; sessionid=c7472b508ea631823ba765a60cf8757f; sessionid_ss=c7472b508ea631823ba765a60cf8757f; sid_ucp_v1=1.0.0-KGUzNWYxNmRkZGJiZjgxY2MzZWNkMTEzMTkwYjY1Yjg5OTY5NzVlNmMKFQiu3d-eqQIQ3oDAoQYYGCAMOAhACxoCaGwiIGM3NDcyYjUwOGVhNjMxODIzYmE3NjVhNjBjZjg3NTdm; ssid_ucp_v1=1.0.0-KGUzNWYxNmRkZGJiZjgxY2MzZWNkMTEzMTkwYjY1Yjg5OTY5NzVlNmMKFQiu3d-eqQIQ3oDAoQYYGCAMOAhACxoCaGwiIGM3NDcyYjUwOGVhNjMxODIzYmE3NjVhNjBjZjg3NTdm; odin_tt=b893608d4dde2e1e8df8cd5d97a0e2fbeafc4ca762ac72ebef6e6c97e2ed19859bb01d46b4190ddd6dd17d7f9678e1de; SEARCH_CARD_MODE=7168304743566296612_0; support_webp=true; support_avif=false; csrf_session_id=a5355d954d3c63ed1ba35faada452b4d; tt_scid=7Pux7s634-z8DYvCM20y7KigwH5u7Rh6D9C-RROpnT.aGMEcz6Vsxp.oai47wJqa4f86; ttwid=1%7CHHtv2QqpSGuSu8r-zXF1QoWsvjmNi1SJrqOrZzg-UCY%7C1683858689%7Ca5223fe1500578e01e138a0d71d6444692018296c4c24f5885af174a65873c95; ixigua-a-s=3; msToken=50-JJObWB07HfHs-BMJWT1eIDX3G-6lPSF_i-QwxBIXE9VVa-iN0jbEXR5pG2DKjXBmP299n6ZTuXzY-GAy968CCvouSAYIS4GzvGQT3pNlKNejr5G4-1g==; __ac_nonce=0645dcbf0005064517440; __ac_signature=_02B4Z6wo00f01FEGmAwAAIDBKchzCGqn-MBRJpyAAHAjieFC5GEg6gGiwz.I4PRrJl7f0GcixFrExKmgt6QI1i1S-dQyofPEj2ugWTCnmKUdJQv-wYuDofeKNe8VtMtZq2aKewyUGeKU-5Ud21; ixigua-a-s=3",
        "pragma": "no-cache",
        "referer": f"https://www.ixigua.com/{item_id}?logTag=3c5aa86a8600b9ab8540",
        "sec-ch-ua": '"Microsoft Edge";v="113", "Chromium";v="113", "Not-A.Brand";v="24"',
        "sec-ch-ua-mobile": "?0",
        "sec-ch-ua-platform": '"macOS"',
        "sec-fetch-dest": "empty",
        "sec-fetch-mode": "cors",
        "sec-fetch-site": "same-origin",
        "tt-anti-token": "cBITBHvmYjEygzv-f9c78c1297722cf1f559c74b084e4525ce4900bdcf9e8588f20cc7c2e3234422",
        "user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36 Edg/113.0.1774.35",
        "x-secsdk-csrf-token": "000100000001f8e733cf37f0cd255a51aea9a81ff7bc0c09490cfe41ad827c3c5c18ec809279175e4d9f5553d8a5",
    }
    response = requests.get(
        url=url, headers=headers, params=params, proxies=tunnel_proxies(), timeout=5
    )
    response.close()
    if (
            response.status_code != 200
            or "total_number" not in response.json()
            or response.json() == {}
    ):
        return 0
    return response.json().get("total_number", 0)


class XiGuaAuthor:
    """
    西瓜账号爬虫
    """

    def __init__(self, platform, mode, rule_dict, env, user_list):
        self.platform = platform
        self.mode = mode
        self.rule_dict = rule_dict
        self.env = env
        self.user_list = user_list
        self.mq = MQ(topic_name="topic_crawler_etl_" + self.env)
        self.download_count = 0
        self.limiter = AuthorLimit(platform=self.platform, mode=self.mode)

    def rule_maker(self, account):
        """
        通过不同的账号生成不同的规则
        :param account: 输入的账号信息
        {'play_cnt': {'min': 100000, 'max': 0}, 'period': {'min': 5, 'max': 5}}
        """
        temp = account['link'].split("?")[0].split("_")
        if len(temp) == 1:
            return self.rule_dict
        else:
            flag = temp[-2]
            match flag:
                case "V1":
                    rule_dict = {
                        "play_cnt": {"min": 100000, "max": 0},
                        'period': {"min": 90, "max": 90},
                        'special': 0.02
                    }
                    return rule_dict
                case "V2":
                    rule_dict = {
                        "play_cnt": {"min": 10000, "max": 0},
                        'period': {"min": 90, "max": 90},
                        'special': 0.01
                    }
                    return rule_dict
                case "V3":
                    rule_dict = {
                        "play_cnt": {"min": 5000, "max": 0},
                        'period': {"min": 90, "max": 90},
                        'special': 0.01
                    }
                    return rule_dict

    def get_author_list(self):
        """
        每轮只抓取定量的数据，到达数量后自己退出
        获取账号列表以及账号信息
        """
        # max_count = int(self.rule_dict.get("videos_cnt", {}).get("min", 300))
        for user_dict in self.user_list:
            # if self.download_count <= max_count:
            try:
                flag = user_dict["link"][0]
                match flag:
                    case "V":
                        self.get_video_list(user_dict)
                    case "X":
                        self.get_tiny_video_list(user_dict)
                    case "h":
                        self.get_video_list(user_dict)
                    case "D":
                        self.get_video_list(user_dict)
                    case "B":
                        self.get_video_list(user_dict)
                        self.get_tiny_video_list(user_dict)
            except Exception as e:
                AliyunLogger.logging(
                    code="3001",
                    account=user_dict["uid"],
                    platform=self.platform,
                    mode=self.mode,
                    env=self.env,
                    message="扫描账号时出现bug, 报错是 {}".format(e)
                )
            #     time.sleep(random.randint(1, 15))
            # else:
            #     AliyunLogger.logging(
            #         code="2000",
            #         platform=self.platform,
            #         mode=self.mode,
            #         env=self.env,
            #         message="本轮已经抓取足够数量的视频，已经自动退出",
            #     )
            #     return

    def get_video_list(self, user_dict):
        """
        获取某个账号的视频列表
        账号分为 3 类
        """
        offset = 0
        signature = random_signature()
        link = user_dict['link'].split("?")[0].split("_")[-1]
        url = "https://www.ixigua.com/api/videov2/author/new_video_list?"
        while True:
            to_user_id = str(link.replace("https://www.ixigua.com/home/", ""))
            params = {
                "to_user_id": to_user_id,
                "offset": str(offset),
                "limit": "30",
                "maxBehotTime": "0",
                "order": "new",
                "isHome": "0",
                "_signature": signature,
            }
            headers = {
                "referer": f'https://www.ixigua.com/home/{link.replace("https://www.ixigua.com/home/", "")}/video/?preActiveKey=hotsoon&list_entrance=userdetail',
                "user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 Edg/110.0.1587.41",
            }
            response = requests.get(
                url=url,
                headers=headers,
                params=params,
                proxies=tunnel_proxies(),
                timeout=5,
            )
            offset += 30
            if "data" not in response.text or response.status_code != 200:
                AliyunLogger.logging(
                    code="3000",
                    platform=self.platform,
                    mode=self.mode,
                    env=self.env,
                    message=f"get_videoList:{response.text}\n",
                )
                return
            elif not response.json()["data"]["videoList"]:
                AliyunLogger.logging(
                    account=link,
                    code="3000",
                    platform=self.platform,
                    mode=self.mode,
                    env=self.env,
                    data=response.json(),
                    message=f"没有更多数据啦~\n",
                )
                return
            else:
                feeds = response.json()["data"]["videoList"]
                for video_obj in feeds:
                    try:
                        AliyunLogger.logging(
                            code="1001",
                            account=user_dict['uid'],
                            platform=self.platform,
                            mode=self.mode,
                            env=self.env,
                            data=video_obj,
                            message="扫描到一条视频",
                        )
                        date_flag = self.process_video_obj(video_obj, user_dict, "l")
                        if not date_flag:
                            return
                    except Exception as e:
                        AliyunLogger.logging(
                            code="3000",
                            platform=self.platform,
                            mode=self.mode,
                            env=self.env,
                            data=video_obj,
                            message="抓取单条视频异常, 报错原因是: {}".format(e),
                        )

    def get_tiny_video_list(self, user_dict):
        """
        获取小视频
        """
        url = "https://www.ixigua.com/api/videov2/hotsoon/video"
        max_behot_time = "0"
        link = user_dict['link'].split("?")[0].split("_")[-1]
        to_user_id = str(link.replace("https://www.ixigua.com/home/", ""))
        while True:
            params = {
                "to_user_id": to_user_id,
                "max_behot_time": max_behot_time,
                "_signature": random_signature()
            }
            headers = {
                "referer": "https://www.ixigua.com/{}?&".format(to_user_id),
                "user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 Edg/110.0.1587.41",
            }
            response = requests.get(
                url=url,
                headers=headers,
                params=params,
                proxies=tunnel_proxies(),
                timeout=5,
            )
            if "data" not in response.text or response.status_code != 200:
                AliyunLogger.logging(
                    code="2000",
                    platform=self.platform,
                    mode=self.mode,
                    env=self.env,
                    message=f"get_videoList:{response.text}\n",
                )
                return
            elif not response.json()["data"]["data"]:
                AliyunLogger.logging(
                    account=link,
                    code="2000",
                    platform=self.platform,
                    mode=self.mode,
                    env=self.env,
                    data=response.json(),
                    message=f"没有更多数据啦~\n",
                )
                return
            else:
                video_list = response.json()['data']['data']
                max_behot_time = video_list[-1]["max_behot_time"]
                for video_obj in video_list:
                    try:
                        AliyunLogger.logging(
                            code="1001",
                            account=user_dict['uid'],
                            platform=self.platform,
                            mode=self.mode,
                            env=self.env,
                            data=video_obj,
                            message="扫描到一条小视频",
                        )
                        date_flag = self.process_video_obj(video_obj, user_dict, "s")
                        if not date_flag:
                            return
                    except Exception as e:
                        AliyunLogger.logging(
                            code="3000",
                            platform=self.platform,
                            mode=self.mode,
                            env=self.env,
                            data=video_obj,
                            message="抓取单条视频异常, 报错原因是: {}".format(e),
                        )

    def process_video_obj(self, video_obj, user_dict, f):
        """
        process video_obj and extract video_url
        """
        new_rule = self.rule_maker(user_dict)
        trace_id = self.platform + str(uuid.uuid1())
        if f == "s":
            item_id = video_obj.get("id_str", "")
        else:
            item_id = video_obj.get("item_id", "")
        if not item_id:
            AliyunLogger.logging(
                code="2005",
                account=user_dict['uid'],
                platform=self.platform,
                mode=self.mode,
                env=self.env,
                message="无效视频",
                data=video_obj,
                trace_id=trace_id,
            )
            return
        # 获取视频信息
        video_dict = self.get_video_info(item_id=item_id)
        video_dict["platform"] = self.platform
        video_dict["strategy"] = self.mode
        video_dict["out_video_id"] = video_dict["video_id"]
        video_dict["width"] = video_dict["video_width"]
        video_dict["height"] = video_dict["video_height"]
        video_dict["crawler_rule"] = json.dumps(new_rule)
        video_dict["user_id"] = user_dict["uid"]
        video_dict["publish_time"] = video_dict["publish_time_str"]
        video_dict["strategy_type"] = self.mode
        video_dict["update_time_stamp"] = int(time.time())
        if int(time.time()) - video_dict['publish_time_stamp'] > 3600 * 24 * int(
                new_rule.get("period", {}).get("max", 1000)):
            if not video_obj['is_top']:
                """
                非置顶数据发布时间超过才退出
                """
                AliyunLogger.logging(
                    code="2004",
                    account=user_dict['uid'],
                    platform=self.platform,
                    mode=self.mode,
                    env=self.env,
                    data=video_dict,
                    message="发布时间超过{}天".format(
                        int(new_rule.get("period", {}).get("max", 1000))
                    ),
                )
                return False
        pipeline = PiaoQuanPipeline(
            platform=self.platform,
            mode=self.mode,
            rule_dict=new_rule,
            env=self.env,
            item=video_dict,
            trace_id=trace_id,
        )
        limit_flag = self.limiter.author_limitation(user_id=video_dict['user_id'])
        if limit_flag:
            title_flag = pipeline.title_flag()
            repeat_flag = pipeline.repeat_video()
            if title_flag and repeat_flag:
                if new_rule.get("special"):
                    if int(video_dict['play_cnt']) >= int(new_rule.get("play_cnt", {}).get("min", 100000)):
                        if float(video_dict['like_cnt']) / float(video_dict['play_cnt']) >= new_rule['special']:
                            self.mq.send_msg(video_dict)
                            self.download_count += 1
                            AliyunLogger.logging(
                                code="1002",
                                account=user_dict['uid'],
                                platform=self.platform,
                                mode=self.mode,
                                env=self.env,
                                data=video_dict,
                                trace_id=trace_id,
                                message="成功发送 MQ 至 ETL",
                            )
                            return True
                        else:
                            AliyunLogger.logging(
                                code="2008",
                                account=user_dict['uid'],
                                platform=self.platform,
                                mode=self.mode,
                                env=self.env,
                                message="不满足特殊规则, 点赞量/播放量",
                                data=video_dict
                            )
                else:
                    if int(video_dict['play_cnt']) >= int(new_rule.get("play_cnt", {}).get("min", 100000)):
                        self.mq.send_msg(video_dict)
                        self.download_count += 1
                        AliyunLogger.logging(
                            code="1002",
                            account=user_dict['uid'],
                            platform=self.platform,
                            mode=self.mode,
                            env=self.env,
                            data=video_dict,
                            trace_id=trace_id,
                            message="成功发送 MQ 至 ETL",
                        )
                        return True
                    else:
                        AliyunLogger.logging(
                            code="2008",
                            account=user_dict['uid'],
                            platform=self.platform,
                            mode=self.mode,
                            env=self.env,
                            message="不满足特殊规则, 播放量",
                            data=video_dict
                        )
            return True

    def get_video_info(self, item_id):
        """
        获取视频信息
        """
        url = "https://www.ixigua.com/{}".format(item_id)
        headers = {
            "accept-encoding": "gzip, deflate",
            "accept-language": "zh-CN,zh-Hans;q=0.9",
            "cookie": "ttwid={}".format(byte_dance_cookie(item_id)),
            "user-agent": FakeUserAgent().random,
            "referer": "https://www.ixigua.com/{}/".format(item_id),
        }
        response = requests.get(
            url=url,
            headers=headers,
            proxies=tunnel_proxies(),
            timeout=5,
        )

        video_info = extract_info_by_re(response.text)
        video_dict = {
                "video_title": video_info.get("title", ""),
                "video_id": video_info.get("video_id"),
                "gid": str(item_id),
                "play_cnt": int(video_info.get("play_count", 0)),
                "like_cnt": int(video_info.get("like_count", 0)),
                "comment_cnt": 0,
                "share_cnt": 0,
                "favorite_cnt": 0,
                "duration": int(video_info.get("duration", 0)),
                "video_width": 0,
                "video_height": 0,
                "publish_time_stamp": int(video_info.get("publish_time", 0)),
                "publish_time_str": time.strftime(
                    "%Y-%m-%d %H:%M:%S",
                    time.localtime(int(video_info.get("publish_time", 0))),
                ),
                "avatar_url": str(
                    video_info.get("user_info", {}).get("avatar_url", "")
                ),
                "cover_url": video_info.get("cover_url", ""),
                "video_url": video_info.get("url"),
                "session": f"xigua-search-{int(time.time())}",
            }
        return video_dict


if __name__ == "__main__":
    user_list = [
        {
            "uid": 6267140,
            "source": "xigua",
            "link": "https://www.ixigua.com/home/2779177225827568",
            "nick_name": "秋晴爱音乐",
            "avatar_url": "",
            "mode": "author",
        },
        {
            "uid": 6267140,
            "source": "xigua",
            "link": "https://www.ixigua.com/home/2885546124776780",
            "nick_name": "朗诵放歌的老山羊",
            "avatar_url": "",
            "mode": "author",
        },
        {
            "uid": 6267140,
            "source": "xigua",
            "link": "https://www.ixigua.com/home/5880938217",
            "nick_name": "天原声疗",
            "avatar_url": "",
            "mode": "author",
        },
    ]
    rule = {'period': {'min': 30, 'max': 30}, 'duration': {'min': 20, 'max': 0}, 'play_cnt': {'min': 100000, 'max': 0}}
    XGA = XiGuaAuthor(
        platform="xigua",
        mode="author",
        rule_dict=rule,
        env="prod",
        user_list=user_list
    )
    XGA.get_author_list()