luojunhui
/
LongArticlesJob


			
							123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119
							"""
@author: luojunhui
"""

import os
import json

from applications import log

from applications.utils import download_sohu_video
from applications.utils import download_gzh_video
from applications.utils import download_toutiao_video
from applications.utils import upload_to_oss

from config import apolloConfig

my_config = apolloConfig()

empty_dict = {}
sensitive_word_list = json.loads(my_config.getConfigValue("sensitive_word_list"))


def whether_title_sensitive(title: str) -> bool:
    """
    title sensitive words filter
    """
    for word in sensitive_word_list:
        if word in title:
            return True

    return False


def whether_duplicate_video_title(video_title: str, db_client) -> bool:
    """
    whether duplicate video title
    """
    sql = f"""
        select id from publish_single_video_source
        where article_title = %s;
    """
    duplicate_id = db_client.fetch(query=sql, params=(video_title,))
    if duplicate_id:
        return True

    return False


def whether_duplicate_article_title(article_title: str, db_client) -> bool:
    fetch_query = f"""
        select article_id from crawler_meta_article 
        where title = %s;
    """
    duplicate_id = db_client.fetch(query=fetch_query, params=(article_title,))
    if duplicate_id:
        return True

    return False


def scrape_video_entities_process(video_item, db_client) -> dict:
    """
    video crawler pipeline
    """
    article_url = video_item["article_url"]
    platform = video_item["platform"]
    video_title = video_item["article_title"]
    # whether title sensitive
    if whether_title_sensitive(video_title):
        return empty_dict

    # whether duplicate video title
    if whether_duplicate_video_title(video_title, db_client):
        return empty_dict

    # download video
    match platform:
        case "toutiao":
            video_path = download_toutiao_video(article_url)
        case "gzh":
            video_path = download_gzh_video(article_url)
        case "hksp":
            video_path = ""
        case "sph":
            video_path = ""
        case "sohu":
            video_path = download_sohu_video(article_url)
        case "piaoquan":
            return video_item
        case _:
            return empty_dict

    if video_path:
        # upload video to oss
        oss_path = upload_to_oss(video_path)
        video_item["video_oss_path"] = oss_path
        os.remove(video_path)
        return video_item
    else:
        return empty_dict


def scrape_article_entities_process(article_item, db_client) -> dict:
    """
    article crawler pipeline
    """
    article_title = article_item['title']
    if whether_duplicate_article_title(article_title, db_client):
        return empty_dict

    # whether sensitive title
    if whether_title_sensitive(article_title):
        article_item['title_sensitivity'] = 1
        return article_item

    return article_item