123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899 |
- # coding:utf-8
- class get_cate2_only(object):
- def __init__(self):
- self.cate_list = [
- "祝福音乐",
- "中国战争史",
- "中国历史影像",
- "知识科普",
- "正能量剧情",
- "杂技柔术",
- "早中晚好",
- "益智解密",
- "饮食健康",
- "戏曲戏剧",
- "未来科幻",
- "天气变化",
- "他国政策",
- "贪污腐败",
- "书法",
- "食品安全",
- "社会风气",
- "生活小妙招",
- "生活技巧科普",
- "省份城市亮点",
- "人生忠告",
- "人财诈骗",
- "亲子日常",
- "亲情音乐",
- "木工",
- "魔术特效",
- "迷信祝福",
- "民族异域音乐",
- "民生政策",
- "名画赏析",
- "美食教程",
- "麻将",
- "旅行攻略",
- "历史名人",
- "老综艺影像",
- "老年相关法律科普",
- "老年时尚",
- "老年审美美女",
- "老年生活",
- "老明星",
- "惊奇事件",
- "节日祝福",
- "健身操",
- "健康知识",
- "惠民新闻",
- "绘画",
- "怀念时光",
- "红歌老歌",
- "罕见画面",
- "国际文化",
- "国家统一",
- "国家力量",
- "国家科技力量",
- "搞笑段子",
- "风景实拍",
- "对口型表演",
- "动物萌宠",
- "动物表演",
- "大型集体艺术",
- "当代正能量人物",
- "传统文化",
- "吃播探店",
- "长寿知识",
- "本地生活",
- "K12教育",
- "(老)电影切片"
- ]
- def evaluate(self, cate_str):
- result = "unknown"
- for cate in self.cate_list:
- if cate in cate_str:
- result = cate
- break
- if result == "unknown":
- result = cate_str.split("、")[0].replace("品类-", "")
- result = self.clean_text(result)
- if len(result) == 0:
- result = "unknown"
- return result
- def clean_text(self, input_text):
- """
- 去除字符串中的标点符号,只保留汉字和英文字符。
- 参数:
- input_text (str): 输入的字符串。
- 返回:
- str: 处理后的字符串。
- """
- # 使用正则表达式匹配汉字和英文字符
- import re
- cleaned_text = re.sub(r'[^\u4e00-\u9fa5a-zA-Z]', '', input_text)
- return cleaned_text
-
- obj = get_cate2_only()
- print(obj.evaluate("----老年人 "))
|