test.py 2.9 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899
  1. # coding:utf-8
  2. class get_cate2_only(object):
  3. def __init__(self):
  4. self.cate_list = [
  5. "祝福音乐",
  6. "中国战争史",
  7. "中国历史影像",
  8. "知识科普",
  9. "正能量剧情",
  10. "杂技柔术",
  11. "早中晚好",
  12. "益智解密",
  13. "饮食健康",
  14. "戏曲戏剧",
  15. "未来科幻",
  16. "天气变化",
  17. "他国政策",
  18. "贪污腐败",
  19. "书法",
  20. "食品安全",
  21. "社会风气",
  22. "生活小妙招",
  23. "生活技巧科普",
  24. "省份城市亮点",
  25. "人生忠告",
  26. "人财诈骗",
  27. "亲子日常",
  28. "亲情音乐",
  29. "木工",
  30. "魔术特效",
  31. "迷信祝福",
  32. "民族异域音乐",
  33. "民生政策",
  34. "名画赏析",
  35. "美食教程",
  36. "麻将",
  37. "旅行攻略",
  38. "历史名人",
  39. "老综艺影像",
  40. "老年相关法律科普",
  41. "老年时尚",
  42. "老年审美美女",
  43. "老年生活",
  44. "老明星",
  45. "惊奇事件",
  46. "节日祝福",
  47. "健身操",
  48. "健康知识",
  49. "惠民新闻",
  50. "绘画",
  51. "怀念时光",
  52. "红歌老歌",
  53. "罕见画面",
  54. "国际文化",
  55. "国家统一",
  56. "国家力量",
  57. "国家科技力量",
  58. "搞笑段子",
  59. "风景实拍",
  60. "对口型表演",
  61. "动物萌宠",
  62. "动物表演",
  63. "大型集体艺术",
  64. "当代正能量人物",
  65. "传统文化",
  66. "吃播探店",
  67. "长寿知识",
  68. "本地生活",
  69. "K12教育",
  70. "(老)电影切片"
  71. ]
  72. def evaluate(self, cate_str):
  73. result = "unknown"
  74. for cate in self.cate_list:
  75. if cate in cate_str:
  76. result = cate
  77. break
  78. if result == "unknown":
  79. result = cate_str.split("、")[0].replace("品类-", "")
  80. result = self.clean_text(result)
  81. if len(result) == 0:
  82. result = "unknown"
  83. return result
  84. def clean_text(self, input_text):
  85. """
  86. 去除字符串中的标点符号,只保留汉字和英文字符。
  87. 参数:
  88. input_text (str): 输入的字符串。
  89. 返回:
  90. str: 处理后的字符串。
  91. """
  92. # 使用正则表达式匹配汉字和英文字符
  93. import re
  94. cleaned_text = re.sub(r'[^\u4e00-\u9fa5a-zA-Z]', '', input_text)
  95. return cleaned_text
  96. obj = get_cate2_only()
  97. print(obj.evaluate("----老年人 "))