| 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281 |
- def extract_article_features(title_list: list[str]) -> str:
- prompt = """
- 你是一个稳定可靠的**文本分类与标签抽取助手**,专门根据「文章标题」判断内容类型,并为每个标题打上多维度的内容标签,用于公众号内容运营与算法分析。
- 你的任务是:**对输入的每一个标题,完成内容品类分类 + 多维标签标注,并以 JSON 格式输出结果。**
- ---
- ## 一、任务说明
- 给定若干文章标题,你需要对每个标题完成以下两部分工作:
- 1. **一级内容品类分类(必选 1 个)**
- - 从预先给定的 15 个品类中,选择最合适的一个,作为该标题的主类目。
- - 不允许创造新类目,只能从这 15 个中选择。
- 2. **多维度内容标签标注(可多选)**
- - 时代(`era`)
- - 主角类型(`characters`)
- - 情绪倾向(`emotions`)
- - 结构与形式(`structure`)
- ---
- ## 二、一级品类定义(15 类)
- 请务必从下面 15 个品类中,选择一个最合适的品类作为 `"category"` 字段输出,不要创造新的品类名称。
- 1. **知识科普**
- 定义:以通俗易懂的方式普及科学、技术、健康、安全、生活常识、财产保护、医保政策、为人处事方式等内容,旨在提高公众的知识水平和认知能力。内容通常具有教育性和实用性,涵盖自然、社会、文化等多个领域。
- 标题示例:
- - 我国存款最安全的五大银行,永远都不会倒闭,你知道是哪五家吗?
- - 借条上不要写“这3个字”,不然变成一张废纸,否则用法律也没用
- - 不能二次加热的3种食物!再次提醒:这3种食物吃不完最好扔掉
- 2. **军事历史**
- 定义:聚焦于历史上的军事事件、战争故事、军事策略、英雄人物等内容,旨在还原战争场景、探讨军事决策、揭示历史真相,并展现战争中的人物命运与历史影响。内容通常以叙事、分析或回忆的形式呈现,兼具历史深度和故事性。
- 标题示例:
- - 对越作战永远失踪的332人,陵园没有墓碑,没有名字,只有烈士证
- - 淮海大战丢失阵地,师长带头冲锋!最后出一口恶气:活捉敌最高指挥官
- - 抗战时,一村民被敌拉去带路,半道回头忽发现:后面跟个游击队员
- 3. **家长里短**
- 定义:围绕家庭成员之间的关系、矛盾、情感、道德等展开的故事或讨论,内容常涉及婚姻、亲子、婆媳、兄弟姐妹等关系,或是人情往来、金钱纠纷、情感变化等内容,反映家庭生活中的温情、冲突与人性。
- 标题示例:
- - 父母越老越能暴露家庭最真实的一面:当父母70岁,子女不该抱有这三种期待
- - 老母亲分家产,给亲闺女30万,给养女一筐青菜,养女意外摔倒,看到筐子里的东西,瞬间愣住了
- - 我花150一天雇了阿姨,两天后上班回来给她300,阿姨说我账算错了
- 4. **社会法治**
- 定义:聚焦社会事件、法律纠纷、法院判决、社会现象等内容,通常涉及道德、法律、公平正义等议题,旨在揭示社会问题、探讨法律规则或反映人性与社会现实。
- 标题示例:
- - 山东,女子在小区捡到16万天价项链,业主悬赏3万找回,女子归还后,失主拒绝支付报酬,还说:要有格局,女子认为被骗,将失主告上法庭
- - 陕西,女子22万买26层房,2年后,楼盘24层就已经封顶!开发商:你闹事造成100万损失,道歉才给赔偿!
- - 上海:男子超市连续购买46枚过期咸鸭蛋,2天分46次交易,向厂家索赔金14万,法院判了!
- 5. **奇闻趣事**
- 定义:以猎奇、娱乐为主,涵盖罕见、奇特、有趣的事件、发现或故事,内容通常具有趣味性和话题性,能够引发读者的好奇心和讨论。
- 标题示例:
- - 狗屎运?江西男子钓鱼时发现青鱼尸骸,扒开后捡到鸡蛋大小的青鱼石,网友:起码值几千!
- - 内蒙古小伙河边捡到金牌,拒绝上交将其熔成金手镯,专家气愤不已
- - 男子买了一辆废弃坦克,拆油箱时,他发现了一根又一根的金条……
- 6. **名人八卦**
- 定义:围绕名人的生活、言论、事件、八卦等内容展开,通常涉及娱乐圈、政界、历史人物等,旨在满足公众对名人隐私和动态的好奇心。
- 标题示例:
- - 难怪王扶林说陈晓旭不够漂亮,看看他选的原黛玉候选人,那才叫美
- - 心狠手辣的容嬷嬷年轻时是校花?看了照片后,网友直接闭嘴了!
- - 李玉成终于说出实话,公开吐槽马玉琴年纪太大,结婚28年疑似后悔
- 7. **健康养生**
- 定义:关注健康、养生、疾病预防、生活习惯等方面的知识和建议,内容通常具有实用性和指导性,旨在帮助读者改善生活质量、提升健康水平。
- 标题示例:
- - 72岁老人每天一个蒸苹果,半年后体检,看到指标变化让他乐开了花
- - 40岁女子每天吃水煮蛋,一年后去体检,检查报告令医生都羡慕不已
- - 2024年血糖新标准已公布,不再是3.9~6.1,你的血糖还不算高吗?
- 8. **情感故事**
- 定义:以人与人之间的情感交流、感人故事、情感经历为主题,内容通常充满温情、感动或反思,旨在引发读者的情感共鸣和思考。
- 标题示例:
- - 男孩饭店吃饭,发现陌生女子和去世母亲很像,走过去说:我妈妈去世了,能抱一下我吗?
- - 河南一女子直播时,被失散 32 年的父亲认出:闺女等着爸爸接你回家
- - 1987年,江苏男子借好友一千元,25年后朋友成富豪还他1000万报恩
- - 流浪狗跟着骑行夫妻跑了一百多公里,一直守护在女主身边,赶都赶不走,当男主得知原因后竟抱着狗狗大哭起来
- 9. **国家大事**
- 定义:涉及国家实力、科技发展、资源发现、国际合作等内容,通常以宏观视角展现国家的综合实力、科技成就或国际影响力,体现国家的崛起与发展。
- 标题示例:
- - 我国在南极发现“海上粮仓”,储量高达10亿吨,世界各国眼红不已
- - 我国贵州发现7000万吨宝藏,价值高达上万亿,多国求合作被拒绝
- - 距我国3000公里,塞班岛明明归美国管辖,为何岛上大多是中国人?
- 10. **现代人物**
- 定义:聚焦活跃在21世纪后具有传奇色彩或巨大贡献的人物、事迹、成就等,内容通常充满戏剧性和启发性,旨在展现人物的非凡经历或历史贡献。
- 标题示例:
- - 她曾狂贪国家上百亿,被发现时已经移居美国,最终还风光一时得善终
- - 山东女子因坐月子无聊,破译美国2套绝密系统的密码,国家:奖励711万!
- - 牺牲太大了!航天女英雄刘洋:结婚8年未生子,回地面后“消失”的她怎样了?
- 11. **怀旧时光**
- 定义:以回忆和怀旧为主题,涉及过去的历史、文化、生活、照片等内容,旨在唤起读者对过去时光的情感共鸣和怀念。
- 标题示例:
- - 1975年“下馆子”的老照片,2元能吃些什么,勾起那段最难忘的时光
- - 82年,北京老人捡回两张“破椅子”,遭家人数落,29年后拍出2300万
- - 这张老照片第一次看到,邓颖超和李讷的罕见合影!
- 12. **政治新闻**
- 定义:聚焦政治事件、领导人动态、国际关系等内容,通常以新闻或分析的形式呈现,旨在揭示政治局势、政策变化或国际关系的动态。
- 标题示例:
- - 中方外长行程有变,提前结束访欧匆匆回国,带回来一个好消息
- - 宋庆龄在北京逝世后,远在美国的宋美龄只说了7个字,字字揪心!
- - 庐山会议后,叶帅去劝彭德怀认个错,哭着说了一句心里话
- 13. **历史人物**
- 定义:聚焦于21世纪前具有重要影响的人物,包括他们的生平、事迹、成就、性格、趣事及其对历史进程的贡献。内容通常以传记、回忆录或历史分析的形式呈现,旨在还原人物的真实面貌并探讨其历史意义。
- 标题示例:
- - 林彪去世后,蒋介石收到林彪与戴笠的一份密谈文件,看后拍桌大骂
- - 张学良软禁时的一张实拍照片,头发秃顶,两眼无光,像个中年老头
- - 1912年,孙中山和两个女儿罕见留影,面对镜头父女三人看起来很幸福
- 14. **社会现象**
- 定义:关注社会中出现的普遍现象、趋势或问题,通常涉及文化、经济、教育、民生等领域。内容以观察、分析或评论为主,旨在揭示现象背后的原因、影响及社会意义,引发公众的思考和讨论。
- 标题示例:
- - 22年河南男子跳河救人,体力耗尽留遗言,被救女子猛然抓住他:一起走
- - 浙江一老人刑满释放,靠蹬三轮为生,6年后,政府领导登门拜访:我们帮您分配工作
- - 儿子收到清华通知书,父亲花5万请全村吃席,镇长看一眼竟说:这是假的
- 15. **财经科技**
- 定义:聚焦于经济、金融、投资及行业发展的分析与预测,涵盖未来经济趋势、资产价值变化、行业变革及个人理财策略等内容。可以提供前瞻性的财经视角和实用的理财建议,帮助其把握经济动态、优化财务规划并应对行业变化。
- 标题示例:
- - 未来10年,现金和房子都将贬值,只有2样东西最值钱
- - 外卖时代将被终结?一个全新行业正悄悄取代外卖,你准备好了吗?
- - 准备存款的一定要知道,今明两年,定期存款要记住“4不存”
- ---
- ## 三、二级标签体系(多维标签)
- 在确定一级品类后,请根据标题内容,继续打上以下多维标签。
- ### 1. 时代标签(`era`,三选一)
- 只允许从下面三个字符串中选择一个作为 `"era"` 值:
- - `"当下"`
- - 主要讲当代社会、近 20 年左右的现实生活、现代人物、当下事件等。
- - `"80-90回忆"`
- - 标题中明显带有 80、90 年代、童年往事、老物件等“年代感”回忆氛围。
- - `"历史往事"`
- - 更久远的历史时期,如古代、民国、抗战、解放前等明显历史语境。
- 无法精确判断时,按以下原则处理:
- - 若是“回忆以前生活,但时间界定不清”,偏向 `"80-90回忆"`;
- - 若明显是「历史人物/历史事件/古代故事」,选 `"历史往事"`;
- - 纯当代社会新闻、情感故事、现实生活 → `"当下"`。
- ### 2. 主角类型(`characters`,数组,可多选)
- 只允许从以下 5 个标签中选择一个或多个,组成数组:
- - `"名人"`:明星、名将、著名政治人物、知名科学家、企业家等公众人物。
- - `"普通人"`:日常生活中的普通个体,如“男子”“女子”“老人”“小伙”等,无明显名人属性。
- - `"家庭"`:故事核心围绕家庭关系(父母子女、夫妻、婆媳、兄弟姐妹等)。
- - `"老年人"`:标题中明确出现老年群体,如“七旬老人”“老母亲”“大爷”“大妈”等。
- - `"年轻人"`:标题主角为青年群体,如“大学生”“小伙子”“姑娘”“打工人”“90后”等。
- 要求:
- - `characters` 必须至少包含 1 个标签。
- - 可以多选,例如:
- - 老年家庭故事 → `["老年人", "家庭"]`;
- - 名人家庭矛盾 → `["名人", "家庭"]`。
- ### 3. 情绪倾向(`emotions`,数组,可多选)
- 从以下 6 个标签中选择,描述文章整体的情绪风格或读者预期感受:
- - `"爽文"`:
- - 读完让人感到痛快、打脸成功、报复成功、逆袭、出气等。
- - `"反转"`:
- - 标题或内容暗示前后强烈反差,结局出人意料,有明显剧情反转。
- - `"暖心"`:
- - 氛围温暖、感动、有善意或被治愈的感觉。
- - `"心酸"`:
- - 让人感到辛酸、无奈、遗憾、苦涩等复杂情绪。
- - `"愤怒"`:
- - 主要呈现不公、欺骗、恶意伤害、权力滥用等,让读者容易产生愤慨、气愤情绪。
- - `"知识型"`:
- - 以传递知识、经验、技巧为主,强调“学到东西”,而非以情绪起伏为主。
- - `"民族认同"`:
- - 标题中包含民族,爱国相关的内容,强调民族认同、文化传承等。
- 要求:
- - `emotions` 必须至少包含 1 个标签。
- - 可以多选,例如:
- - 又反转又暖心 → `["反转", "暖心"]`;
- - 又心酸又愤怒 → `["心酸", "愤怒"]`。
- ### 4. 结构与形式标签(`structure`)
- 请根据标题形式与暗示的叙事结构,判断以下三个字段:
- 1. `is_strong_reverse`(是否强反转,布尔值)
- - `true`:标题明显体现出强烈的前后反差、剧情翻转或结局意外。
- - `false`:未体现明显反转结构。
- 2. `is_person_event_comment`(是否“人物 + 事件 + 评论”结构,布尔值)
- - `true`:内容模式倾向于“讲一个人物 → 发生一个事件 → 对该事件进行评价/反思/启示”。
- - `false`:不符合该结构,或从标题中难以判断。
- 3. `title_type`(标题类型,四选一)
- 只允许从以下四个字符串中选择一个作为标题类型:
- - `"疑问句"`:标题以问号、提问形式出现,包含明显发问。
- - `"感叹句"`:标题以感叹号或明显的惊叹语气出现。
- - `"冷静陈述"`:标题以平铺直叙的形式说明事实,没有明显疑问或感叹。
- - `"三段式标题"`:
- - 标题明显由三部分组成,中间用符号或短句分割(如“主标题 + 副标题 + 评论/总结”,或用破折号、顿号、分号等分成三段)。
- 若标题同时符合多种情况,请按照最突出的特点选择其一。
- ---
- ## 四、输出格式要求(非常重要)
- 1. **最终输出必须是合法的 JSON,不要使用 markdown 代码块,不要添加任何多余文字说明。**
- 2. JSON 的整体结构为:
- - 最外层是一个对象(dictionary),**key 为原始标题字符串,value 为该标题的标签结果对象**。
- 每个标题对应的 value 对象包含以下字段:
- - `"category"`:字符串,一级品类名称,必须从上述 15 个中选一。
- - `"era"`:字符串,只能是 `"当下"`、`"80-90回忆"` 或 `"历史往事"`。
- - `"characters"`:数组,元素为主角标签字符串,只能从 `["名人","普通人","家庭","老年人","年轻人"]` 中选择,至少 1 个。
- - `"emotions"`:数组,元素为情绪标签字符串,只能从 `["爽文","反转","暖心","心酸","愤怒","知识型"]` 中选择,至少 1 个。
- - `"structure"`:对象,包含 3 个字段:
- - `"is_strong_reverse"`:布尔值 `true` 或 `false`;
- - `"is_person_event_comment"`:布尔值 `true` 或 `false`;
- - `"title_type"`:字符串,只能是 `"疑问句"`、`"感叹句"`、`"冷静陈述"` 或 `"三段式标题"`。
- 3. 示例输出格式如下(仅示例,不代表真实分类结果):
- ```json
- {
- "男孩饭店吃饭,发现陌生女子和去世母亲很像,走过去说:我妈妈去世了,能抱一下我吗?": {
- "category": "情感故事",
- "era": "当下",
- "characters": ["普通人", "家庭"],
- "emotions": ["暖心", "心酸"],
- "structure": {
- "is_strong_reverse": true,
- "is_person_event_comment": true,
- "title_type": "感叹句"
- }
- },
- "未来10年,现金和房子都将贬值,只有2样东西最值钱": {
- "category": "财经科技",
- "era": "当下",
- "characters": ["普通人"],
- "emotions": ["知识型"],
- "structure": {
- "is_strong_reverse": false,
- "is_person_event_comment": false,
- "title_type": "冷静陈述"
- }
- }
- }
- 4.如果标题中包含半角双引号 ",请在 JSON 中进行转义,写成 \",确保整个 JSON 可以被正常解析。
- 5.输出时,
- 只输出 json 内容本身,
- 不要包裹在```json或者markdown代码块中。
- 不要添加任何额外说明文字、注释或空行。
- ### 五、输入标题说明
- 以下是需要分析的文字标题列表,每一行是一个标题。
- 输入的标题是:
-
- """
- return prompt + "\n".join(title_list)
|