run_all.sh 3.2 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596
  1. #!/bin/bash
  2. # 数据处理脚本执行脚本
  3. # 按顺序执行所有数据处理步骤
  4. set -e # 遇到错误立即退出
  5. # 获取脚本所在目录的绝对路径
  6. SCRIPT_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
  7. # 项目根目录
  8. PROJECT_ROOT="$(cd "$SCRIPT_DIR/../.." && pwd)"
  9. echo "=========================================="
  10. echo "数据处理流程开始"
  11. echo "项目根目录: $PROJECT_ROOT"
  12. echo "=========================================="
  13. echo ""
  14. # 切换到项目根目录
  15. cd "$PROJECT_ROOT"
  16. # 步骤1: 提取特征分类映射
  17. echo "[1/5] 正在提取特征分类映射..."
  18. echo " 输入: data/data_1118/过去帖子_pattern聚合结果.json"
  19. echo " 输入: data/data_1118/当前帖子_what解构结果/*.json (时间阈值)"
  20. echo " 输出: data/data_1118/特征名称_分类映射.json"
  21. echo " 输出: data/data_1118/分类层级映射.json"
  22. python script/data_processing/extract_feature_categories.py
  23. if [ $? -eq 0 ]; then
  24. echo "✓ 特征分类映射提取完成"
  25. else
  26. echo "✗ 特征分类映射提取失败"
  27. exit 1
  28. fi
  29. echo ""
  30. # 步骤2: 提取特征帖子来源
  31. echo "[2/5] 正在提取特征帖子来源..."
  32. echo " 输入: data/data_1118/过去帖子_what解构结果/*.json"
  33. echo " 输入: data/data_1118/当前帖子_what解构结果/*.json (时间阈值)"
  34. echo " 输出: data/data_1118/特征名称_帖子来源.json"
  35. python script/data_processing/extract_features_from_posts.py
  36. if [ $? -eq 0 ]; then
  37. echo "✓ 特征帖子来源提取完成"
  38. else
  39. echo "✗ 特征帖子来源提取失败"
  40. exit 1
  41. fi
  42. echo ""
  43. # 步骤3: 提取当前帖子解构任务列表
  44. echo "[3/5] 正在提取当前帖子解构任务列表..."
  45. echo " 输入: data/data_1118/当前帖子_what解构结果/*.json"
  46. echo " 输出: data/data_1118/当前帖子_解构任务列表.json"
  47. python script/data_processing/extract_current_posts.py
  48. if [ $? -eq 0 ]; then
  49. echo "✓ 当前帖子解构任务列表提取完成"
  50. else
  51. echo "✗ 当前帖子解构任务列表提取失败"
  52. exit 1
  53. fi
  54. echo ""
  55. # 步骤4: 匹配灵感特征
  56. echo "[4/5] 正在匹配灵感特征..."
  57. echo " 输入: data/data_1118/当前帖子_解构任务列表.json"
  58. echo " 输入: data/data_1118/特征名称_帖子来源.json"
  59. echo " 输入: data/data_1118/特征名称_分类映射.json"
  60. echo " 输出: data/data_1118/当前帖子_how解构结果/*_how.json"
  61. python script/data_processing/match_inspiration_features.py
  62. if [ $? -eq 0 ]; then
  63. echo "✓ 灵感特征匹配完成"
  64. else
  65. echo "✗ 灵感特征匹配失败"
  66. exit 1
  67. fi
  68. echo ""
  69. # 步骤5: 可视化结果
  70. echo "[5/5] 正在生成可视化结果..."
  71. echo " 输入: data/data_1118/当前帖子_how解构结果/*.json"
  72. echo " 输入: data/data_1118/特征名称_分类映射.json"
  73. echo " 输入: data/data_1118/分类层级映射.json"
  74. echo " 输出: data/data_1118/当前帖子_how解构结果_可视化.html"
  75. python script/data_processing/visualize_how_results.py
  76. if [ $? -eq 0 ]; then
  77. echo "✓ 可视化结果生成完成"
  78. else
  79. echo "✗ 可视化结果生成失败"
  80. exit 1
  81. fi
  82. echo ""
  83. echo "=========================================="
  84. echo "✓ 所有数据处理步骤已完成!"
  85. echo "=========================================="