|
il y a 3 heures | |
---|---|---|
content_indentify | il y a 4 jours | |
coze | il y a 1 semaine | |
evaluate | il y a 2 jours | |
prompt | il y a 4 jours | |
protos | il y a 1 semaine | |
query_key | il y a 4 jours | |
structure | il y a 3 heures | |
utils | il y a 5 jours | |
.env | il y a 1 semaine | |
.gitignore | il y a 2 jours | |
.python-version | il y a 1 semaine | |
1_fetch.py | il y a 1 semaine | |
2_identify.py | il y a 1 semaine | |
README.md | il y a 5 jours | |
config.py | il y a 2 jours | |
gemini.py | il y a 1 semaine | |
pyproject.toml | il y a 1 semaine | |
requirements.txt | il y a 1 semaine | |
uv.lock | il y a 1 semaine |
这是一个多模块的知识处理系统,包含内容识别、结构化处理等功能。项目采用模块化设计,每个功能模块都有独立的日志系统和进程管理。
knowledge/
├── content_indentify/ # 内容识别模块
│ ├── multi_thread_scheduler.py # 多线程调度器
│ ├── indentify.py # 内容识别处理器
│ ├── image_identifier.py # 图片识别模块
│ ├── video_identifier.py # 视频识别模块
│ ├── start_scheduler.sh # 启动脚本
│ ├── logging_config.py # 日志配置(向后兼容)
│ └── README.md # 模块说明文档
│
├── structure/ # 结构化处理模块
│ ├── multi_thread_scheduler.py # 多线程调度器
│ ├── structure_processor.py # 结构化处理器
│ ├── start_structure.sh # 启动脚本
│ ├── logging_config.py # 日志配置(向后兼容)
│ └── README.md # 模块说明文档
│
├── utils/ # 公共工具模块
│ ├── logging_config.py # 公共日志配置
│ ├── mysql_db.py # 数据库工具
│ ├── file.py # 文件工具
│ └── container.py # 容器工具
│
├── prompt/ # 提示词配置
│ ├── handle.md # 处理提示词
│ └── structure.md # 结构化提示词
│
├── gemini.py # Gemini API处理器
├── config.py # 配置文件
└── README.md # 项目说明文档
content_indentify/
)功能: 自动识别和处理内容中的图片和视频
使用方法:
cd content_indentify
./start_scheduler.sh start # 启动
./start_scheduler.sh status # 查看状态
./start_scheduler.sh stop # 停止
structure/
)功能: 对已识别的内容进行结构化处理
使用方法:
cd structure
./start_structure.sh start # 启动
./start_structure.sh status # 查看状态
./start_structure.sh stop # 停止
所有模块都使用统一的日志配置 (utils/logging_config.py
):
from utils.logging_config import get_logger
logger = get_logger('ModuleName')
logger.info("信息日志")
logger.error("错误日志")
日志特点:
每个模块都有完整的进程管理功能:
# 启动
./start_module.sh start
# 查看状态
./start_module.sh status
# 停止
./start_module.sh stop
# 重启
./start_module.sh restart
进程管理特点:
logs/
├── scheduler_YYYYMMDD.log # 调度器日志
├── content_identifier_YYYYMMDD.log # 内容识别日志
├── structure_scheduler_YYYYMMDD.log # 结构化调度器日志
├── StructureProcessor_YYYYMMDD.log # 结构化处理器日志
└── *_stdout.log # 标准输出日志
# 监控所有日志
tail -f logs/*.log
# 监控特定模块
tail -f logs/scheduler_*.log
tail -f logs/structure_*.log
# 监控错误
tail -f logs/*.log | grep ERROR
# 直接运行Python脚本
python3 content_indentify/multi_thread_scheduler.py
python3 structure/multi_thread_scheduler.py
# 内容识别
cd content_indentify
./start_scheduler.sh start
# 结构化处理
cd structure
./start_structure.sh start
# 创建服务文件
sudo cp content_indentify/content-scheduler.service /etc/systemd/system/
sudo cp structure/structure-scheduler.service /etc/systemd/system/
# 启用服务
sudo systemctl enable content-scheduler
sudo systemctl enable structure-scheduler
# 启动服务
sudo systemctl start content-scheduler
sudo systemctl start structure-scheduler
# 创建会话
screen -S content
screen -S structure
# 在会话中启动
./start_scheduler.sh start
./start_structure.sh start
# 分离会话
# Ctrl+A, D
# 重新连接
screen -r content
screen -r structure
权限问题
chmod +x */start_*.sh
bash
pip install -r requirements.txt
数据库连接
日志查看 ```bash
grep ERROR logs/*.log
# 查看进程状态 ps aux | grep python
### 调试模式
```bash
# 前台运行,查看详细输出
python3 -u module_name/multi_thread_scheduler.py
# 查看实时日志
tail -f logs/*.log
可根据服务器性能调整:
scheduler = MultiThreadScheduler(
thread_count=10, # 增加线程数
interval_minutes=1 # 减少处理间隔
)
# 监控CPU和内存
htop
top
# 监控磁盘空间
df -h
du -sh logs/
# 监控进程
ps aux | grep python