пре 2 месеци · 84a4172bf6
--- a/app/main.py
+++ b/app/main.py
@@ -129,7 +129,7 @@ def list_projects(skip: int = 0, limit: int = 100, db: Session = Depends(get_db)
 
				 
			
 
				 
			
 
				 @app.get("/projects/{project_id}", response_model=schemas.ProjectOut)
			
 
				-def get_project(project_id: int, db: Session = Depends(get_db)):
			
 
				+def get_project(project_id: str, db: Session = Depends(get_db)):
			
 
				     """Get a single project by ID."""
			
 
				     project = db.query(Project).filter(Project.id == project_id).first()
			
 
				     if not project:
			
@@ -150,7 +150,7 @@ def get_project_by_name(project_name: str, db: Session = Depends(get_db)):
 
				 
			
 
				 @app.get("/projects/{project_id}/versions", response_model=List[schemas.DataVersionOut])
			
 
				 def list_versions(
			
 
				-    project_id: int,
			
 
				+    project_id: str,
			
 
				     stage: Optional[str] = None,
			
 
				     skip: int = 0,
			
 
				     limit: int = 100,
			
@@ -165,7 +165,7 @@ def list_versions(
 
				 
			
 
				 
			
 
				 @app.get("/versions/{version_id}", response_model=schemas.DataVersionOut)
			
 
				-def get_version(version_id: int, db: Session = Depends(get_db)):
			
 
				+def get_version(version_id: str, db: Session = Depends(get_db)):
			
 
				     """Get a single version by ID."""
			
 
				     version = db.query(DataVersion).filter(DataVersion.id == version_id).first()
			
 
				     if not version:
			
@@ -174,7 +174,7 @@ def get_version(version_id: int, db: Session = Depends(get_db)):
 
				 
			
 
				 
			
 
				 @app.get("/versions/{version_id}/files")
			
 
				-def get_version_files(version_id: int, flat: bool = False, db: Session = Depends(get_db)):
			
 
				+def get_version_files(version_id: str, flat: bool = False, db: Session = Depends(get_db)):
			
 
				     """
			
 
				     Get files for a version.
			
 
				     - flat=False (default): Returns tree structure
			
--- a/app/models.py
+++ b/app/models.py
@@ -1,23 +1,31 @@
 
				 from sqlalchemy import Column, Integer, String, Text, ForeignKey, DateTime, BigInteger
			
 
				 from sqlalchemy.orm import relationship
			
 
				 from sqlalchemy.sql import func
			
 
				+from ulid import ULID
			
 
				 from app.database import Base
			
 
				 
			
 
				+
			
 
				+def generate_ulid() -> str:
			
 
				+    """Generate a new ULID string."""
			
 
				+    return str(ULID())
			
 
				+
			
 
				+
			
 
				 class Project(Base):
			
 
				     __tablename__ = "projects"
			
 
				 
			
 
				-    id = Column(Integer, primary_key=True, index=True)
			
 
				+    id = Column(String(26), primary_key=True, default=generate_ulid)
			
 
				     project_name = Column(String(100), unique=True, nullable=False, index=True)
			
 
				     description = Column(Text, nullable=True)
			
 
				     created_at = Column(DateTime(timezone=True), server_default=func.now())
			
 
				 
			
 
				     versions = relationship("DataVersion", back_populates="project")
			
 
				 
			
 
				+
			
 
				 class DataVersion(Base):
			
 
				     __tablename__ = "data_versions"
			
 
				 
			
 
				-    id = Column(Integer, primary_key=True, index=True)
			
 
				-    project_id = Column(Integer, ForeignKey("projects.id"))
			
 
				+    id = Column(String(26), primary_key=True, default=generate_ulid)
			
 
				+    project_id = Column(String(26), ForeignKey("projects.id"))
			
 
				     stage = Column(String(50), nullable=False)
			
 
				     commit_id = Column(String(64), nullable=False)
			
 
				     author = Column(String(50))
			
@@ -27,11 +35,12 @@ class DataVersion(Base):
 
				     project = relationship("Project", back_populates="versions")
			
 
				     files = relationship("DataFile", back_populates="version")
			
 
				 
			
 
				+
			
 
				 class DataFile(Base):
			
 
				     __tablename__ = "data_files"
			
 
				 
			
 
				-    id = Column(Integer, primary_key=True, index=True)
			
 
				-    version_id = Column(Integer, ForeignKey("data_versions.id"))
			
 
				+    id = Column(Integer, primary_key=True, index=True, autoincrement=True)
			
 
				+    version_id = Column(String(26), ForeignKey("data_versions.id"))
			
 
				     relative_path = Column(String(255))
			
 
				     storage_path = Column(String(500))
			
 
				     file_size = Column(BigInteger)
			
--- a/app/schemas.py
+++ b/app/schemas.py
@@ -13,7 +13,7 @@ class ProjectCreate(ProjectBase):
 
				 
			
 
				 
			
 
				 class ProjectOut(ProjectBase):
			
 
				-    id: int
			
 
				+    id: str
			
 
				     created_at: datetime
			
 
				 
			
 
				     class Config:
			
@@ -52,8 +52,8 @@ class DataVersionBase(BaseModel):
 
				 
			
 
				 
			
 
				 class DataVersionOut(DataVersionBase):
			
 
				-    id: int
			
 
				-    project_id: int
			
 
				+    id: str
			
 
				+    project_id: str
			
 
				     created_at: datetime
			
 
				 
			
 
				     class Config:
			
--- a/app/services/storage_service.py
+++ b/app/services/storage_service.py
@@ -22,7 +22,7 @@ class StorageService:
 
				             self.db.refresh(project)
			
 
				         return project
			
 
				 
			
 
				-    def create_version(self, project_id: int, stage: str, commit_id: str, author: str, manifest: str) -> DataVersion:
			
 
				+    def create_version(self, project_id: str, stage: str, commit_id: str, author: str, manifest: str) -> DataVersion:
			
 
				         version = DataVersion(
			
 
				             project_id=project_id,
			
 
				             stage=stage,
			
--- a/requirements.txt
+++ b/requirements.txt
@@ -5,4 +5,5 @@ sqlalchemy
 
				 pymysql
			
 
				 python-dotenv
			
 
				 pyyaml
			
 
				-oss2
			
 
				+oss2
			
 
				+python-ulid
			
--- a/使用指南.md
+++ b/使用指南.md
@@ -0,0 +1,158 @@
 
				+# DataNexus 使用指南
			
 
				+
			
 
				+## 这是什么？
			
 
				+
			
 
				+DataNexus 是一个数据自动归集系统。只要你在项目中配置好 `manifest.yaml`，每次 `git push` 后，系统会自动把你指定的文件上传到云端，并保留历史版本。
			
 
				+
			
 
				+## 快速开始
			
 
				+
			
 
				+### 第一步：在项目根目录创建 manifest.yaml
			
 
				+
			
 
				+```yaml
			
 
				+project_name: "你的项目名"
			
 
				+
			
 
				+stages:
			
 
				+  - name: "环节名称"
			
 
				+    outputs:
			
 
				+      - path: "./要上传的文件或目录/"
			
 
				+```
			
 
				+
			
 
				+### 第二步：正常 git push
			
 
				+
			
 
				+```bash
			
 
				+git add .
			
 
				+git commit -m "your message"
			
 
				+git push
			
 
				+```
			
 
				+
			
 
				+完成！系统会自动处理剩下的事情。
			
 
				+
			
 
				+---
			
 
				+
			
 
				+## manifest.yaml 配置详解
			
 
				+
			
 
				+### 基础示例
			
 
				+
			
 
				+```yaml
			
 
				+project_name: "topic_research"    # 项目唯一标识（必填）
			
 
				+
			
 
				+stages:
			
 
				+  - name: "selection"             # 环节名称（必填）
			
 
				+    outputs:
			
 
				+      - path: "./results/report.csv"           # 上传单个文件
			
 
				+      - path: "./output_images/"               # 上传整个目录
			
 
				+```
			
 
				+
			
 
				+### 完整示例（多环节）
			
 
				+
			
 
				+```yaml
			
 
				+project_name: "topic_research"
			
 
				+
			
 
				+stages:
			
 
				+  # 环节1：选题
			
 
				+  - name: "selection"
			
 
				+    outputs:
			
 
				+      - path: "./results/daily_report.csv"
			
 
				+      - path: "./output_images/"
			
 
				+        pattern: "*.png"                       # 只上传 png 文件
			
 
				+
			
 
				+  # 环节2：数据清洗
			
 
				+  - name: "cleaning"
			
 
				+    outputs:
			
 
				+      - path: "./cleaned_data/"
			
 
				+        pattern: "*.csv"
			
 
				+
			
 
				+  # 环节3：分析报告
			
 
				+  - name: "analysis"
			
 
				+    outputs:
			
 
				+      - path: "./reports/"
			
 
				+```
			
 
				+
			
 
				+### 配置说明
			
 
				+
			
 
				+| 字段 | 必填 | 说明 |
			
 
				+|------|------|------|
			
 
				+| `project_name` | ✅ | 项目唯一标识，建议用英文 |
			
 
				+| `stages` | ✅ | 环节列表 |
			
 
				+| `stages[].name` | ✅ | 环节名称，如 selection、cleaning、analysis |
			
 
				+| `stages[].outputs` | ✅ | 要上传的文件/目录列表 |
			
 
				+| `outputs[].path` | ✅ | 文件或目录路径（相对于项目根目录） |
			
 
				+| `outputs[].pattern` | ❌ | 文件匹配模式，默认 `*`（匹配所有） |
			
 
				+
			
 
				+### path 写法
			
 
				+
			
 
				+```yaml
			
 
				+# 单个文件
			
 
				+- path: "./data/result.csv"
			
 
				+
			
 
				+# 整个目录（注意结尾的 /）
			
 
				+- path: "./output/"
			
 
				+
			
 
				+# 带匹配模式的目录
			
 
				+- path: "./images/"
			
 
				+  pattern: "*.png"          # 只匹配 png 文件
			
 
				+```
			
 
				+
			
 
				+---
			
 
				+
			
 
				+## 常见问题
			
 
				+
			
 
				+### Q: 每次 push 都会上传所有文件吗？
			
 
				+
			
 
				+不会。系统会对比文件的 SHA 值，只有内容发生变化的文件才会被上传。
			
 
				+
			
 
				+### Q: 历史版本会被覆盖吗？
			
 
				+
			
 
				+不会。每次 commit 的文件都会独立存储，可以随时查看历史版本。
			
 
				+
			
 
				+### Q: 文件大小有限制吗？
			
 
				+
			
 
				+建议单个文件不超过 500MB。
			
 
				+
			
 
				+### Q: 支持哪些文件类型？
			
 
				+
			
 
				+支持所有文件类型：csv、xlsx、png、pdf、json 等。
			
 
				+
			
 
				+### Q: 目录下的子目录会被上传吗？
			
 
				+
			
 
				+会。配置目录路径后，会递归上传该目录下的所有文件（包括子目录）。
			
 
				+
			
 
				+---
			
 
				+
			
 
				+## 查看已上传的文件
			
 
				+
			
 
				+### API 接口
			
 
				+
			
 
				+```bash
			
 
				+# 查看所有项目
			
 
				+GET /projects
			
 
				+
			
 
				+# 查看项目的所有版本
			
 
				+GET /projects/{project_id}/versions
			
 
				+
			
 
				+# 查看某个版本的文件列表
			
 
				+GET /versions/{version_id}/files
			
 
				+
			
 
				+# 获取文件下载链接
			
 
				+GET /files/{file_id}/url
			
 
				+```
			
 
				+
			
 
				+### 文件访问地址
			
 
				+
			
 
				+上传的文件可以通过 CDN 直接访问：
			
 
				+
			
 
				+```
			
 
				+https://res-bj.cybertogether.net/data_nexus/{project_name}/{stage}/{commit_id}/{file_path}
			
 
				+```
			
 
				+
			
 
				+---
			
 
				+
			
 
				+## 注意事项
			
 
				+
			
 
				+1. `manifest.yaml` 必须放在项目根目录
			
 
				+2. `path` 路径是相对于项目根目录的
			
 
				+3. 目录路径必须以 `/` 结尾
			
 
				+4. 只有 `git push` 才会触发上传，本地 commit 不会
			
 
				+5. 同一个 commit 重复 push 不会重复上传（幂等性）
			
 
				+
			
 
				+---
			
--- a/实现方案设计文档.md
+++ b/实现方案设计文档.md
@@ -7,7 +7,7 @@
 
				 *   **版本管理真空：** 覆盖式更新导致历史数据无法追溯，依赖关系容易崩溃。
			
 
				 
			
 
				 ## 2. 解决目标 (Objectives)
			
 
				-构建一个“非侵入式”的轻量化中台，实现：
			
 
				+构建一个"非侵入式"的轻量化中台，实现：
			
 
				 1.  **自动归集：** 只要代码 Push 到 Git，系统自动提取该环节产出的数据。
			
 
				 2.  **版本化：** 每次提交产生的成果都被唯一标记，互不覆盖。
			
 
				 3.  **标准化：** 建立统一的数据目录结构。
			
@@ -15,7 +15,7 @@
 
				 
			
 
				 ## 3. 核心约定 (Social Contract / Agreements)
			
 
				 为了实现自动化，团队成员需要达成以下三点共识：
			
 
				-1.  **根目录配置文件：** 每个仓库根目录必须包含 `manifest.yaml`，声明哪些数据需要“上云”。
			
 
				+1.  **根目录配置文件：** 每个仓库根目录必须包含 `manifest.yaml`，声明哪些数据需要"上云"。
			
 
				 2.  **结果文件落盘：** 代码运行后，结果必须产出到仓库目录内的指定位置（不支持读取仓库外的绝对路径）。
			
 
				 3.  **必须执行 Git Push：** 只有 Push 动作会触发中台的数据采集。
			
 
				 
			
@@ -26,17 +26,21 @@
 
				 
			
 
				 ### 4.2 存储方案
			
 
				 *   **元数据存储：** 使用 **MySQL** 记录项目、环节、版本、文件索引。
			
 
				-*   **物理存储（二选一）：**
			
 
				-    *   **方案 A（推荐初始使用）：** **服务器本地文件系统**。直接写入服务器磁盘（如 `/data/storage`），简单高效，适合文本和小文件。
			
 
				-    *   **方案 B（进阶）：** **对象存储 (OSS/MinIO)**。如果未来文件量大或需要可视化预览更方便，可无缝迁移至 MinIO。
			
 
				-*   **核心原则：** 数据库只存“路径”和“元数据”，不存文件内容。
			
 
				+*   **物理存储：** 使用 **阿里云 OSS + CDN** 存储文件内容。
			
 
				+    *   文件上传到 OSS，通过 CDN 加速访问
			
 
				+    *   CDN 域名：`https://res-bj.cybertogether.net`
			
 
				+    *   访问方式：`{CDN_URL}/{OSS_KEY}`
			
 
				+*   **核心原则：** 数据库只存"OSS Key"和"元数据"，不存文件内容。
			
 
				 
			
 
				-### 4.3 数据获取机制 (核心变更)
			
 
				+### 4.3 数据获取机制 (按需获取)
			
 
				 *   **弃用 `git clone`：** 全量克隆效率低且浪费空间。
			
 
				-*   **采用 Gogs REST API：**
			
 
				+*   **弃用全量文件树：** 不再获取整个仓库的文件树，避免大仓库性能问题。
			
 
				+*   **采用按需获取策略：**
			
 
				     1.  通过 API 获取 `manifest.yaml` (Raw Content)。
			
 
				-    2.  根据 Manifest 解析出文件列表。
			
 
				-    3.  通过 API 获取文件 Git SHA，**仅下载发生变更的文件**。
			
 
				+    2.  解析 Manifest 获取 `outputs` 配置。
			
 
				+    3.  **单文件配置**：直接调用 Contents API 获取该文件信息（包含 SHA）。
			
 
				+    4.  **目录配置**：仅获取该目录下的文件树，递归遍历子目录。
			
 
				+    5.  根据 SHA 判断是否需要下载。
			
 
				 
			
 
				 ### 4.4 增量更新逻辑 (Smart Deduplication)
			
 
				 为了节省存储空间并提高效率，采用 **Git Blob SHA** 进行指纹比对。
			
@@ -54,31 +58,29 @@
 
				 *   查询某文件的历史版本时，通过 `relative_path` 向前查询 `data_files` 表即可。
			
 
				 
			
 
				 ### 4.5 存储结构可视化 (Visualization)
			
 
				-最终在服务器磁盘（或 OSS Bucket）上的目录结构将是完全扁平且语义化的，通过 **Commit ID** 实现版本物理隔离。
			
 
				+最终在 OSS Bucket 上的目录结构将是完全扁平且语义化的，通过 **Commit ID** 实现版本物理隔离。
			
 
				 
			
 
				-**目录树示例：**
			
 
				+**OSS Key 结构：**
			
 
				 ```text
			
 
				-/opt/datahub/storage/
			
 
				-├── topic_research/              <-- 项目名 (Project Name)
			
 
				-│   ├── selection/               <-- 环节名 (Stage)
			
 
				-│   │   ├── a1b2c3d4/            <-- [版本1] Commit ID (2023-10-01)
			
 
				-│   │   │   ├── daily_report.csv
			
 
				-│   │   │   └── output_images/
			
 
				-│   │   │       ├── 001.png
			
 
				-│   │   │       └── 002.png
			
 
				-│   │   │
			
 
				-│   │   └── e5f6g7h8/            <-- [版本2] Commit ID (2023-10-05)
			
 
				-│   │       ├── daily_report.csv
			
 
				-│   │       └── output_images/
			
 
				-│   │           ├── 001.png
			
 
				-│   │           └── 003.png
			
 
				-│   │
			
 
				-│   └── cleaning/                <-- 另一个环节
			
 
				-│       └── ...
			
 
				-└── ...
			
 
				-```
			
 
				-*   **物理隔离：** 即使两个 versions 的 `daily_report.csv` 同名，它们也分别位于不同的 commit 文件夹下的，互不冲突。
			
 
				-*   **版本回溯：** 数据库中存储 `Commit ID -> /path/to/file` 的映射，想要回滚只需查库找到对应的文件夹即可。
			
 
				+{prefix}/{project_name}/{stage}/{commit_id}/{relative_path}
			
 
				+```
			
 
				+
			
 
				+**示例：**
			
 
				+```text
			
 
				+data_nexus/topic_research/selection/a1b2c3d4/daily_report.csv
			
 
				+data_nexus/topic_research/selection/a1b2c3d4/output_images/001.png
			
 
				+data_nexus/topic_research/selection/e5f6g7h8/daily_report.csv
			
 
				+```
			
 
				+
			
 
				+**访问 URL：**
			
 
				+```
			
 
				+https://res-bj.cybertogether.net/data_nexus/topic_research/selection/a1b2c3d4/daily_report.csv
			
 
				+```
			
 
				+
			
 
				+### 4.6 并发处理
			
 
				+*   **异步处理：** Webhook 请求立即返回，文件处理在后台异步执行。
			
 
				+*   **独立 Session：** 每个后台任务创建独立的数据库 Session，避免请求结束后 Session 被关闭的问题。
			
 
				+*   **多仓库并发：** 支持多个仓库同时推送 Webhook，各自独立处理。
			
 
				 
			
 
				 ## 5. 详细设计 (Detailed Design)
			
 
				 
			
@@ -118,34 +120,41 @@ outputs:
 
				 ```
			
 
				 
			
 
				 ### 5.2 数据库建模 (MySQL)
			
 
				+
			
 
				+**ID 策略：**
			
 
				+*   `projects` 和 `data_versions` 表使用 **ULID**（26 位字符串），便于数据迁移和分布式场景。
			
 
				+*   `data_files` 表使用自增 ID，因为文件记录量大且通常跟随 version 迁移。
			
 
				+
			
 
				 ```sql
			
 
				 CREATE TABLE `projects` (
			
 
				-  `id` INT PRIMARY KEY AUTO_INCREMENT,
			
 
				+  `id` VARCHAR(26) PRIMARY KEY,           -- ULID
			
 
				   `project_name` VARCHAR(100) NOT NULL UNIQUE,
			
 
				   `description` TEXT,
			
 
				   `created_at` TIMESTAMP DEFAULT CURRENT_TIMESTAMP
			
 
				 );
			
 
				 
			
 
				 CREATE TABLE `data_versions` (
			
 
				-  `id` INT PRIMARY KEY AUTO_INCREMENT,
			
 
				-  `project_id` INT,
			
 
				+  `id` VARCHAR(26) PRIMARY KEY,           -- ULID
			
 
				+  `project_id` VARCHAR(26),               -- 外键关联 projects.id
			
 
				   `stage` VARCHAR(50) NOT NULL,
			
 
				-  `commit_id` VARCHAR(64) NOT NULL, -- Git 的 Commit Hash
			
 
				+  `commit_id` VARCHAR(64) NOT NULL,       -- Git 的 Commit Hash
			
 
				   `author` VARCHAR(50),
			
 
				-  `manifest_snapshot` TEXT,        -- 存储当时的 manifest.yaml 内容
			
 
				+  `manifest_snapshot` TEXT,               -- 存储当时的 manifest.yaml 内容
			
 
				   `created_at` TIMESTAMP DEFAULT CURRENT_TIMESTAMP,
			
 
				-  INDEX(project_id, stage)
			
 
				+  INDEX(project_id, stage),
			
 
				+  FOREIGN KEY (project_id) REFERENCES projects(id)
			
 
				 );
			
 
				 
			
 
				 CREATE TABLE `data_files` (
			
 
				-  `id` INT PRIMARY KEY AUTO_INCREMENT,
			
 
				-  `version_id` INT,
			
 
				-  `relative_path` VARCHAR(255),    -- 原始相对路径
			
 
				-  `storage_path` VARCHAR(500),     -- 在服务器上的绝对存储路径
			
 
				+  `id` INT PRIMARY KEY AUTO_INCREMENT,    -- 自增 ID
			
 
				+  `version_id` VARCHAR(26),               -- 外键关联 data_versions.id
			
 
				+  `relative_path` VARCHAR(255),           -- 原始相对路径
			
 
				+  `storage_path` VARCHAR(500),            -- OSS Key
			
 
				   `file_size` BIGINT,
			
 
				-  `file_type` VARCHAR(20),         -- 扩展名
			
 
				-  `file_sha` VARCHAR(64),          -- [新增] 文件的 Git Blob SHA，用于去重
			
 
				+  `file_type` VARCHAR(20),                -- 扩展名
			
 
				+  `file_sha` VARCHAR(64),                 -- 文件的 Git Blob SHA，用于去重
			
 
				   `created_at` TIMESTAMP DEFAULT CURRENT_TIMESTAMP,
			
 
				+  INDEX(file_sha),
			
 
				   FOREIGN KEY (version_id) REFERENCES data_versions(id)
			
 
				 );
			
 
				 ```
			
@@ -153,27 +162,95 @@ CREATE TABLE `data_files` (
 
				 ### 5.3 中台后端逻辑流 (WorkFlow)
			
 
				 中台应用接收到 Gogs Webhook 请求后，执行以下步骤：
			
 
				 
			
 
				-1.  **接收事件：** 获取仓库信息 (`owner`, `repo`) 和 `commit_id`。
			
 
				-2.  **获取清单 (API)：**
			
 
				+1.  **接收事件：** 获取仓库信息 (`owner`, `repo`) 和 `commit_id`，立即返回响应。
			
 
				+2.  **后台处理：** 在独立的后台任务中执行以下操作：
			
 
				+3.  **获取清单 (API)：**
			
 
				     *   调用 Gogs API: `GET /{owner}/{repo}/raw/{commit_id}/manifest.yaml`
			
 
				     *   若响应 404，则该次提交不包含数据，直接结束。
			
 
				-3.  **解析清单：** 读取 YAML，解析出 `project_name` 和 `stages` 配置。
			
 
				-4.  **获取文件树：** 调用 Gogs Tree API 获取该 commit 下所有文件及其 Blob SHA。
			
 
				+4.  **解析清单：** 读取 YAML，解析出 `project_name` 和 `stages` 配置。
			
 
				 5.  **遍历 Stages：** 对每个 stage 执行以下操作：
			
 
				-    *   创建 `data_versions` 记录。
			
 
				-    *   遍历该 stage 的 `outputs` 配置，匹配文件树中的文件。
			
 
				-6.  **变更检测与处理：** 对每个匹配的文件：
			
 
				+    *   **幂等性检查：** 查询是否已存在相同 project + stage + commit_id 的记录，若存在则跳过。
			
 
				+    *   创建 `data_versions` 记录（自动生成 ULID）。
			
 
				+    *   遍历该 stage 的 `outputs` 配置。
			
 
				+6.  **按需获取文件信息：**
			
 
				+    *   **单文件**：调用 Contents API 获取文件信息（包含 SHA）。
			
 
				+    *   **目录**：调用 Contents API 递归获取目录下所有文件。
			
 
				+7.  **变更检测与处理：** 对每个匹配的文件：
			
 
				     *   **查询历史：** 在 `data_files` 表中查找同一项目 + 同一 stage + 同一文件路径的**最新一条记录**。
			
 
				     *   **对比 SHA：**
			
 
				         *   **如果 SHA 相同：** 文件未变更，**跳过不记录**。
			
 
				-        *   **如果 SHA 不同（或无历史）：** 文件有变更，执行下载并在 `data_files` 表中新增记录。
			
 
				-7.  **文件下载与落盘：**
			
 
				-    *   仅当文件发生变更时，调用 Raw API 下载内容。
			
 
				-    *   将下载的数据流写入本地磁盘。
			
 
				-    *   **路径隔离：** 严格按照 `/{project}/{stage}/{commit_id}/{filename}` 隔离。
			
 
				+        *   **如果 SHA 不同（或无历史）：** 文件有变更，执行下载并上传到 OSS。
			
 
				+8.  **文件上传：**
			
 
				+    *   调用 Raw API 下载文件内容。
			
 
				+    *   上传到 OSS，Key 格式：`{prefix}/{project}/{stage}/{commit_id}/{relative_path}`
			
 
				+    *   在 `data_files` 表中新增记录，`storage_path` 存储 OSS Key。
			
 
				+
			
 
				+## 6. API 接口设计
			
 
				+
			
 
				+### 6.1 Webhook 接口
			
 
				+```
			
 
				+POST /webhook
			
 
				+```
			
 
				+接收 Gogs Push 事件，支持 HMAC-SHA256 签名验证。
			
 
				+
			
 
				+### 6.2 项目接口
			
 
				+```
			
 
				+GET /projects                    # 列出所有项目
			
 
				+GET /projects/{project_id}       # 获取单个项目（ID 为 ULID）
			
 
				+GET /projects/name/{name}        # 按名称获取项目
			
 
				+```
			
 
				+
			
 
				+### 6.3 版本接口
			
 
				+```
			
 
				+GET /projects/{project_id}/versions?stage=xxx  # 列出项目版本，可按 stage 过滤
			
 
				+GET /versions/{version_id}                      # 获取单个版本（ID 为 ULID）
			
 
				+GET /versions/{version_id}/files?flat=true      # 获取版本文件（树形/扁平）
			
 
				+```
			
 
				+
			
 
				+### 6.4 文件接口
			
 
				+```
			
 
				+GET /files/{file_id}            # 获取文件元数据（ID 为自增整数）
			
 
				+GET /files/{file_id}/url        # 获取文件 CDN URL
			
 
				+GET /files/{file_id}/content    # 重定向到 CDN URL 下载
			
 
				+```
			
 
				+
			
 
				+## 7. 配置项
			
 
				+
			
 
				+### 7.1 环境变量
			
 
				+```bash
			
 
				+# 数据库配置
			
 
				+DB_HOST=localhost
			
 
				+DB_PORT=3306
			
 
				+DB_USER=root
			
 
				+DB_PASSWORD=xxx
			
 
				+DB_NAME=data_nexus
			
 
				+
			
 
				+# Gogs 配置
			
 
				+GOGS_URL=https://git.example.com
			
 
				+GOGS_TOKEN=xxx
			
 
				+GOGS_SECRET=                    # Webhook 签名密钥（可选）
			
 
				+
			
 
				+# OSS 配置
			
 
				+OSS_ACCESS_KEY_ID=xxx
			
 
				+OSS_ACCESS_KEY_SECRET=xxx
			
 
				+OSS_ENDPOINT=oss-cn-hangzhou.aliyuncs.com
			
 
				+OSS_BUCKET_NAME=xxx
			
 
				+OSS_PREFIX=data_nexus
			
 
				+OSS_CDN_URL=https://res-bj.cybertogether.net
			
 
				+```
			
 
				+
			
 
				+## 8. 约定细节补充 (Constraints)
			
 
				+*   **幂等性：** 同一 Commit ID + Stage 若重复触发，系统会检查数据库，若已存在则跳过。
			
 
				+*   **安全性：** 使用 Gogs Token 进行 API 认证，支持 Webhook 签名验证。
			
 
				+*   **大文件：** 建议单文件大小控制在 500MB 以内。OSS 支持大文件，但下载时间会较长。
			
 
				 
			
 
				+## 9. 技术栈
			
 
				 
			
 
				-## 6. 约定细节补充 (Constraints)
			
 
				-*   **文件冲突：** 同一 Commit ID 若重复触发，系统应先检查数据库，若已存在则跳过，防止重复占用空间。
			
 
				-*   **安全性：** 中台服务器需要配置好访问 Gogs 的 SSH Key，以便有权限拉取私有仓库代码。
			
 
				-*   **大文件：** 考虑到仅使用 MySQL，单文件大小建议控制在 500MB 以内。如果未来有超大文件（如几个GB），建议再考虑挂载 NAS。
			
 
				+| 组件 | 技术选型 |
			
 
				+|------|----------|
			
 
				+| Web 框架 | FastAPI |
			
 
				+| 数据库 | MySQL + SQLAlchemy |
			
 
				+| HTTP 客户端 | httpx (异步) |
			
 
				+| 对象存储 | 阿里云 OSS |
			
 
				+| ID 生成 | ULID (python-ulid) |
			
 
				+| 配置管理 | python-dotenv |