[TOC]

YOLO26-Dual 项目手册#

写在前面#

YOLO26-Dual此项目名字就是临时起意取的，YOLO项目推出了最新的26版本（模仿苹果这一块\.）本项目基于YOLO26仓库修改而来，理论上支持后续YOLO版本（只要结构不变）。Dual意为“双重”，所以拼接一下就“临时起意”了一个YOLO26-Dual

本仓库目前仅供内部学习使用，设为Private状态。

本项目通过Vibe Coding实现。

本说明文档将使你学会：

刚接触 YOLO 也能独立跑通；
做实验能稳定复现并横向对比融合模块；
后续接手维护有明确的排障与同步路线。

1. 项目定位与边界#

1.1 项目功能#

一句话：

YOLO26-Dual = 双骨干（RGB/IR）+ 多层融合（P3/P4/P5）+ YOLO 检测头。

与单流基线 YOLO 相比，变化点是：

输入从单张图变成 rgb + ir 双流输入；
Backbone 分成两条独立分支（权重不共享）；
在多尺度位置做融合，融合模块可替换；
训练器/验证器/推理器都走双流逻辑。

1.2 Can / Can’t#

Can#

Detect 任务下的 RGB+IR 双流训练、验证、推理；
多种融合模块配置的可行性验证与实验；
支持 IR 缺失时灰度回退，保证流程可跑；
支持 DDP，让训练更迅速。

Can’t#

不建议开启 compile=True (动态图与自定义路由的兼容性可能会出现问题)；
不建议开启 multi_scale>0（我们需要让图像素级对齐，对rgb变换了不能保证对ir也变换）；

多尺度训练（Multi-scale）的原理：在训练过程中，每隔几个 batch，训练器会随机改变输入图像的尺寸（例如从 640 改为 512 或 768），以增强模型对不同尺度目标的鲁棒性。
不建议在双流训练时使用非同步几何增强（原因基本同上）；

几何增强：包括随机旋转（Rotation）、平移（Translation）、剪切（Shear）、翻转（Flip）、以及 Mosaic（马赛克拼图）和 MixUp 等改变像素位置的操作。
以 detect 为主，其他任务暂不作为本项目目标（实则是其他任务的代码没改，不保证能用）。

1.3 设计原则#

opt-in 设计：只有命中双流条件（如 dual_stream: True / rgbir 配置）才进入双流路径；
向后兼容：不影响单流 YOLO 的正常训练与推理；
可替换融合层：融合模块通过在注册表中注册管理，便于实验与扩展；
最小侵入改造：尽量复用原生解析器与头部结构，降低上游同步成本，便于上游仓库Ultralytics更新时同步更新。

2. 快速开始#

2.1 环境#

1
cd YOLO26-Dual
2
conda create -n yolo26dual python=3.10 -y
3
conda activate yolo26dual
4
pip install -U pip
5
pip install -e .

如需测试依赖：

1
pip install -e ".[dev]"

2.2 数据准备（以 LLVIP 数据集为示例，可替换为任意 RGB+IR 数据集）#

1
python scripts/prepare_llvip.py

prepare_llvip.py 此脚本可将 LLVIP 数据集处理为本项目可用的路径结构。

每个数据集对数据存放的格式不同，对此强烈建议让AI帮你处理。详见本文AI提示词部分。

2.3 健康检查#

1
python scripts/verify_dataset.py --data ultralytics/cfg/datasets/LLVIP.yaml
2
python scripts/verify_all_modules.py
3
python scripts/audit_tfblock_gates.py
4
pytest tests/test_dual_stream.py -v

verify_dataset.py 此脚本用于快速检查数据集配置文件是否符合双流YOLO训练需要。

verify_all_modules.py 生产环境中无用，

作用：全模块普查。
详情：它会自动遍历项目中定义的所有融合模块，挨个加载并跑一次前向传播和反向传播。
目的：确保每个模块都没语法错误，且梯度能回传，防止某个冷门模块坏了没人发现。但是生产环境会有人每次运行前检查所有融合模块吗？

2.4 跑一个 10 epoch baseline#

这里假定你本地安装好了修改后的Ultralytics库，已经切换了环境

1
yolo detect train \
2
  model=ultralytics/cfg/models/26/yolo26-rgbir.yaml \
3
  data=ultralytics/cfg/datasets/LLVIP.yaml \
4
  epochs=10 imgsz=640 batch=16 device=0 \
5
  optimizer=AdamW compile=False multi_scale=0 augment=False \
6
  project=runs/detect name=baseline_10e

注：这里用 LLVIP.yaml 只是示例。若你使用 KAIST / FLIR / M3FD 或自建数据集，只需要把 data=... 换成对应 YAML，并确保配置文件中包含 ir_train / ir_val 字段。

3. 双流架构全景图#

flowchart TB A[RGB Input] --> B1["Backbone RGB"] C[IR Input] --> B2["Backbone IR"] B1 --> D1["P3 RGB"] B1 --> D2["P4 RGB"] B1 --> D3["P5 RGB"] B2 --> E1["P3 IR"] B2 --> E2["P4 IR"] B2 --> E3["P5 IR"] D1 --> F1["Fusion@P3"] E1 --> F1 D2 --> F2["Fusion@P4"] E2 --> F2 D3 --> F3["Fusion@P5"] E3 --> F3 F1 --> G["Dual-stream Head/FPN"] F2 --> G F3 --> G G --> H["Detect Output"]

解读这张图：

双骨干独立提特征；
融合发生在 P3/P4/P5；
Head 部位仍是 YOLO 家族思路，只是输入换成了融合特征；
模块替换主要发生在 Fusion 层，而不需要将整个 head 重写。

4. 代码落点总览#

4.1 路由入口#

ultralytics/models/yolo/model.py
- _is_dual_stream()：判断是否双流
- task_map：双流 detect 路由到专用 model/trainer/validator/predictor

4.2 模型解析与前向核心#

ultralytics/nn/tasks.py
- _FUSION_REGISTRY：融合模块映射表
- parse_dual_stream_model()：构建双骨干+融合+头
- parse_dual_stream_head()：融合输出接入 head
- DualStreamDetectionModel：_predict_once() 和 loss()
- 关键实现：把所有层拼成 flat Sequential 的 self.model，确保 stride / EMA / state_dict 与 Ultralytics 主流程兼容

4.3 数据与训练验证#

ultralytics/data/dataset.py
- YOLODualStreamDataset
ultralytics/models/yolo/detect/train.py
- DualStreamDetectionTrainer
ultralytics/models/yolo/detect/val.py
- DualStreamDetectionValidator
ultralytics/models/yolo/detect/dual_stream_predict.py
- DualStreamPredictor

4.4 融合模块实现#

ultralytics/nn/modules/block.py
- 基础：ChannelFusion / AddFusion / TransformerFusion
- 注意力块：TransformerFusionBlock
- 扩展方法：TFusion、CombinedFusionBlocks、SFEG、CAFF、ICFusion、MaxFusion、ConcatFusion、Add、DFSC、CSSA

4.5 双流判定与解析流程#

判定逻辑（`_is_dual_stream()`）#

1
if self._is_dual_stream():
2
    task_map["detect"] = {
3
        "model": DualStreamDetectionModel,
4
        "trainer": DualStreamDetectionTrainer,
5
        "validator": DualStreamDetectionValidator,
6
        "predictor": DetectionPredictor  # MVP 回退
7
    }

模型会从这几类信息判断是否走双流路由：

配置文件名是否包含 rgbir；
YAML 里是否有 dual_stream: True；
已加载模型是否是 DualStreamDetectionModel。

解析流程（`parse_dual_stream_model`）#

flowchart TD A["读取双流YAML"] --> B["parse_model 构建 RGB backbone"] A --> C["parse_model 构建 IR backbone"] B --> D["按 fusion 配置构建融合层"] C --> D D --> E["parse_dual_stream_head 构建 head"] E --> F["组装为 DualStreamDetectionModel"]

这块是上游同步后最容易被覆写的逻辑之一，在同步合并冲突时一定优先核对。

4.6 修改文件清单#

文件路径	修改类型	说明
`nn/modules/block.py`	新增	`TFBlock`, `TFusion`, `Combined`, `SFEG`, `CAFF`, `ICFusion`, `MAxFusion`, `Concat`, `Add`, `DFSC`, `CSSA` 等 11 个融合模块
`nn/modules/__init__.py`	修改	导出新增的融合模块
`nn/tasks.py`	新增	`parse_dual_stream_model()`, `parse_dual_stream_head()`, `DualStreamDetectionModel`
`cfg/models/26/yolo26-rgbir-*.yaml`	新建	11 个实验性双流模型配置 (`tfblock-all`, `tfusion`, `sfeg` 等)
`cfg/datasets/LLVIP.yaml`	新建	LLVIP 双流数据集配置
`data/dataset.py`	新增	`YOLODualStreamDataset` 类
`models/yolo/detect/train.py`	新增	`DualStreamDetectionTrainer` 类
`models/yolo/detect/val.py`	新增	`DualStreamDetectionValidator` 类
`models/yolo/model.py`	修改	`_is_dual_stream()` 方法 + 双流 `task_map` 路由
`tests/test_dual_stream.py`	新建	双流专用测试套件

5. 数据链路全生命周期#

如果你只会“跑命令”，但不理解数据是怎么走的，后面遇到 bug 会非常痛苦。

双流数据在训练中的生命周期如下：

sequenceDiagram participant DS as YOLODualStreamDataset participant CL as collate_fn participant TR as DualStreamDetectionTrainer participant MO as DualStreamDetectionModel DS->>DS: 读取 RGB 图 DS->>DS: 按同名规则找 IR 图 alt 找到IR DS->>DS: 加载真实 IR else 未找到IR DS->>DS: RGB转灰度作为伪IR end DS->>DS: LetterBox 对齐 + CHW + /255 DS->>CL: labels["img"], labels["ir_img"] CL->>CL: stack 成 batch["img"], batch["ir_img"] CL->>TR: 进入训练器 preprocess_batch TR->>TR: ir_img to(device) + dtype处理 TR->>MO: loss(batch) MO->>MO: _predict_once({"rgb": img, "ir": ir_img}) MO-->>TR: loss tuple

关键张量形状（默认）可按下面理解：

阶段	张量	形状示例
Dataset 输出	`img`	`(3, H, W)`
Dataset 输出	`ir_img`	`(3, H, W)`
Collate 后	`batch["img"]`	`(B, 3, H, W)`
Collate 后	`batch["ir_img"]`	`(B, 3, H, W)`
进入模型	`{"rgb": img, "ir": ir_img}`	双输入 dict

额外说明（验证阶段）：

验证器基类默认是 model(batch["img"]) 单输入；
双流验证器会在 forward 前注入 model._ir_cache；
模型从 _ir_cache 读取 IR，完成双流验证路径。

这就是为什么 val.py 里有 IR 注入逻辑。

6. 数据准备与配置（以 LLVIP 为例）#

6.1 示例：LLVIP 结构#

1
datasets/LLVIP/
2
├── rgb/
3
│   ├── train/
4
│   │   └── images/
5
│   │       ├── 000001.jpg
6
│   │       └── ...
7
│   └── val/
8
│       └── images/
9
│           └── ...
10
├── ir/
11
│   ├── train/
12
│   │   └── images/
13
│   │       ├── 000001.jpg
14
│   │       └── ...
15
│   └── val/
16
│       └── images/
17
│           └── ...
18
└── rgb/
19
    ├── train/
20
    │   └── labels/
21
    │       ├── 000001.txt
22
    │       └── ...
23
    └── val/
24
        └── labels/
25
            └── ...

硬约束：

RGB 与 IR 必须同名配对；
标注在 RGB 路径下（YOLO 规则）；
IR 路径仅存图像，不存 labels。

6.2 数据 YAML#

ultralytics/cfg/datasets/LLVIP.yaml：

1
path: ../datasets/LLVIP
2
train: rgb/train/images
3
val: rgb/val/images
4
ir_train: ir/train/images
5
ir_val: ir/val/images
6
names:
7
  0: person

⚠️ 注意：如果不写 ir_train / ir_val，你跑出来的是“伪双流”（RGB 转灰度作为 IR）。

如果找不到对应的 IR 图像，系统自动使用 *灰度回退*（将 RGB 转为灰度图并复制到 3 通道作为合成 IR）。适用于管线验证，但实际效果需要真实 IR 数据。

6.3 自定义数据集YAML模板#

1
path: ../datasets/YourDataset
2
train: rgb/train/images
3
val: rgb/val/images
4
ir_train: ir/train/images
5
ir_val: ir/val/images
6
names:
7
  0: person
8
  1: car

如果你的原始数据不是这个结构，先写一个预处理脚本把目录整理成这个格式再训练。（可让 AI 帮忙完成）

6.4 避免隐式失败：数据集校验工具#

由于 YOLODualStreamDataset 在找不到 IR 图像时会静默回退到灰度图，这可能导致你误以为自己在跑双流，实际跑的是“假双流”。

强烈建议在训练前运行校验脚本：

1
python scripts/verify_dataset.py --data ultralytics/cfg/datasets/LLVIP.yaml

绿色 ✅ Success：说明所有 RGB 都有对应的 IR 图片。
红色 ❌ Failed：会列出缺失 IR 的文件名。

7. 训练前的核心规则#

这四条不要省，省了大概率踩坑：

规则1：`optimizer != "Muon"`#

原因：TransformerFusionBlock 包含 1D 可学习参数 (LearnableCoefficient, LearnableWeights)，Muon 优化器要求参数为 2D。

可选的优化器类型：SGD, Adam, RMSprop.

不要用 auto。因为 auto 策略有时会根据模型结构自动切到 Muon或其他实验性优化器，为了避免不可控的报错，还是建议显式指定。

规则2：`compile=False`#

原因：双流路径包含自定义路由，当前阶段不建议 compile。

规则3：`multi_scale=0`#

原因：RGB/IR 需要同步缩放，异步会破坏配准。

规则4：`augment=False`#

原因：几何增强若不双流同步，错配会直接污染训练。当前实现里也不建议把 Mosaic/MixUp 直接用于 IR 分支。

8. 训练#

8.1 路线总览#

flowchart TD A["环境+数据准备"] --> B["审计与单测"] B --> C["10 epoch 基线"] C --> D["加入融合模块"] D --> E["Top-2/Top-3长训 50-100e"] E --> F["结果汇总与结论"]

8.2 第一阶段：健康检查#

1
python scripts/verify_dataset.py --data ultralytics/cfg/datasets/LLVIP.yaml
2
pytest tests/test_dual_stream.py -v

8.3 第二阶段：基线短训#

1
yolo detect train \
2
  model=ultralytics/cfg/models/26/yolo26-rgbir.yaml \
3
  data=ultralytics/cfg/datasets/LLVIP.yaml \
4
  epochs=10 imgsz=640 batch=16 device=0 \
5
  optimizer=AdamW compile=False multi_scale=0 augment=False \
6
  project=runs/detect name=baseline_10e

或使用Python脚本类型：

1
model.train(
2
    data="LLVIP.yaml",
3
    epochs=100,
4
    imgsz=640,
5
    batch=64,                # 2×RTX 3090 (24GB) 推荐
6
    device="0,1",            # 多卡 DDP 训练
7
    optimizer="AdamW",       # 必须
8
    workers=8,
9
    compile=False,           # 必须关闭
10
    multi_scale=0,           # 必须关闭
11
    augment=False,           # 推荐关闭
12
    close_mosaic=10,
13
)

8.4 第三阶段：正式训练（以 TransformerFusionBlock为例）#

1
python scripts/train_fusion_tfblock.py

该脚本脚本里有 batch 回退（64→32→16），比手动盲试更稳。

备注：当前脚本默认 device="0,1"（双卡）。如果你只有一张卡，建议先改成 device="0" 再跑。

8.5 理解训练日志#

训练过程中你会常见到这些字段：

字段	说明
`Epoch`	当前/总 epoch
`GPU_mem`	每卡 GPU 显存使用
`box_loss`	边框回归损失 (越小越好)
`cls_loss`	分类损失 (越小越好)
`dfl_loss`	分布焦点损失 (越小越好)
`Instances`	当前批次中的目标实例数
`Size`	输入图像尺寸

如果 loss 明显下降但 mAP 长时间不动，优先检查：

数据标注与配对是否正确；
是否出现了“伪双流”（IR 没真正参与）；
学习率和 batch 是否过激导致震荡。

指标	说明
`Box(P)`	精确率 (Precision)
`R`	召回率 (Recall)
`mAP50`	IoU=0.5 时的均值平均精度
`mAP50-95`	IoU=0.5:0.95 的均值平均精度 (主要指标)

8.6 资源与规模参考（经验之谈）#

GPU 配置	建议 Batch Size	预估显存
1×RTX 3090 (24GB)	32	~16 GB
2×RTX 3090 (24GB)	64	~16 GB/卡
1×RTX 4090 (24GB)	32	~16 GB
1×A100 (80GB)	128	~50 GB

参数量参考（示例）#

根据当前 artifacts/tfblock_all/final_report.md：

TFBlock-All（n-scale）总参数量约 24.7M；
结构中 TransformerFusionBlock 数量为 3。

9. 融合模块配置#

9.1 常用的索引对照#

骨干层索引	对应层级	常见用途
`4`	P3	高分辨率融合点
`6`	P4	中分辨率融合点
`10`	P5	低分辨率融合点

9.2 配置文件位置#

1
ultralytics/cfg/models/26/
2
├── yolo26-rgbir.yaml                # 基线: ChannelFusion (P3/P4) + TransformerFusion (P5)
3
└── yolo26-rgbir-tfblock-all.yaml    # 实验: TransformerFusionBlock (全阶段)

9.3 基线配置: `yolo26-rgbir.yaml`#

特征层	骨干层索引	分辨率 (640px)	通道数	融合模块	说明
P3	4	80×80 (1/8)	128 (n-scale)	`ChannelFusion`	Concat + 1×1 Conv，轻量高效
P4	6	40×40 (1/16)	128 (n-scale)	`ChannelFusion`	同上
P5	10	20×20 (1/32)	256 (n-scale)	`TransformerFusion`	多头注意力 + FFN

9.4 TFBlock-All 配置: `yolo26-rgbir-tfblock-all.yaml`#

特征层	骨干层索引	分辨率 (640px)	通道数	融合模块	说明
P3	4	80×80 (1/8)	128 (n-scale)	`TransformerFusionBlock`	交叉注意力融合，16×16 网格
P4	6	40×40 (1/16)	128 (n-scale)	`TransformerFusionBlock`	同上
P5	10	20×20 (1/32)	256 (n-scale)	`TransformerFusionBlock`	同上

9.5 融合配置段语法#

1
fusion:
2
  - {rgb_idx: 4,  ir_idx: 4,  module: <模块名>, args: [参数列表]}
3
  - {rgb_idx: 6,  ir_idx: 6,  module: <模块名>, args: [参数列表]}
4
  - {rgb_idx: 10, ir_idx: 10, module: <模块名>, args: [参数列表]}

rgb_idx / ir_idx: 骨干网络输出层索引 (两个骨干结构相同)
module: 融合模块类名 (必须在 _FUSION_REGISTRY 中注册)
args: 传递给模块构造函数的参数

9.6 可用融合模块#

模块	位置	参数	原理
`ChannelFusion`	`nn.modules.block`	`[c_out]`	拼接 + 1×1 Conv
`AddFusion`	`nn.modules.block`	`[c_out]`	投影 + 逐元素加
`TransformerFusion`	`nn.modules.block`	`[c_out, num_heads]`	简单 MHA + FFN
`TransformerFusionBlock`	`nn.modules.block`	`[vert, horz, h]`	交叉注意力 + 空间锚点
`TFusion`	`nn.modules.block`	`[c_out]`	3D 卷积 + 变形卷积
`CombinedFusionBlocks`	`nn.modules.block`	`[c_out]`	多模块集成融合 (Ensemble)
`SFEG`	`nn.modules.block`	`[c_out]`	空间特征提取与门控
`CAFF`	`nn.modules.block`	`[c_out]`	通道注意力特征融合
`ICFusion`	`nn.modules.block`	`[c_out]`	交互式通道融合
`MaxFusion`	`nn.modules.block`	`[]`	逐元素取最大值
`ConcatFusion`	`nn.modules.block`	`[c_out]`	拼接 + 降维 (同 ChannelFusion)
`Add`	`nn.modules.block`	`[]`	简单逐元素加 (无投影)
`DFSC`	`nn.modules.block`	`[c_out]`	密集特征选择卷积
`CSSA`	`nn.modules.block`	`[]`	通道-空间自注意力

当前仓库可直接使用的实验配置：

yolo26n-rgbir-add.yaml -> Add
yolo26n-rgbir-caff.yaml -> CAFF
yolo26n-rgbir-combined.yaml -> CombinedFusionBlocks
yolo26n-rgbir-concatfusion.yaml -> ConcatFusion
yolo26n-rgbir-cssa.yaml -> CSSA
yolo26n-rgbir-dfsc.yaml -> DFSC
yolo26n-rgbir-icfusion.yaml -> ICFusion
yolo26n-rgbir-maxfusion.yaml -> MaxFusion
yolo26n-rgbir-sfeg.yaml -> SFEG
yolo26n-rgbir-tfblock-all.yaml -> TransformerFusionBlock
yolo26n-rgbir-tfusion.yaml -> TFusion

9.7 自定义融合配置示例#

1
# 混合使用不同融合模块
2
fusion:
3
  - {rgb_idx: 4,  ir_idx: 4,  module: ChannelFusion,         args: [512]}
4
  - {rgb_idx: 6,  ir_idx: 6,  module: AddFusion,             args: [512]}
5
  - {rgb_idx: 10, ir_idx: 10, module: TransformerFusionBlock, args: [16, 16, 4]}

9.8 模型规模选择#

模型支持多种规模 (scale)，通过 scales 字段定义：

1
scales:
2
  n: [0.50, 0.25, 1024]   # nano: 深度 0.50, 宽度 0.25, 最大通道 1024
3
  s: [0.50, 0.50, 1024]   # small: 深度 0.50, 宽度 0.50

默认使用 n (nano) 规模。如未在文件名中指定 scale (如 yolo26n-rgbir.yaml)，系统会自动选择 n。

9.9 建议实验策略#

先进行模块可用性验证；
再做 1~3 epoch 快速筛选；
挑 Top 候选做 50~100 epoch 长训；
只比较同条件实验（相同 seed、batch、imgsz、数据划分）。

10. 审计门（G1~G5）与证据#

10.1 审计门定义#

G1：前向传播与形状检查
G2：IR 敏感性（改 IR 后输出应变化）
G3：IR 梯度回流（IR 分支应有梯度）
G4：模型结构检查（例如 TFBlock 数量）
G5：解析器语义审计（AST 级检查）

10.2 当前关键审计指标#

项目	结果
IR sensitivity delta	`159772.03125`
IR grad max	`6.3955717`
parse_model AST Hash	`6971f247988db3686ae172b00eedeac49bc61544cfdd65127b1a494871156845`
10e 验证 best mAP50	`0.0495`
10e 验证 best mAP50-95	`0.0161`

对应文件：

artifacts/tfblock_all/ir_sensitivity.json
artifacts/tfblock_all/ir_grad_flow.json
artifacts/tfblock_all/parse_model_semantic_proof.txt
artifacts/tfblock_all/final_report.md

11. 推理、验证与“假双流”排查#

11.1 验证#

1
from ultralytics import YOLO
2

3
model = YOLO("runs/detect/baseline_10e/weights/best.pt")
4
metrics = model.val(data="ultralytics/cfg/datasets/LLVIP.yaml")
5
print("mAP50:", metrics.box.map50)
6
print("mAP50-95:", metrics.box.map)

11.2 推理（自动配对，隐式IR）#

1
results = model.predict(source="datasets/LLVIP/rgb/val/images/010001.jpg")

11.3 推理（显式 IR）#

1
results = model.predict(
2
    source="datasets/LLVIP/rgb/val/images/010001.jpg",
3
    ir_source="datasets/LLVIP/ir/val/images"
4
)

11.4 AutoBackend 注意事项#

autobackend.py 对 dict 输入（{"rgb":..., "ir":...}）的支持主要面向 PyTorch 后端。

简而言之：

训练/验证/本地 PyTorch 推理没问题；
非 PyTorch 推理后端要额外验证输入路径是否兼容。

12. 常见错误速查#

12.1 `AssertionError: len(G.shape) == 2`#

原因：优化器路径不兼容 1D 参数；
处理：显式 optimizer="AdamW"。

12.2 `Input type Float and weight type Half`#

原因：AMP 下 dtype 不一致；
处理：
1. 融合模块输出 cast 回输入 dtype；
2. 检查双流 loss() 是否在 autocast 上下文中重算 preds。

12.3 `KeyError: 'ir_img'`#

原因：数据配置或加载链路断了；
处理：
- 检查 ir_train/ir_val 是否存在；
- 检查 IR 路径与同名配对是否成立；
- 检查是否走到了 YOLODualStreamDataset。

12.4 输出对 IR 不敏感#

1
python scripts/audit_tfblock_gates.py

重点看 Gate2 与 Gate3。

12.5 `git pull` 后冲突或异常#

先保护本地改动：

1
git add .
2
git commit -m "wip"  # 或 git stash

再进行同步，不要直接硬拉。具体可询问 AI 如何解决。

13. 如何新增融合模块#

建议严格按这 6 步执行：

在 ultralytics/nn/modules/block.py 新增模块类；
在 ultralytics/nn/modules/__init__.py 导出；
在 tasks.py 的 _FUSION_REGISTRY 注册；
如参数签名特殊，在 parse_dual_stream_model() 增加分支；
新建配置 ultralytics/cfg/models/26/yolo26n-rgbir-xxx.yaml；
跑验证脚本与单测。

最小接口模板：

1
class YourFusion(nn.Module):
2
    def __init__(self, c_rgb, c_ir, c_out, **kwargs):
3
        super().__init__()
4
        ...
5

6
    def forward(self, x_rgb, x_ir):
7
        output = ...
8
        return output.to(x_rgb.dtype)  # AMP 兼容建议

解析器里常见的通道处理逻辑（建议保持一致）：

1
c_out = f_args[0] if f_args else c_rgb
2
c_out = make_divisible(min(c_out, max_channels) * width, 8)

如果你想要完整示例（比如 SEFusion 从实现到注册到 YAML），可以直接对照：

docs/zh/融合模块开发指南.md 的完整示例节；
现有实现 ChannelFusion（最简）与 TransformerFusionBlock（复杂）。

14. 上游同步与长期维护#

14.1 同步流程图#

flowchart LR A["fetch upstream"] --> B["merge upstream/main"] B --> C{"有冲突?"} C -- 否 --> D["运行最低验证"] C -- 是 --> E["按冲突高发文件逐个处理"] E --> D D --> F["commit + push"]

14.2 常规命令#

1
git remote add upstream https://github.com/ultralytics/ultralytics.git   # 首次
2
git fetch upstream
3
git log --oneline main..upstream/main | head -20
4
git checkout main
5
git merge upstream/main

14.3 冲突处理最小流程#

当你在合并输出里看到 CONFLICT 或冲突标记时：

1
<<<<<<< HEAD
2
...你的内容...
3
=======
4
...upstream内容...
5
>>>>>>> upstream/main

处理原则：

上游 bugfix/性能修复优先保留；
双流核心能力必须补回；
处理后确认冲突标记已清理干净。

14.4 冲突高发文件#

ultralytics/nn/modules/block.py
ultralytics/nn/tasks.py
ultralytics/models/yolo/model.py
ultralytics/data/dataset.py
ultralytics/models/yolo/detect/train.py
ultralytics/models/yolo/detect/val.py

14.5 合并后的最低验证#

1
python -c "from ultralytics import YOLO; YOLO('ultralytics/cfg/models/26/yolo26-rgbir.yaml'); print('dual build ok')"
2
python -c "from ultralytics import YOLO; YOLO('yolo26n.yaml'); print('single build ok')"
3
python scripts/audit_tfblock_gates.py

14.6 同步频率建议#

场景	建议频率
日常开发	1~2 周一次
准备发版前	发版前至少一次
上游重大版本更新	及时同步
上游安全修复发布	尽快同步

15. 脚本与产物说明#

15.1 常用脚本#

/scripts 下当前常用脚本：

verify_dataset.py：校验 RGB/IR 数据集配对完整性
prepare_llvip.py：LLVIP 解压+结构检查+配对检查
verify_all_modules.py：11 模块前向+梯度可用性检查
audit_tfblock_gates.py：G1~G4 审计
audit_parse_semantic.py：G5 解析器语义审计
train_fusion_tfblock.py：TFBlock 正式训练（含 batch 回退）
train_tfblock.py：smoke/full 入口训练
compare_fusion_feasibility.py：融合可行性对比
generate_fusion_configs.py：批量生成融合配置
audit_fusion_migration.py：迁移模块审计
verify_tfblock_roundtrip.py：权重回环验证

15.2 artifacts 产物#

artifacts/tfblock_all/ 下你会看到这类文件：

文件	含义
`final_report.md`	审计与训练阶段总结
`ir_sensitivity.json`	Gate2 指标
`ir_grad_flow.json`	Gate3 指标
`model_summary.txt`	模型结构摘要
`parse_model_semantic_proof.txt`	AST 哈希证明
`train_10ep_log.txt`	10 epoch 训练日志

建议：跑长训之前至少执行一次 verify_all_modules.py + audit_tfblock_gates.py，并保存对应 artifacts。

新增文件清单与说明#

下面列出项目中所有新增的（不属于原版 YOLOv26 的）文件及其用途。

一、`scripts/` — 脚本目录#

数据准备#

文件	用途
`prepare_llvip.py`	LLVIP 数据集准备脚本。将下载的 LLVIP 压缩包解压并整理为框架要求的标准目录结构（`rgb/train/images`、`ir/train/images`、`labels/` 等）。

审计与测试#

文件	用途
`audit_tfblock_gates.py`	预训练审计门 (G1-G4)。自动执行 4 项必检项：前向传播形状检查 (G1)、IR 敏感性检查 (G2)、IR 梯度回流检查 (G3)、模型摘要验证 (G4)。输出结果到 `artifacts/tfblock_all/`。
`audit_parse_semantic.py`	解析器安全审计 (G5)。对 `parse_model` 函数进行 AST 哈希，生成 `parse_model_semantic_proof.txt`，用于追踪解析器是否被意外修改。
`test_amp_fix.py`	AMP 兼容性测试。对 `TransformerFusionBlock` 进行 5 种混合精度场景的测试（FP32、AMP 训练、Half+Eval、Half+Autocast、FP32+Autocast），验证 dtype 修复是否生效。
`test_2ep_train.py`	2-epoch 快速管线测试。用 DDP 双卡跑 2 个 epoch（含训练 + 验证），验证完整训练管线是否能跑通，不关注精度。
`verify_tfblock_roundtrip.py`	权重往返验证。加载训练保存的 `best.pt`，重新前向传播并与原始推理对比，确保模型保存/加载过程无损。

训练#

文件	用途
`train_tfblock_smoke.py`	烟雾测试 (1 epoch)。最小化训练运行，仅验证从构建模型到完成 1 个 epoch 的整个流程无报错。
`train_tfblock_10ep.py`	10-epoch 效果验证。快速验证训练，用于判断融合模块是否在学习有效特征（loss 是否下降、mAP 是否上升）。
`train_tfblock_full.py`	100-epoch 完整训练。正式训练脚本，含 OOM 自动降 batch 回退机制（64→32→16）。输出日志到 `artifacts/tfblock_all/train_100e_log.txt`。

二、`artifacts/tfblock_all/` — 审计产出物#

文件	来源脚本	内容说明
`model_summary.txt`	`audit_tfblock_gates.py`	模型完整结构摘要（层数、参数量、GFLOPs）
`ir_sensitivity.json`	`audit_tfblock_gates.py`	IR 敏感性检查结果：修改 IR 输入后输出变化量 (Delta)
`ir_grad_flow.json`	`audit_tfblock_gates.py`	梯度回流检查结果：IR 骨干参数的最大梯度值
`parse_model_semantic_proof.txt`	`audit_parse_semantic.py`	`parse_model` 函数的 AST 哈希值，用于追踪代码变更
`git_diff.patch`	手动生成	所有代码改动的 Git diff 补丁文件
`test_2ep_log.txt`	`test_2ep_train.py`	2-epoch DDP 测试的完整日志
`train_10ep_log.txt`	`train_tfblock_10ep.py`	10-epoch 验证训练的完整日志
`final_report.md`	手动编写	TFBlock-All 审计总报告（汇总所有门、训练结果、Bug 修复记录）

三、`ultralytics/cfg/` — 配置文件#

模型配置 (`cfg/models/26/`)#

文件	说明
`yolo26-rgbir.yaml`	基线双流模型。P3/P4 使用 `ChannelFusion`，P5 使用 `TransformerFusion`。
`yolo26-rgbir-tfblock-all.yaml`	TFBlock-All 实验模型。P3/P4/P5 全部使用 `TransformerFusionBlock`（16×16 网格、4 头注意力）。

数据集配置 (`cfg/datasets/`)#

文件	说明
`LLVIP.yaml`	LLVIP RGB+IR 行人检测数据集配置。定义了 RGB/IR 图像路径和类别（1 类: person）。

验证脚本 (`scripts/`)#

文件	用途
`verify_all_modules.py`	全模块验证脚本。自动遍历所有 11 个融合模块的配置文件，验证加载、前向传播形状和反向传播梯度流，确保模块可用性。

新增融合模块配置 (`cfg/models/26/`)#

文件	说明
`yolo26n-rgbir-tfblock-all.yaml`	`TransformerFusionBlock` (交叉注意力)
`yolo26n-rgbir-tfusion.yaml`	`TFusion` (3D 卷积 + DeformConv)
`yolo26n-rgbir-combined.yaml`	`CombinedFusionBlocks` (集成融合)
`yolo26n-rgbir-sfeg.yaml`	`SFEG` (空间特征门控)
`yolo26n-rgbir-caff.yaml`	`CAFF` (通道注意力融合)
`yolo26n-rgbir-icfusion.yaml`	`ICFusion` (交互式通道融合)
`yolo26n-rgbir-maxfusion.yaml`	`MaxFusion` (最大值特征融合)
`yolo26n-rgbir-concatfusion.yaml`	`ConcatFusion` (拼接融合)
`yolo26n-rgbir-add.yaml`	`Add` (直接相加)
`yolo26n-rgbir-dfsc.yaml`	`DFSC` (密集特征选择)
`yolo26n-rgbir-cssa.yaml`	`CSSA` (通道空间注意力)

四、`docs/zh/` — 中文文档#

文件	说明
`rgb_ir_使用说明文档.md`	用户使用手册。面向使用者，涵盖快速开始、数据集准备、模型配置、训练参数、常见问题。
`rgb_ir_修改文档.md`	代码修改记录。记录对 Ultralytics 源码的所有改动点（`block.py`、`tasks.py`、`dataset.py`、`train.py`、`val.py` 等）。
`融合模块开发指南.md`	开发者指南。面向研究者，讲解如何添加自定义融合模块、编写配置文件、准备数据集。含完整 SE-Fusion 示例。

五、`ultralytics/` — 框架源码改动#

以下文件虽属于原版 YOLOv26，但包含了双流功能的新增代码：

文件	新增内容
`nn/modules/block.py`	新增 8 个类：`ChannelFusion`、`AddFusion`、`TransformerFusion`、`TransformerFusionBlock`、`CrossTransformerBlock`、`CrossAttention`、`AdaptivePool2d`、`LearnableWeights`、`LearnableCoefficient`
`nn/modules/__init__.py`	导出上述新增模块
`nn/tasks.py`	新增 `DualStreamDetectionModel` 类、`parse_dual_stream_model` 函数、`_FUSION_REGISTRY` 注册表、`loss()` AMP 兼容修复
`data/dataset.py`	新增 `YOLODualStreamDataset` 类，支持 RGB+IR 图像配对加载和灰度回退
`models/yolo/detect/train.py`	新增 `DualStreamDetectionTrainer` 类，处理双流训练逻辑
`models/yolo/detect/val.py`	新增 `DualStreamDetectionValidator` 类，处理双流验证逻辑
`models/yolo/detect/dual_stream_predict.py`	新建文件。实现 `DualStreamPredictor` 类，处理双流推理时的自动配对与对齐逻辑
`engine/model.py`	修改模型加载逻辑，识别 `dual_stream: True` 配置并路由到双流模型

六、`runs/detect/` — 训练输出（不跟踪）#

此目录已在 .gitignore 中排除，当前保留的结果：

上游同步指南#

本文档说明如何将 Ultralytics 官方仓库的更新同步到本项目。

仓库关系#

1
ultralytics/ultralytics (upstream)    ← 官方上游仓库
2
        │
3
        ├── fork ──→ majianyu2007/YOLO26-Dual (origin)    ← 你的远程仓库
4
        │                      │
5
        │                      └── clone ──→ 本地 /home/mjy/20260215
6
        │
7
        └── 我们的改动：双流 RGB-IR 检测功能

Remote 配置#

1
origin    git@github.com:majianyu2007/YOLO26-Dual.git       ← 你的仓库 (push/fetch)
2
upstream  https://github.com/ultralytics/ultralytics.git     ← 官方上游 (fetch only)

同步步骤#

1. 拉取上游最新代码#

1
git fetch upstream

2. 查看上游有哪些新提交#

1
# 查看上游比你多了多少提交
2
git log --oneline main..upstream/main | head -20

3. 合并上游更新#

1
# 确保在 main 分支
2
git checkout main
3

4
# 合并上游 (推荐用 merge，保留完整历史)
5
git merge upstream/main

如果不想产生 merge commit，也可以用 git rebase upstream/main，但 rebase 风险更高，不推荐新手使用。

4. 解决冲突#

合并时可能会出现冲突（CONFLICT）。以下是最可能冲突的文件和对应的处理策略：

高概率冲突#

文件	我们的改动	处理策略
`ultralytics/nn/modules/block.py`	末尾新增了融合模块 (ChannelFusion, TransformerFusionBlock 等)	保留双方：上游修改的部分用上游的，我们新增在末尾的融合模块代码保留
`ultralytics/nn/tasks.py`	新增了 `DualStreamDetectionModel`、`_FUSION_REGISTRY`、`parse_dual_stream_model`	保留双方：上游改动照收，我们在末尾新增的双流代码保留
`ultralytics/nn/modules/__init__.py`	导出列表新增了融合模块	合并导出列表：上游新增的导出 + 我们新增的融合模块导出

中概率冲突#

文件	我们的改动	处理策略
`ultralytics/data/dataset.py`	末尾新增 `YOLODualStreamDataset`	保留双方
`ultralytics/models/yolo/detect/train.py`	末尾新增 `DualStreamDetectionTrainer`	保留双方
`ultralytics/models/yolo/detect/val.py`	末尾新增 `DualStreamDetectionValidator`	保留双方
`ultralytics/models/yolo/detect/dual_stream_predict.py`	末尾新增 `DualStreamPredictor`	保留双方
`ultralytics/engine/model.py`	修改了模型加载路由逻辑	仔细对比，手动合并

绝不会冲突#

以下文件是我们新增的，上游没有，绝不会冲突：

ultralytics/cfg/models/26/yolo26-rgbir*.yaml
ultralytics/cfg/datasets/LLVIP.yaml
scripts/*
artifacts/*
ultralytics/models/yolo/detect/dual_stream_predict.py
docs/zh/*

5. 冲突解决实操#

当 Git 提示冲突时，打开冲突文件会看到类似：

1
<<<<<<< HEAD
2
我们的代码
3
=======
4
上游的代码
5
>>>>>>> upstream/main

处理原则：

上游的原有代码 → 用上游的版本（他们修 bug、优化性能等）
我们新增的代码 → 保留（双流功能）
同一行的不同修改 → 需逐行判断，通常以上游为准再手动加回我们的改动

1
# 解决所有冲突后
2
git add .
3
git commit -m "merge: sync upstream ultralytics (描述上游更新内容)"
4
git push

6. 验证合并结果#

合并后务必运行以下验证：

1
# 1. 模型能正常构建
2
python -c "from ultralytics import YOLO; m = YOLO('ultralytics/cfg/models/26/yolo26-rgbir.yaml'); print('✅ 基线模型构建成功')"
3

4
# 2. TFBlock 模型能构建
5
python -c "from ultralytics import YOLO; m = YOLO('ultralytics/cfg/models/26/yolo26-rgbir-tfblock-all.yaml'); print('✅ TFBlock 模型构建成功')"
6

7
# 3. 前向传播测试
8
python -c "
9
import torch
10
from ultralytics import YOLO
11
m = YOLO('ultralytics/cfg/models/26/yolo26-rgbir.yaml')
12
m.model.cuda().eval()
13
rgb = torch.randn(1,3,640,640).cuda()
14
ir = torch.randn(1,3,640,640).cuda()
15
with torch.no_grad():
16
    out = m.model({'rgb': rgb, 'ir': ir})
17
print('✅ 前向传播成功')
18
"
19

20
# 4. 标准 YOLO 单流模型不受影响
21
python -c "from ultralytics import YOLO; m = YOLO('yolo11n.pt'); print('✅ 标准模型正常')"

建议的同步频率#

场景	建议频率
日常开发	每 1-2 周同步一次
准备发版	发版前同步一次
上游发布重大版本	及时同步
上游修复了安全漏洞	立即同步

常见问题#

Q: 合并后原有功能不正常了怎么办？#

A: 用 git log --oneline -10 查看最近提交，用 git revert <commit> 回退合并提交。或者用 git reset --hard HEAD~1 完全撤销合并（慎用，会丢失未推送的改动）。

Q: 可以只同步特定文件吗？#

A: 可以用 git checkout upstream/main -- path/to/file 只拉取特定文件，但不推荐，容易造成代码不一致。

Q: upstream 的 main 分支改名了怎么办？#

A: 用 git remote show upstream 查看默认分支名，将命令中的 upstream/main 替换为实际分支名。

RGB+IR 双流融合 — 开发者指南#

适用于: Ultralytics YOLOv26 双流检测框架

本文档面向研究者和开发者，详细讲解如何在本框架中：

添加自己的（或论文中的）融合模块
编写模型配置文件
准备和适配数据集

一、添加自定义融合模块#

1.1 融合模块接口规范#

所有融合模块必须遵循以下接口：

1
class YourFusion(nn.Module):
2
    def __init__(self, c_rgb, c_ir, c_out, **kwargs):
3
        """
4
        Args:
5
            c_rgb (int): RGB 特征通道数 (由解析器自动传入)
6
            c_ir  (int): IR 特征通道数 (由解析器自动传入)
7
            c_out (int): 输出通道数
8
            **kwargs:    其他自定义参数
9
        """
10
        super().__init__()
11
        ...
12

13
    def forward(self, x_rgb, x_ir):
14
        """
15
        Args:
16
            x_rgb (Tensor): RGB 特征, shape (B, C_rgb, H, W)
17
            x_ir  (Tensor): IR 特征,  shape (B, C_ir,  H, W)
18

19
        Returns:
20
            Tensor: 融合后的特征, shape (B, C_out, H, W)
21
        """
22
        ...

关键约束：

__init__ 的前两个参数必须是 c_rgb 和 c_ir，由解析器自动从骨干网络的通道数推断并传入
forward 必须接受两个位置参数 (x_rgb, x_ir)
返回值必须是单个张量，尺寸与输入的空间分辨率一致 (H, W 不变)

1.2 编写模块代码#

在 ultralytics/nn/modules/block.py 文件末尾添加你的模块。以下是现有模块的参考实现：

最简实现：通道融合#

1
class ChannelFusion(nn.Module):
2
    """Concat + 1×1 Conv 融合"""
3

4
    def __init__(self, c_rgb, c_ir, c_out):
5
        super().__init__()
6
        self.conv = Conv(c_rgb + c_ir, c_out, 1)
7

8
    def forward(self, x_rgb, x_ir):
9
        return self.conv(torch.cat([x_rgb, x_ir], dim=1))

中等复杂度：加法融合#

1
class AddFusion(nn.Module):
2
    """投影 + 逐元素相加"""
3

4
    def __init__(self, c_rgb, c_ir, c_out):
5
        super().__init__()
6
        self.proj_rgb = Conv(c_rgb, c_out, 1) if c_rgb != c_out else nn.Identity()
7
        self.proj_ir  = Conv(c_ir,  c_out, 1) if c_ir  != c_out else nn.Identity()
8

9
    def forward(self, x_rgb, x_ir):
10
        return self.proj_rgb(x_rgb) + self.proj_ir(x_ir)

1.3 注册到框架#

完成模块编写后，需要在三个位置注册：

步骤 1: 在 `block.py` 的 `all` 中导出（如有）#

1
# ultralytics/nn/modules/block.py 顶部
2
# 确保你的类名包含在模块的导出列表中

步骤 2: 在 `init.py` 中导出#

1
from .block import (
2
    ...,
3
    YourFusion,  # ← 添加这一行
4
)

步骤 3: 在 `tasks.py` 的 `_FUSION_REGISTRY` 中注册#

1
# ultralytics/nn/tasks.py (约第 1844 行)
2
from ultralytics.nn.modules.block import (..., YourFusion)
3

4
_FUSION_REGISTRY = {
5
    "ChannelFusion": ChannelFusion,
6
    "AddFusion": AddFusion,
7
    "TransformerFusion": TransformerFusion,
8
    "TransformerFusionBlock": TransformerFusionBlock,
9
    "TFBlock": TransformerFusionBlock, # Alias
10
    "TFusion": TFusion,
11
    "Combined": Combined,
12
    "SFEG": SFEG,
13
    "CAFF": CAFF,
14
    "ICFusion": ICFusion,
15
    "MaxFusion": MaxFusion,
16
    "Concat": ConcatFusion, # Alias
17
    "ConcatFusion": ConcatFusion,
18
    "Add": AddFusion, # Alias
19
    "DFSC": DFSC,
20
    "CSSA": CSSA,
21
    "YourFusion": YourFusion,              # ← 添加这一行
22
}

1.4 在解析器中添加实例化逻辑#

打开 ultralytics/nn/tasks.py，找到 parse_dual_stream_model 函数中 Step 3 的融合层构建循环（约第 2032 行）。在 for fi, f_spec in enumerate(fusion_specs) 循环中，已有 4 个分支处理不同模块类型：

1
# ultralytics/nn/tasks.py — parse_dual_stream_model 函数内部
2

3
for fi, f_spec in enumerate(fusion_specs):
4
    c_rgb = bb_ch_map[f_spec["rgb_idx"]]  # 自动获取 RGB 通道数
5
    c_ir = bb_ch_map[f_spec["ir_idx"]]    # 自动获取 IR 通道数
6
    mod_name = f_spec["module"]
7
    mod_cls = _FUSION_REGISTRY[mod_name]
8
    f_args = f_spec.get("args", [])
9

10
    # ---- 以下是各模块的实例化分支 ----
11

12
    if mod_cls is TransformerFusion:
13
        # ... 已有逻辑
14
    elif mod_cls is TransformerFusionBlock:
15
        # ... 已有逻辑
16
    elif mod_cls is ChannelFusion:
17
        c_out = f_args[0] if f_args else c_rgb
18
        c_out = make_divisible(min(c_out, max_channels) * width, 8)
19
        fusion_layers.append(mod_cls(c_rgb, c_ir, c_out))
20

21
    # ---- 添加你的模块分支 ----
22
    elif mod_cls is YourFusion:
23
        c_out = f_args[0] if f_args else c_rgb
24
        c_out = make_divisible(min(c_out, max_channels) * width, 8)
25
        # 从 f_args 中提取你自定义的参数
26
        your_param = f_args[1] if len(f_args) > 1 else default_value
27
        fusion_layers.append(mod_cls(c_rgb, c_ir, c_out, your_param))
28

29
    else:  # 默认分支 (AddFusion 等)
30
        c_out = f_args[0] if f_args else c_rgb
31
        c_out = make_divisible(min(c_out, max_channels) * width, 8)
32
        fusion_layers.append(mod_cls(c_rgb, c_ir, c_out))
33

34
    fused_channels[fi] = c_out  # 记录输出通道数，供 Head 使用

解析器关键说明：

c_rgb 和 c_ir 由解析器自动从骨干网络的输出通道推断，不需要在 YAML 中指定
f_args 对应 YAML 配置中的 args 列表
width 和 max_channels 来自 scales 配置，用于按模型规模缩放通道数
make_divisible(x, 8) 确保通道数是 8 的倍数 (GPU 计算效率)
如果你的模块遵循 (c_rgb, c_ir, c_out) 标准接口，通常可以直接使用 else 默认分支，无需添加专门的 elif

1.5 AMP 混合精度兼容性#

如果你的模块内部使用了以下操作，必须注意 AMP 兼容性：

容易引发问题的操作	原因	解决方案
`nn.LayerNorm`	内部计算强制 FP32	在输出时转回输入 dtype
`torch.softmax`	数值稳定性强制 FP32	同上
`nn.Parameter(torch.FloatTensor(...))`	显式 FP32 初始化	输出前 `.to(input.dtype)`
动态创建 `nn.Conv2d` / `nn.ConvTranspose2d`	新层权重为 FP32	避免在 forward 中创建层

推荐做法：在 forward 方法末尾添加 dtype 安全转换：

1
def forward(self, x_rgb, x_ir):
2
    input_dtype = x_rgb.dtype  # 记录输入 dtype
3

4
    # ... 你的融合逻辑 ...
5

6
    # 确保输出 dtype 与输入一致 (AMP 兼容)
7
    output = output.to(input_dtype)
8
    return output

1.6 完整示例：实现 SE-Fusion 模块#

以下用一个基于 Squeeze-and-Excitation 的融合模块作为完整示例：

第 1 步：编写模块 (`block.py`)#

1
# 在 ultralytics/nn/modules/block.py 末尾添加
2

3
class SEFusion(nn.Module):
4
    """Squeeze-and-Excitation based fusion for dual-stream features.
5

6
    Uses channel attention to adaptively weight RGB and IR features
7
    before element-wise addition.
8

9
    Reference: Hu et al., "Squeeze-and-Excitation Networks", CVPR 2018
10
    """
11

12
    def __init__(self, c_rgb, c_ir, c_out, reduction=16):
13
        """Initialize SEFusion.
14

15
        Args:
16
            c_rgb (int): RGB input channels.
17
            c_ir (int): IR input channels.
18
            c_out (int): Output channels.
19
            reduction (int): SE block channel reduction ratio.
20
        """
21
        super().__init__()
22
        self.proj_rgb = Conv(c_rgb, c_out, 1) if c_rgb != c_out else nn.Identity()
23
        self.proj_ir = Conv(c_ir, c_out, 1) if c_ir != c_out else nn.Identity()
24

25
        # SE block: 学习通道级注意力权重
26
        self.se = nn.Sequential(
27
            nn.AdaptiveAvgPool2d(1),
28
            nn.Flatten(),
29
            nn.Linear(c_out * 2, c_out * 2 // reduction),
30
            nn.ReLU(inplace=True),
31
            nn.Linear(c_out * 2 // reduction, c_out * 2),
32
            nn.Sigmoid(),
33
        )
34

35
    def forward(self, x_rgb, x_ir):
36
        """Fuse features with SE-guided channel attention."""
37
        input_dtype = x_rgb.dtype
38

39
        rgb = self.proj_rgb(x_rgb)
40
        ir = self.proj_ir(x_ir)
41

42
        # 计算通道注意力
43
        combined = torch.cat([rgb, ir], dim=1)  # (B, 2*C_out, H, W)
44
        se_weight = self.se(combined)            # (B, 2*C_out)
45
        B, C2 = se_weight.shape
46
        C = C2 // 2
47
        w_rgb = se_weight[:, :C].view(B, C, 1, 1)
48
        w_ir = se_weight[:, C:].view(B, C, 1, 1)
49

50
        output = rgb * w_rgb + ir * w_ir
51
        return output.to(input_dtype)  # AMP 安全

第 2 步：注册 (`init.py` + `tasks.py`)#

1
# ultralytics/nn/modules/__init__.py — 添加导出
2
from .block import (..., SEFusion)
3

4
# ultralytics/nn/tasks.py — 添加注册
5
from ultralytics.nn.modules.block import (..., SEFusion)
6

7
_FUSION_REGISTRY = {
8
    ...,
9
    "SEFusion": SEFusion,
10
}

第 3 步：添加解析分支 (`tasks.py`)#

1
# 在 parse_dual_stream_model 的融合循环中添加
2
elif mod_cls is SEFusion:
3
    c_out = f_args[0] if f_args else c_rgb
4
    c_out = make_divisible(min(c_out, max_channels) * width, 8)
5
    reduction = f_args[1] if len(f_args) > 1 else 16
6
    fusion_layers.append(mod_cls(c_rgb, c_ir, c_out, reduction))

也可以不添加 elif 分支：如果不需要额外参数，可直接落入 else 默认分支。但如果有自定义参数（如 reduction），建议添加专门分支。

第 4 步：编写 YAML 配置#

1
fusion:
2
  - {rgb_idx: 4,  ir_idx: 4,  module: SEFusion, args: [512, 16]}     # P3, reduction=16
3
  - {rgb_idx: 6,  ir_idx: 6,  module: SEFusion, args: [512, 16]}     # P4
4
  - {rgb_idx: 10, ir_idx: 10, module: SEFusion, args: [1024, 16]}    # P5

第 5 步：测试#

1
from ultralytics import YOLO
2

3
model = YOLO("ultralytics/cfg/models/26/yolo26-rgbir-se.yaml")
4
print(model.model)  # 确认 SEFusion 出现在模型结构中
5

6
# 快速前向测试
7
import torch
8
rgb = torch.randn(1, 3, 640, 640).cuda()
9
ir = torch.randn(1, 3, 640, 640).cuda()
10
model.model.cuda()
11
out = model.model({"rgb": rgb, "ir": ir})
12
print("✅ Forward pass succeeded!")

二、编写模型配置文件#

2.1 配置文件结构#

双流模型 YAML 配置文件包含 5 个主要部分：

1
# ============ 1. 全局参数 ============
2
nc: 80                    # 类别数 (训练时会被 data.yaml 覆盖)
3
end2end: True             # 是否使用端到端检测
4
reg_max: 1                # DFL 回归最大值
5
dual_stream: True         # ⚠️ 必须设为 True，框架据此判断是否构建双流模型
6

7
# ============ 2. 模型规模 ============
8
scales:
9
  n: [0.50, 0.25, 1024]   # [depth_multiple, width_multiple, max_channels]
10
  s: [0.50, 0.50, 1024]
11

12
# ============ 3. 骨干网络 (共享架构) ============
13
backbone:
14
  - [-1, 1, Conv, [64, 3, 2]]        # Layer 0
15
  - [-1, 1, Conv, [128, 3, 2]]       # Layer 1
16
  ...                                 # 与标准 YOLOv26 骨干相同
17

18
# ============ 4. 融合层 ============
19
fusion:
20
  - {rgb_idx: 4,  ir_idx: 4,  module: ChannelFusion,    args: [512]}
21
  - {rgb_idx: 6,  ir_idx: 6,  module: ChannelFusion,    args: [512]}
22
  - {rgb_idx: 10, ir_idx: 10, module: TransformerFusion, args: [1024, 4]}
23

24
# ============ 5. 检测头 ============
25
head:
26
  - [2, 1, nn.Upsample, [None, 2, "nearest"]]   # 索引 0,1,2 指向融合输出
27
  - [[-1, 1], 1, Concat, [1]]
28
  ...

2.2 fusion 段详解#

1
fusion:
2
  - {rgb_idx: 4, ir_idx: 4, module: ChannelFusion, args: [512]}
3
  #  ─────────  ────────  ──────────────────────  ──────────
4
  #     │          │              │                    │
5
  #     │          │              │                    └─ 传给模块的额外参数列表
6
  #     │          │              └─ 模块类名 (必须在 _FUSION_REGISTRY 中)
7
  #     │          └─ IR 骨干输出层索引
8
  #     └─ RGB 骨干输出层索引

参数说明：

字段	类型	说明
`rgb_idx`	int	RGB 骨干的输出层索引（骨干网络层号）
`ir_idx`	int	IR 骨干的输出层索引（通常与 rgb_idx 相同）
`module`	str	融合模块类名
`args`	list	额外参数列表（`c_rgb` 和 `c_ir` 不需要写，解析器自动填入）

2.3 骨干层索引对照表#

标准 YOLOv26 骨干（n-scale）各层输出对照：

层索引	模块	输出通道 (n-scale)	步长	分辨率 (640px)	对应特征层
0	Conv	16	2	320×320	P1
1	Conv	32	4	160×160	P2
2	C3k2	64	4	160×160	—
3	Conv	64	8	80×80	P3
4	C3k2	128	8	80×80	P3 tap ✅
5	Conv	128	16	40×40	P4
6	C3k2	128	16	40×40	P4 tap ✅
7	Conv	256	32	20×20	P5
8	C3k2	256	32	20×20	—
9	SPPF	256	32	20×20	—
10	C2PSA	256	32	20×20	P5 tap ✅

通常只在 P3 (层4)、P4 (层6)、P5 (层10) 处进行融合。这些是 FPN 的标准特征提取点。

2.4 完整配置示例#

1
nc: 80
2
end2end: True
3
reg_max: 1
4
dual_stream: True
5

6
scales:
7
  n: [0.50, 0.25, 1024]
8
  s: [0.50, 0.50, 1024]
9

10
# 骨干: 直接复制标准 YOLOv26 骨干
11
backbone:
12
  - [-1, 1, Conv, [64, 3, 2]]
13
  - [-1, 1, Conv, [128, 3, 2]]
14
  - [-1, 2, C3k2, [256, False, 0.25]]
15
  - [-1, 1, Conv, [256, 3, 2]]
16
  - [-1, 2, C3k2, [512, False, 0.25]]     # Layer 4 → P3
17
  - [-1, 1, Conv, [512, 3, 2]]
18
  - [-1, 2, C3k2, [512, True]]            # Layer 6 → P4
19
  - [-1, 1, Conv, [1024, 3, 2]]
20
  - [-1, 2, C3k2, [1024, True]]
21
  - [-1, 1, SPPF, [1024, 5, 3, True]]
22
  - [-1, 2, C2PSA, [1024]]                # Layer 10 → P5
23

24
# 融合: 你可以混合使用不同模块
25
fusion:
26
  - {rgb_idx: 4,  ir_idx: 4,  module: SEFusion,              args: [512, 16]}
27
  - {rgb_idx: 6,  ir_idx: 6,  module: ChannelFusion,         args: [512]}
28
  - {rgb_idx: 10, ir_idx: 10, module: TransformerFusionBlock, args: [16, 16, 4]}
29

30
# 检测头: 与标准 yolo26-rgbir 完全相同，无需修改
31
# 融合输出索引: 0=P3-fused, 1=P4-fused, 2=P5-fused
32
head:
33
  - [2, 1, nn.Upsample, [None, 2, "nearest"]]
34
  - [[-1, 1], 1, Concat, [1]]
35
  - [-1, 2, C3k2, [512, True]]
36
  - [-1, 1, nn.Upsample, [None, 2, "nearest"]]
37
  - [[-1, 0], 1, Concat, [1]]
38
  - [-1, 2, C3k2, [256, True]]
39
  - [-1, 1, Conv, [256, 3, 2]]
40
  - [[-1, 5], 1, Concat, [1]]
41
  - [-1, 2, C3k2, [512, True]]
42
  - [-1, 1, Conv, [512, 3, 2]]
43
  - [[-1, 2], 1, Concat, [1]]
44
  - [-1, 1, C3k2, [1024, True, 0.5, True]]
45
  - [[8, 11, 14], 1, Detect, [nc]]

三、数据集准备#

3.1 目录结构规范#

双流数据集需要 RGB 和 IR 图像一一对应，目录结构如下：

1
datasets/YourDataset/
2
├── rgb/
3
│   ├── train/
4
│   │   └── images/
5
│   │       ├── 000001.jpg       # RGB 图像
6
│   │       ├── 000002.jpg
7
│   │       └── ...
8
│   └── val/
9
│       └── images/
10
│           └── ...
11
├── ir/
12
│   ├── train/
13
│   │   └── images/
14
│   │       ├── 000001.jpg       # IR 图像 (与 RGB 同名)
15
│   │       ├── 000002.jpg
16
│   │       └── ...
17
│   └── val/
18
│       └── images/
19
│           └── ...
20
└── rgb/
21
    ├── train/
22
    │   └── labels/              # YOLO 格式标注 (写在 RGB 路径下)
23
    │       ├── 000001.txt
24
    │       └── ...
25
    └── val/
26
        └── labels/
27
            └── ...

关键规则：

RGB 和 IR 图像必须同名（用于自动配对）
标注文件 (labels/) 放在 RGB 路径下（标准 YOLO 位置规则：将 images 替换为 labels）
IR 目录下不需要标注文件
图像格式: JPG/PNG 均可，RGB 和 IR 可以不同格式

3.2 数据集配置文件#

1
# 数据集根目录 (绝对路径或相对于项目根目录)
2
path: ../datasets/YourDataset
3

4
# RGB 图像路径 (相对于 path)
5
train: rgb/train/images
6
val: rgb/val/images
7
test:                            # 可选
8

9
# IR 图像路径 (相对于 path)
10
ir_train: ir/train/images
11
ir_val: ir/val/images
12

13
# 类别定义
14
names:
15
  0: person
16
  1: car
17
  2: bicycle

配置文件位置：放在以下任意位置均可

项目根目录: YourDataset.yaml
标准目录: ultralytics/cfg/datasets/YourDataset.yaml

3.3 适配自己的数据集#

场景 1: RGB 和 IR 图像在同一目录但不同前缀/后缀#

如果你的数据集结构是这样的：

1
dataset/
2
├── images/
3
│   ├── 001_rgb.jpg
4
│   ├── 001_ir.jpg
5
│   └── ...
6
└── labels/
7
    ├── 001_rgb.txt
8
    └── ...

需要先用脚本整理成标准结构：

1
"""将非标准数据集转换为双流标准结构"""
2
import shutil
3
from pathlib import Path
4

5
src = Path("dataset/images")
6
dst_rgb = Path("dataset_new/rgb/train/images")
7
dst_ir = Path("dataset_new/ir/train/images")
8
dst_rgb.mkdir(parents=True, exist_ok=True)
9
dst_ir.mkdir(parents=True, exist_ok=True)
10

11
for f in src.glob("*_rgb.*"):
12
    base = f.name.replace("_rgb", "")
13
    shutil.copy(f, dst_rgb / base)
14

15
for f in src.glob("*_ir.*"):
16
    base = f.name.replace("_ir", "")
17
    shutil.copy(f, dst_ir / base)
18

19
# 标注文件同样处理
20
src_labels = Path("dataset/labels")
21
dst_labels = Path("dataset_new/rgb/train/labels")
22
dst_labels.mkdir(parents=True, exist_ok=True)
23

24
for f in src_labels.glob("*_rgb.txt"):
25
    base = f.name.replace("_rgb", "")
26
    shutil.copy(f, dst_labels / base)
27

28
print("✅ 数据集转换完成!")

场景 2: 只有 RGB 数据，想先跑通流程#

系统自动支持灰度回退。只需：

不设置 ir_train / ir_val，或让 IR 路径为空
系统会自动将 RGB 图像转为灰度图作为合成 IR

1
# 最小化配置 (无 IR 数据)
2
path: ../datasets/YourDataset
3
train: images/train
4
val: images/val
5

6
# 不指定 ir_train/ir_val → 自动灰度回退
7

8
names:
9
  0: person

场景 3: RGB 和 IR 分辨率不同#

没问题。框架会在数据加载时将 RGB 和 IR 统一缩放到 imgsz (默认 640×640)。不需要预处理。

场景 4: 使用 KAIST/FLIR 等公开数据集#

请按以下步骤操作：

下载数据集并解压
用 KAIST 标注转换工具将标注转为 YOLO 格式
按照 3.1 的标准结构整理目录
编写 YAML 配置文件

3.4 配对规则与灰度回退#

配对流程：

1
RGB 图像: rgb/train/images/000123.jpg
2
                          │
3
                          ▼ 提取文件名
4
                      000123.jpg
5
                          │
6
                          ▼ 在 ir_train 目录中查找
7
IR 图像: ir/train/images/000123.jpg
8
                          │
9
               ┌──────────┴──────────┐
10
               ▼                     ▼
11
           找到 → 使用真实 IR      找不到 → 灰度回退
12
                                     │
13
                                     ▼
14
                              RGB → 灰度 → 3通道复制

注意事项：

灰度回退是逐图像生效的，即使部分图像缺少 IR 配对也不会报错
训练日志中会输出 ✅ Resolved IR train path 确认路径正确
如果 ir_train 路径不存在，所有图像都会使用灰度回退

四、验证与调试#

快速验证模型构建#

1
from ultralytics import YOLO
2

3
model = YOLO("ultralytics/cfg/models/26/yolo26-rgbir-custom.yaml")
4

5
# 检查模型类型
6
assert type(model.model).__name__ == "DualStreamDetectionModel"
7

8
# 检查融合模块数量
9
fusion_count = len(model.model.fusion)
10
print(f"融合模块数量: {fusion_count}")  # 应为 3
11

12
# 前向传播测试
13
import torch
14
rgb = torch.randn(1, 3, 640, 640).cuda()
15
ir = torch.randn(1, 3, 640, 640).cuda()
16
model.model.cuda().eval()
17
with torch.no_grad():
18
    out = model.model({"rgb": rgb, "ir": ir})
19
print(f"✅ 前向传播成功! 输出键: {list(out.keys()) if isinstance(out, dict) else type(out)}")
20

21
### 推理验证 (Inference)
22

23
本项目已实现 `DualStreamPredictor`，支持直接使用 `model.predict()` 进行双流推理。
24

25
```python
26
from ultralytics import YOLO
27

28
# 加载训练好的双流模型
29
model = YOLO("runs/detect/train/weights/best.pt")
30

31
# 推理: 指定 RGB 图像路径
32
# 系统会自动查找同名的 IR 图像 (替换路径中的 rgb -> ir)
33
# 并自动进行 LetterBox 对齐
34
results = model.predict(source="datasets/LLVIP/rgb/val/images/010001.jpg")
35

36
# 或者显式指定 IR 路径 (高级)
37
results = model.predict(
38
    source="datasets/LLVIP/rgb/val/images/010001.jpg",
39
    ir_source="datasets/LLVIP/ir/val/images/010001.jpg"
40
)
41

42
for r in results:
43
    r.show()  # 显示结果
44
    r.save()  # 保存结果

自动配对规则:

传入 RGB 图像路径
查找路径字符串中的 rgb，替换为 ir
检查替换后的路径是否存在
如果存在，读取并使用 LetterBox 对齐
如果不存在，发出警告并使用 RGB 转灰度作为伪 IR

1
### IR 敏感性测试
2

3
验证 IR 分支是否真正参与计算：
4

5
```python
6
import torch
7

8
model.model.cuda().eval()
9
rgb = torch.randn(1, 3, 640, 640).cuda()
10
ir1 = torch.randn(1, 3, 640, 640).cuda()
11
ir2 = torch.zeros(1, 3, 640, 640).cuda()  # 全零 IR
12

13
with torch.no_grad():
14
    out1 = model.model({"rgb": rgb, "ir": ir1})
15
    out2 = model.model({"rgb": rgb, "ir": ir2})
16

17
# 如果 IR 生效，两次输出应该不同
18
diff = sum((a - b).abs().sum().item() for a, b in zip(out1, out2)
19
           if isinstance(a, torch.Tensor))
20
print(f"IR 敏感性 Delta: {diff}")
21
assert diff > 0, "❌ IR 输入未影响输出，融合模块可能未正常工作"
22
print("✅ IR 分支参与计算，融合模块正常!")

AMP 兼容性测试#

1
import torch
2
from torch.amp import autocast
3

4
model.model.cuda().half().eval()
5
rgb = torch.randn(1, 3, 640, 640).cuda().half()
6
ir = torch.randn(1, 3, 640, 640).cuda().half()
7

8
# 测试 1: Half 模型，无 autocast (验证路径)
9
with torch.no_grad():
10
    try:
11
        out = model.model({"rgb": rgb, "ir": ir})
12
        print("✅ Half + no autocast: PASS")
13
    except RuntimeError as e:
14
        print(f"❌ Half + no autocast: FAIL — {e}")
15
        print("提示: 请在 forward() 末尾添加 output.to(input.dtype)")
16

17
# 测试 2: FP32 模型 + autocast (训练路径)
18
model.model.float()
19
rgb_f = rgb.float()
20
ir_f = ir.float()
21
with autocast("cuda"):
22
    out = model.model({"rgb": rgb_f, "ir": ir_f})
23
    print("✅ FP32 + autocast: PASS")

AI 操作提示词模板#

本文档提供一系列结构化提示词 (Prompt)，用于指导 AI 在本项目中执行常见操作。
使用方式：复制对应提示词，替换 {{占位符}} 中的内容，直接发送给 AI。

目录#

数据集处理提示词
训练脚本生成提示词
融合模块迁移提示词
模型配置文件生成提示词
训练结果分析提示词
Bug 诊断提示词
模型审计提示词
上游冲突解决提示词

1. 数据集处理提示词#

使用场景#

拿到一个新的 RGB+IR 数据集，需要让 AI 编写数据处理脚本并生成配置文件。

提示词模板#

1
我有一个新的 RGB+IR 双流数据集需要接入本项目。请帮我完成以下全部工作：
2

3
## 数据集信息
4
- 数据集名称: {{数据集名称，例如: KAIST}}
5
- 原始数据路径: {{数据所在路径，例如: /home/user/downloads/KAIST_dataset/}}
6
- 原始目录结构:
7
{{粘贴 tree 命令的输出或手动描述目录结构，例如:
8
KAIST_dataset/
9
├── set00/
10
│   ├── V000/
11
│   │   ├── visible/   (RGB 图像)
12
│   │   ├── lwir/      (IR 图像)
13
│   │   └── ...
14
├── annotations/
15
│   └── ...
16
}}
17
- 标注格式: {{YOLO/VOC/COCO/自定义，描述标注文件的格式}}
18
- 类别列表: {{例如: person, car, bicycle}}
19
- 训练/验证划分: {{例如: 已划分/按比例 8:2/按 set 划分}}
20

21
## 必须完成的步骤
22

23
### 步骤 1: 数据处理脚本
24
在 `scripts/` 目录下创建 `prepare_{{数据集名称小写}}.py`，该脚本必须：
25
1. 读取原始数据集目录
26
2. 将 RGB 图像复制/软链接到 `../datasets/{{数据集名称}}/rgb/train/images/` 和 `rgb/val/images/`
27
3. 将 IR 图像复制/软链接到 `../datasets/{{数据集名称}}/ir/train/images/` 和 `ir/val/images/`
28
4. RGB 和 IR 图像必须**同名配对**（文件名相同，扩展名可不同）
29
5. 将标注转换为 YOLO 格式 (`class_id cx cy w h`，归一化坐标) 并放在 `rgb/train/labels/` 和 `rgb/val/labels/`
30
6. 打印统计信息：训练/验证图像数量、类别分布、RGB-IR 配对完整性
31
7. 脚本头部写清楚文档字符串说明用途
32

33
最终目录结构必须严格符合：
34

35
../datasets/{{数据集名称}}/
36
├── rgb/
37
│   ├── train/
38
│   │   ├── images/     ← RGB 训练图像
39
│   │   └── labels/     ← YOLO 格式标注
40
│   └── val/
41
│       ├── images/
42
│       └── labels/
43
└── ir/
44
    ├── train/
45
    │   └── images/     ← IR 训练图像 (与 RGB 同名)
46
    └── val/
47
        └── images/
48

49

50

51
### 步骤 2: 数据集配置文件
52
创建 `ultralytics/cfg/datasets/{{数据集名称}}.yaml`，格式必须严格遵循：
53

54

55
# {{数据集名称}} RGB+IR Dataset
56
path: ../datasets/{{数据集名称}}
57
train: rgb/train/images
58
val: rgb/val/images
59
test:
60

61
ir_train: ir/train/images
62
ir_val: ir/val/images
63

64
names:
65
  0: {{类别0}}
66
  1: {{类别1}}
67

68

69
### 步骤 3: 验证
70
运行处理脚本后，验证：
71
1. RGB 和 IR 的文件数量一致
72
2. 每个 RGB 图像都有对应的 IR 图像（同名检查）
73
3. 每个 RGB 图像都有对应的 labels 文件
74
4. 标注格式正确（YOLO 格式，坐标归一化 0~1）
75

76
## 参考
77
- 现有的处理脚本参考: `scripts/prepare_llvip.py`
78
- 现有的配置文件参考: `ultralytics/cfg/datasets/LLVIP.yaml`
79

80
请先打印原始数据集的目录结构和文件样例，确认理解后再编写脚本。

2. 训练脚本生成提示词#

使用场景#

准备好数据集和模型配置后，需要生成训练脚本。

提示词模板#

1
请为本双流项目生成训练脚本。
2

3
## 训练配置
4
- 模型配置文件: {{例如: ultralytics/cfg/models/26/yolo26-rgbir-tfblock-all.yaml}}
5
- 数据集配置文件: {{例如: LLVIP.yaml 或 ultralytics/cfg/datasets/KAIST.yaml}}
6
- GPU: {{例如: 2×RTX 3090 (24GB)}}
7
- 目标 epochs: {{例如: 100}}
8
- 实验名称: {{例如: kaist_tfblock_exp1}}
9

10
## 强制约束（不可违反）
11
1. 优化器必须使用 `optimizer="AdamW"`（Muon 与 TransformerFusionBlock 的 1D 参数不兼容）
12
2. 必须设置 `compile=False`（双流模型不支持 torch.compile）
13
3. 必须设置 `multi_scale=0`（双流模式不支持多尺度训练）
14
4. 推荐设置 `augment=False`（空间增强会破坏 RGB-IR 像素级对齐）
15

16
## 脚本要求
17
1. 文件路径: `scripts/train_{{实验名称}}.py`
18
2. 必须包含 OOM 自动回退机制：尝试 batch 列表 `[{{最大batch}}, {{次大}}, {{次次大}}]`
19
3. 训练日志输出到 `artifacts/{{实验名称}}/train_log.txt`
20
4. 脚本中使用绝对路径 `os.path.abspath()` 设置 `project` 参数
21
5. 训练参数使用 `model.train()` API，不要手写训练循环
22

23
## 参考
24
- 现有训练脚本模板: `scripts/train_tfblock_full.py`
25

26
## 启动方式
27
脚本创建完成后，告诉我启动命令（格式：`python -u scripts/xxx.py > artifacts/.../train_log.txt 2>&1 &`）
28

29
## 补充信息
30
- Python 环境: {{例如: /home/conda-env/yolov26/bin/python}}
31
- 工作目录: {{例如: /home/mjy/20260215}}

3. 融合模块迁移提示词#

使用场景#

从论文的开源代码中提取融合模块，集成到本项目。

提示词模板#

1
请帮我从以下论文项目中提取融合模块，并集成到本项目的双流 RGB-IR 检测框架中。
2

3
## 源项目信息
4
- 论文名称: {{论文标题}}
5
- GitHub 仓库: {{仓库 URL，例如: https://github.com/xxx/yyy}}
6
- 本地克隆路径: {{例如: /home/user/papers/yyy/}}（如已克隆）
7
- 融合模块大致位置: {{如果知道，例如: models/fusion.py 中的 CrossModalFusion 类；如果不知道，写"未知，请帮我定位"}}
8

9
## 迁移任务（必须按顺序完成）
10

11
### 阶段 1: 定位源代码
12
1. 在源项目中搜索融合相关模块，关键词包括但不限于: `fusion`, `cross`, `modal`, `attention`, `merge`, `interact`
13
2. 找到核心融合类后，分析其 `__init__` 参数和 `forward` 方法的输入输出
14
3. 列出该模块的所有依赖类/函数（递归查找，确保不遗漏）
15
4. 汇报找到的模块名、文件路径、参数列表、forward 签名
16

17
### 阶段 2: 适配接口
18
本项目的融合模块必须遵循以下接口规范（不可违反）：
19

20

21
class YourFusion(nn.Module):
22
    def __init__(self, c_rgb, c_ir, c_out, **extra_args):
23
        """
24
        前两个参数必须是 c_rgb 和 c_ir（由解析器自动传入）。
25
        c_out 为输出通道数。
26
        """
27
        super().__init__()
28
        ...
29

30
    def forward(self, x_rgb, x_ir):
31
        """
32
        Args:
33
            x_rgb: (B, C_rgb, H, W) — RGB 特征
34
            x_ir:  (B, C_ir,  H, W) — IR 特征
35
        Returns:
36
            Tensor: (B, C_out, H, W) — 融合后特征，空间尺寸不变
37
        """
38
        ...
39

40

41
如果源模块的接口与此不同（例如 forward 接受 list 或 tuple），必须进行适配包装。
42

43
### 阶段 3: 代码迁移
44
1. 将融合类及其所有依赖复制到 `ultralytics/nn/modules/block.py` 文件末尾
45
2. 所有 import 必须使用已有的依赖（`torch`, `torch.nn`, `torch.nn.functional`）
46
3. 不得引入新的第三方库
47
4. 如果源模块使用了 `from xxx import Conv` 等，替换为本项目的 `from ultralytics.nn.modules.conv import Conv`
48
5. 避免循环导入：`block.py` 中只能从 `conv.py` 导入
49

50
### 阶段 4: 框架注册（3 个文件）
51
1. `ultralytics/nn/modules/__init__.py` — 在导出列表中添加新类
52
2. `ultralytics/nn/tasks.py` — 在 `_FUSION_REGISTRY` 字典中注册（约第 1844 行）
53
3. `ultralytics/nn/tasks.py` — 在 `parse_dual_stream_model` 函数的融合循环中（约第 2032 行）添加实例化分支：
54

55
   elif mod_cls is YourFusion:
56
       c_out = f_args[0] if f_args else c_rgb
57
       c_out = make_divisible(min(c_out, max_channels) * width, 8)
58
       # 从 f_args 提取额外参数
59
       fusion_layers.append(mod_cls(c_rgb, c_ir, c_out, ...))
60

61

62
### 阶段 5: AMP 兼容性检查
63
如果融合模块内部使用了以下任一操作，必须在 `forward()` 末尾添加 `output = output.to(x_rgb.dtype)`：
64
- `nn.LayerNorm` — 强制 FP32
65
- `torch.softmax` — 强制 FP32
66
- `nn.Parameter(torch.FloatTensor(...))` — 显式 FP32
67
- 在 forward 中动态创建 `nn.Conv2d` / `nn.Linear`
68

69
### 阶段 6: 创建配置文件
70
创建 `ultralytics/cfg/models/26/yolo26-rgbir-{{模块名小写}}.yaml`：
71
- 复制 `yolo26-rgbir.yaml` 的 backbone 和 head 部分（不要修改）
72
- 只修改 `fusion` 段，使用新注册的模块名
73
- `args` 列表中不要写 `c_rgb`/`c_ir`（解析器自动填入），只写额外参数
74

75
### 阶段 7: 验证（不可跳过）
76
1. **构建测试**: `model = YOLO("配置文件路径")` 不报错
77
2. **前向测试**: 用随机张量跑 `model.model({"rgb": rgb, "ir": ir})` 不报错
78
3. **IR 敏感性**: 修改 IR 输入后输出必须变化（delta > 0）
79
4. **AMP 测试**: `model.model.half().eval()` 后前向不报错
80

81
请先完成阶段 1（定位源代码），汇报后等我确认再继续。
82

83
## 参考
84
- 接口规范参考: `docs/zh/融合模块开发指南.md`
85
- 现有融合模块参考: `ultralytics/nn/modules/block.py` 中的 `ChannelFusion` (最简) 和 `TransformerFusionBlock` (最复杂)
86
- 注册表位置: `ultralytics/nn/tasks.py` 第 1844 行 `_FUSION_REGISTRY`

4. 模型配置文件生成提示词#

使用场景#

注册好新融合模块后，需要生成模型配置文件。

提示词模板#

1
请为本项目生成一个新的双流模型配置文件。
2

3
## 配置需求
4
- 融合策略:
5
  - P3 (骨干层 4, stride 8): 使用 {{模块名}} 模块，参数: {{参数列表}}
6
  - P4 (骨干层 6, stride 16): 使用 {{模块名}} 模块，参数: {{参数列表}}
7
  - P5 (骨干层 10, stride 32): 使用 {{模块名}} 模块，参数: {{参数列表}}
8
- 配置文件名: `yolo26-rgbir-{{描述名}}.yaml`
9

10
## 强制约束
11
1. 文件路径必须为: `ultralytics/cfg/models/26/yolo26-rgbir-{{描述名}}.yaml`
12
2. 必须包含 `dual_stream: True`
13
3. backbone 和 head 部分直接从 `yolo26-rgbir.yaml` 复制，不做任何修改
14
4. 只修改 `fusion` 段
15
5. `fusion` 段中的 `args` 列表不要写 `c_rgb` 和 `c_ir`（解析器自动从骨干层输出推断）
16
6. 所有 `module` 名称必须已在 `_FUSION_REGISTRY` 中注册
17

18
## fusion 段格式
19

20
fusion:
21
  - {rgb_idx: 4,  ir_idx: 4,  module: 模块名, args: [额外参数]}
22
  - {rgb_idx: 6,  ir_idx: 6,  module: 模块名, args: [额外参数]}
23
  - {rgb_idx: 10, ir_idx: 10, module: 模块名, args: [额外参数]}
24

25

26
## 创建后验证
27
生成配置文件后，运行以下代码确认无误：
28

29
from ultralytics import YOLO
30
model = YOLO("ultralytics/cfg/models/26/yolo26-rgbir-{{描述名}}.yaml")
31
print(type(model.model).__name__)  # 必须输出 DualStreamDetectionModel
32
print(len(model.model.fusion))     # 必须输出 3
33

34

35
## 参考
36
- 现有配置: `ultralytics/cfg/models/26/yolo26-rgbir.yaml` (基线)
37
- 现有配置: `ultralytics/cfg/models/26/yolo26-rgbir-tfblock-all.yaml` (TFBlock)

5. 训练结果分析提示词#

使用场景#

训练完成后，让 AI 分析训练结果并与基线对比。

提示词模板#

1
请分析本次训练结果并生成报告。
2

3
## 训练信息
4
- 实验名称: {{实验名称}}
5
- 模型配置: {{使用的 YAML 配置文件}}
6
- 数据集: {{数据集名称}}
7
- 训练 epochs: {{数量}}
8
- 训练日志路径: {{例如: artifacts/xxx/train_log.txt}}
9
- 结果 CSV 路径: {{例如: runs/detect/xxx/results.csv}}
10
- 基线对比结果 (如有): {{基线的 mAP50/mAP50-95 数值，或基线 results.csv 路径}}
11

12
## 必须分析的内容
13

14
### 1. 收敛性分析
15
- 绘制 loss 曲线趋势（box_loss, cls_loss, dfl_loss）
16
- 判断是否收敛、是否过拟合（对比 train loss 和 val loss）
17
- 标注最佳 epoch
18

19
### 2. 精度分析
20
- 提取关键指标: mAP50, mAP50-95, Precision, Recall
21
- 绘制 mAP 随 epoch 变化曲线
22
- 标注最佳 mAP50 和对应的 epoch
23

24
### 3. 对比分析 (如有基线)
25
- 制作对比表格: 基线 vs 本次实验
26
- 分析各指标的提升/下降幅度（百分比）
27
- 给出明确结论: 新融合模块是否优于基线
28

29
### 4. 建议
30
- 如果效果不佳，分析可能原因并给出调优建议
31
- 如果效果良好，建议下一步（更多 epochs、更大模型、消融实验等）
32

33
## 输出
34
将分析报告写入 `artifacts/{{实验名称}}/analysis_report.md`

6. Bug 诊断提示词#

使用场景#

训练过程中遇到报错，需要 AI 诊断修复。

提示词模板#

1
训练过程中出现了以下错误，请帮我诊断并修复。
2

3
## 错误信息

1
## 训练配置
2
- 模型配置: {{YAML 文件路径}}
3
- 数据集: {{数据集名称}}
4
- GPU: {{GPU 型号和数量}}
5
- Batch size: {{数值}}
6
- 崩溃时的 epoch/batch: {{例如: epoch 1, batch 433/866}}
7

8
## 上下文
9
- 训练阶段还是验证阶段崩溃: {{train/val}}
10
- 是否使用 DDP 多卡: {{是/否}}
11
- 是否首次运行就报错: {{是/否，如果否，说明之前成功运行了多久}}
12

13
## 项目关键信息（帮助你定位问题）
14
- 融合模块代码: `ultralytics/nn/modules/block.py`（搜索对应的类名）
15
- 模型解析器: `ultralytics/nn/tasks.py`（`DualStreamDetectionModel` 类和 `parse_dual_stream_model` 函数）
16
- 损失计算: `DualStreamDetectionModel.loss()` 方法（位于 `tasks.py` 约第 2288 行）
17
- 训练器: `ultralytics/models/yolo/detect/train.py` (`DualStreamDetectionTrainer`)
18
- 验证器: `ultralytics/models/yolo/detect/val.py` (`DualStreamDetectionValidator`)
19
- 数据加载: `ultralytics/data/dataset.py` (`YOLODualStreamDataset`)
20

21
## 常见问题速查
22
1. `RuntimeError: Input type (Float) and weight type (Half)` → AMP dtype 问题，检查融合模块中的 LayerNorm/softmax 是否有 dtype cast
23
2. `AssertionError: len(G.shape) == 2` → Muon 优化器不兼容，改用 `optimizer="AdamW"`
24
3. `KeyError: 'ir_img'` → 数据集配置缺少 `ir_train`/`ir_val` 字段
25
4. `RuntimeError: Expected all tensors on the same device` → DDP 下设备不一致，检查 forward 中是否有 hardcoded device
26

27
请先分析 Traceback 定位到出错的具体代码行，然后说明根因和修复方案，最后直接修改代码。

7. 模型审计提示词#

使用场景#

新融合模块集成后，执行标准化审计验证。

提示词模板#

1
请对新集成的融合模块执行标准审计。
2

3
## 审计信息
4
- 模型配置: {{YAML 文件路径}}
5
- 融合模块类名: {{例如: SEFusion}}
6

7
## 必须通过的审计门（不可跳过任何一项）
8

9
### G1: 前向传播测试
10
- 构建模型并执行前向传播
11
- 输入: 随机 RGB (1,3,640,640) 和 IR (1,3,640,640)
12
- 验证: 不报错且输出形状合理
13

14
### G2: IR 敏感性测试
15
- 用相同 RGB + 不同 IR 执行两次前向
16
- 验证: 两次输出的差异 > 0（证明 IR 分支参与了计算）
17

18
### G3: 梯度回流测试
19
- 对输出计算 loss 并反向传播
20
- 验证: IR 骨干的参数梯度不为零（证明梯度能流过融合模块到 IR 骨干）
21

22
### G4: 模型摘要
23
- 打印完整模型摘要（层数、参数量、GFLOPs）
24
- 验证: 融合模块的实例数量正确（通常为 3，对应 P3/P4/P5）
25

26
### G5: AMP 兼容性
27
- 测试 1: FP32 前向 → 必须 PASS
28
- 测试 2: FP32 + autocast → 必须 PASS
29
- 测试 3: Half + eval (无 autocast) → 必须 PASS（这是验证时的路径）
30
- 测试 4: Half + autocast → 必须 PASS
31

32
## 输出
33
1. 将审计脚本写入 `scripts/audit_{{模块名小写}}.py`
34
2. 运行脚本并汇报结果（PASS/FAIL 表格）
35
3. 如有 FAIL，先修复代码再重新审计
36

37
## 参考
38
- 现有审计脚本: `scripts/audit_tfblock_gates.py`
39
- 现有 AMP 测试: `scripts/test_amp_fix.py`

8. 上游冲突解决提示词#

使用场景#

执行 git merge upstream/main 后出现冲突，需要 AI 帮助解决。

提示词模板#

1
我在同步上游 Ultralytics 仓库 (`upstream/main`) 到本项目时出现了 Git 合并冲突，请帮我逐个解决。
2

3
## 项目背景
4
本项目是基于 Ultralytics YOLOv26 的 fork，新增了 **RGB+IR 双流检测功能**。我们的改动集中在以下方面：
5
- 新增融合模块（ChannelFusion, AddFusion, TransformerFusion, TransformerFusionBlock 等）
6
- 新增双流模型架构（DualStreamDetectionModel, parse_dual_stream_model）
7
- 新增双流数据加载（YOLODualStreamDataset）
8
- 新增双流训练/验证器（DualStreamDetectionTrainer, DualStreamDetectionValidator）
9

10
## 当前冲突文件列表
11

12
{{粘贴 git diff --name-only --diff-filter=U 的输出}}
13

14

15
## 强制约束（不可违反）
16

17
### 优先级规则
18
1. **上游的 Bug 修复和性能优化** → 必须采纳（用上游的版本）
19
2. **我们新增的双流功能代码** → 必须保留（不能丢失）
20
3. **双方都修改了同一行** → 以上游为准，然后手动将我们的功能加回去
21
4. **上游删除了我们修改过的代码** → 需要仔细分析，将我们的功能适配到上游的新写法
22

23
### 受保护的代码区域（绝对不能删除）
24
以下代码是我们双流功能的核心，合并时**绝对不能丢失**：
25

26
**`ultralytics/nn/modules/block.py`:**
27
- `ChannelFusion` 类
28
- `AddFusion` 类
29
- `TransformerFusion` 类
30
- `TransformerFusionBlock` 类及其依赖: `CrossTransformerBlock`, `CrossAttention`, `AdaptivePool2d`, `LearnableWeights`, `LearnableCoefficient`
31
- 所有上述类都位于文件**末尾**，通常不会与上游冲突
32

33
**`ultralytics/nn/tasks.py`:**
34
- `_FUSION_REGISTRY` 字典（约第 1844 行）
35
- `parse_dual_stream_model()` 函数
36
- `parse_dual_stream_head()` 函数
37
- `DualStreamDetectionModel` 类（包括其 `__init__`, `_predict_once`, `loss` 方法）
38
- `loss()` 方法中的 `torch.amp.autocast("cuda")` 包装（AMP 修复，不能删除）
39

40
**`ultralytics/nn/modules/__init__.py`:**
41
- 导出列表中的: `ChannelFusion`, `AddFusion`, `TransformerFusion`, `TransformerFusionBlock`, `CrossTransformerBlock`, `CrossAttention`, `AdaptivePool2d`, `LearnableWeights`, `LearnableCoefficient`
42

43
**`ultralytics/data/dataset.py`:**
44
- `YOLODualStreamDataset` 类
45

46
**`ultralytics/models/yolo/detect/train.py`:**
47
- `DualStreamDetectionTrainer` 类
48

49
**`ultralytics/models/yolo/detect/val.py`:**
50
- `DualStreamDetectionValidator` 类
51

52
**`ultralytics/engine/model.py`:**
53
- `dual_stream: True` 路由逻辑
54

55
### 处理流程（逐文件执行）
56
对每个冲突文件，请按以下步骤操作：
57

58
1. **查看冲突内容**: 打开文件，找到所有 `<<<<<<<` / `=======` / `>>>>>>>` 标记
59
2. **分类冲突**: 判断每处冲突属于以下哪种情况：
60
   - (A) 上游修改了原有代码，我们没改 → 直接用上游版本
61
   - (B) 我们新增了代码，上游没有 → 保留我们的代码
62
   - (C) 双方都修改了同一段 → 以上游为基础，手动合并我们的改动
63
   - (D) 上游重构/移动了代码位置 → 将我们的功能适配到新位置
64
3. **解决冲突**: 编辑文件，删除冲突标记，保留正确内容
65
4. **向我汇报**: 每个文件解决后，说明每处冲突的分类 (A/B/C/D) 和处理方式
66

67
### 完成后的验证（全部必须通过）
68

69
# 1. 无冲突标记残留
70
grep -rn '<<<<<<< \|======= \|>>>>>>> ' ultralytics/ && echo '❌ 仍有冲突标记!' || echo '✅ 无冲突标记'
71

72
# 2. 基线双流模型构建
73
python -c "from ultralytics import YOLO; m = YOLO('ultralytics/cfg/models/26/yolo26-rgbir.yaml'); print('✅ 基线模型 OK')"
74

75
# 3. TFBlock 模型构建
76
python -c "from ultralytics import YOLO; m = YOLO('ultralytics/cfg/models/26/yolo26-rgbir-tfblock-all.yaml'); print('✅ TFBlock 模型 OK')"
77

78
# 4. 前向传播
79
python -c "
80
import torch
81
from ultralytics import YOLO
82
m = YOLO('ultralytics/cfg/models/26/yolo26-rgbir.yaml')
83
m.model.cuda().eval()
84
rgb = torch.randn(1,3,640,640).cuda()
85
ir = torch.randn(1,3,640,640).cuda()
86
with torch.no_grad():
87
    out = m.model({'rgb': rgb, 'ir': ir})
88
print('✅ 前向传播 OK')
89
"
90

91
# 5. 标准单流模型不受影响
92
python -c "from ultralytics import YOLO; m = YOLO('yolo11n.yaml'); print('✅ 单流模型 OK')"
93

94
# 6. 融合注册表完整性
95
python -c "
96
from ultralytics.nn.tasks import _FUSION_REGISTRY
97
required = ['ChannelFusion', 'AddFusion', 'TransformerFusion', 'TransformerFusionBlock']
98
for r in required:
99
    assert r in _FUSION_REGISTRY, f'❌ {r} 未注册!'
100
print(f'✅ 融合注册表完整: {list(_FUSION_REGISTRY.keys())}')
101
"
102

103

104
全部验证通过后，执行：
105

106
git add .
107
git commit -m "merge: sync upstream ultralytics ({{简要描述上游更新内容}})"
108
git push
109

110

111
## 参考
112
- 上游同步完整流程文档: `docs/zh/上游同步指南.md`
113
- 我们改动的文件完整列表: `docs/zh/新增文件清单.md` 第五节

使用建议#

按顺序使用: 数据集处理 → 模型配置 → 训练脚本 → 训练 → 结果分析
替换占位符: 所有 {{...}} 必须替换为实际值
分阶段确认: 融合模块迁移提示词设计为分阶段执行，每阶段完成后确认再继续
保留上下文: 同一个任务的多个提示词建议在同一个对话中使用，AI 能保持上下文

音乐

音乐

项目手册 | YOLO26-Dual 从0到1复现、融合实验与维护全流程

YOLO26-Dual 项目手册#

写在前面#

1. 项目定位与边界#

1.1 项目功能#

1.2 Can / Can’t#

Can#

Can’t#

1.3 设计原则#

2. 快速开始#

2.1 环境#

2.2 数据准备（以 LLVIP 数据集为示例，可替换为任意 RGB+IR 数据集）#

2.3 健康检查#

2.4 跑一个 10 epoch baseline#

3. 双流架构全景图#

4. 代码落点总览#

4.1 路由入口#

4.2 模型解析与前向核心#

4.3 数据与训练验证#

4.4 融合模块实现#

4.5 双流判定与解析流程#

判定逻辑（_is_dual_stream()）#

解析流程（parse_dual_stream_model）#

4.6 修改文件清单#

5. 数据链路全生命周期#

6. 数据准备与配置（以 LLVIP 为例）#

6.1 示例：LLVIP 结构#

6.2 数据 YAML#

6.3 自定义数据集YAML模板#

6.4 避免隐式失败：数据集校验工具#

7. 训练前的核心规则#

规则1：optimizer != "Muon"#

规则2：compile=False#

规则3：multi_scale=0#

规则4：augment=False#

8. 训练#

8.1 路线总览#

8.2 第一阶段：健康检查#

8.3 第二阶段：基线短训#

8.4 第三阶段：正式训练 （以 TransformerFusionBlock为例）#

8.5 理解训练日志#

8.6 资源与规模参考（经验之谈）#

推荐 batch（640 输入）#

参数量参考（示例）#

9. 融合模块配置#

9.1 常用的索引对照#

9.2 配置文件位置#

9.3 基线配置: yolo26-rgbir.yaml#

9.4 TFBlock-All 配置: yolo26-rgbir-tfblock-all.yaml#

9.5 融合配置段语法#

9.6 可用融合模块#

9.7 自定义融合配置示例#

9.8 模型规模选择#

9.9 建议实验策略#

10. 审计门（G1~G5）与证据#

10.1 审计门定义#

10.2 当前关键审计指标#

11. 推理、验证与“假双流”排查#

11.1 验证#

11.2 推理（自动配对，隐式IR）#

11.3 推理（显式 IR）#

11.4 AutoBackend 注意事项#

12. 常见错误速查#

12.1 AssertionError: len(G.shape) == 2#

12.2 Input type Float and weight type Half#

12.3 KeyError: 'ir_img'#

12.4 输出对 IR 不敏感#

12.5 git pull 后冲突或异常#

13. 如何新增融合模块#

14. 上游同步与长期维护#

14.1 同步流程图#

14.2 常规命令#

14.3 冲突处理最小流程#

14.4 冲突高发文件#

14.5 合并后的最低验证#

14.6 同步频率建议#

15. 脚本与产物说明#

15.1 常用脚本#

判定逻辑（`_is_dual_stream()`）#

解析流程（`parse_dual_stream_model`）#

规则1：`optimizer != "Muon"`#

规则2：`compile=False`#

规则3：`multi_scale=0`#

规则4：`augment=False`#

8.4 第三阶段：正式训练（以 TransformerFusionBlock为例）#

9.3 基线配置: `yolo26-rgbir.yaml`#

9.4 TFBlock-All 配置: `yolo26-rgbir-tfblock-all.yaml`#

12.1 `AssertionError: len(G.shape) == 2`#

12.2 `Input type Float and weight type Half`#

12.3 `KeyError: 'ir_img'`#

12.5 `git pull` 后冲突或异常#

一、`scripts/` — 脚本目录#

二、`artifacts/tfblock_all/` — 审计产出物#

三、`ultralytics/cfg/` — 配置文件#

模型配置 (`cfg/models/26/`)#

数据集配置 (`cfg/datasets/`)#

验证脚本 (`scripts/`)#

新增融合模块配置 (`cfg/models/26/`)#

四、`docs/zh/` — 中文文档#

五、`ultralytics/` — 框架源码改动#

六、`runs/detect/` — 训练输出（不跟踪）#

步骤 1: 在 `block.py` 的 `all` 中导出（如有）#

步骤 2: 在 `init.py` 中导出#

步骤 3: 在 `tasks.py` 的 `_FUSION_REGISTRY` 中注册#

第 1 步：编写模块 (`block.py`)#

第 2 步：注册 (`init.py` + `tasks.py`)#

第 3 步：添加解析分支 (`tasks.py`)#