【论文阅读 | arXiv 2026 | SLGNet:结构先验与语言引导调制协同的多模态目标检测框架】

5346 字
27 分钟
【论文阅读 | arXiv 2026 | SLGNet:结构先验与语言引导调制协同的多模态目标检测框架】

[TOC]

01 论文信息#

  • 论文题目: SLGNet: Synergizing Structural Priors and Language-Guided Modulation for Multimodal Object Detection
  • 论文作者: Xiantai Xiang, Guangyao Zhou, Zixiao Wen, Wenshuai Li, Ben Niu, Feng Wang, Lijia Huang, Qiantong Wang, Yuhan Liu, Zongxu Pan, Yuxin Hu
  • 发表单位:
    • Aerospace Information Research Institute, Chinese Academy of Sciences
    • Key Laboratory of Target Cognition and Application Technology, Chinese Academy of Sciences
    • University of Chinese Academy of Sciences
    • Xi’an Jiaotong University
  • 发表会议\期刊: arXiv preprint, 2026
  • arXiv: https://arxiv.org/abs/2601.02249
  • 代码链接: 暂未在论文首页与当前可见公开信息中确认到可信的官方开源仓库

02 论文主要贡献#

2.1 关键判断#

  1. 这篇工作本质上是 RGB-T 检测论文,不是图像融合论文。 它关注的是多模态目标检测里的参数高效迁移、结构保持和环境感知,不是先生成一张融合图再做下游任务。
  2. 作者抓得很准的痛点有两个。 一是冻结 ViT 后,普通 adapter 更偏语义迁移,容易把检测真正依赖的边缘、轮廓和局部几何信息弄丢;二是现有 RGB-T 融合策略大多是静态的,缺少对环境变化的显式感知。
  3. SLGNet 的核心不是简单堆两个模块,而是把两个问题拆开处理。 下支路用结构先验补几何细节,上支路用语言引导做环境感知调制,两条支路分工很清楚。
  4. 这篇文章最有价值的地方,是把 VLM 从“生成描述”变成“调制检测特征”的上层控制信号。 它不直接做 open-vocabulary detection,也不直接拿文本分类,而是把结构化 caption 转成通道级 affine modulation 参数。
  5. 从结果看,它确实不是只靠大模型包装概念。 LLVIP、FLIR、KAIST、DroneVehicle 四个数据集都有提升,而且参数量明显低于 full fine-tuning。

2.2 一句话概括#

SLGNet 想做的事很直接。

冻结一个 RGB 预训练 ViT 主干,再额外挂两套轻量模块,一套专门补结构,一套专门看环境,最后把这台只会看 RGB 的大模型,改造成一个更适合 RGB-T 检测的多模态检测器。


03 论文创新点#

  1. 提出双流参数高效适配框架。 在冻结 ViT 基础模型的前提下,把多模态适配拆成结构先验注入和语言引导调制两条路径,目标是同时兼顾精度、泛化和训练效率。
  2. 提出 Structure-Aware Adapter。 该模块通过 Structure Encoder 从 RGB 与红外中提取多尺度结构先验,再通过 Feature Fusion Adapter 注入到多级 ViT 表征里,显式补偿 patch 化和下采样导致的结构退化。
  3. 提出 Language-Guided Modulation。 作者先让 VLM 生成结构化 caption,再用 CLIP 文本编码器将其变成语义先验,最后通过通道级 affine modulation 对视觉特征做动态重标定。
  4. 在多个 RGB-T 检测基准上达到较强性能,同时保留较高参数效率。 论文报告 LLVIP mAP 达到 66.1,且相比 full fine-tuning 路线大幅减少可训练参数。

04 方法#

4.1 方法总览#

SLGNet 的总体结构可以概括成一句话。

冻结 ViT 主干,外接一个结构感知适配器和一个语言引导调制器。前者补结构,后者调环境。

作者给出的总览图其实已经把这个逻辑画得很清楚了。

图1 SLGNet 与 full fine-tuning、普通 adapter tuning 的对比。作者想强调的不是再做一个更重的 RGB-T 检测器,而是在冻结基础模型的前提下,把结构恢复和环境感知分开做。
图1 SLGNet 与 full fine-tuning、普通 adapter tuning 的对比。作者想强调的不是再做一个更重的 RGB-T 检测器,而是在冻结基础模型的前提下,把结构恢复和环境感知分开做。

完整框架如下图所示。底部黄色部分是 Structure-Aware Adapter,用来抽多尺度结构先验并注入 ViT;右侧绿色部分是 LGM,用结构化 caption 去调制最终视觉特征。

图2 SLGNet 总体框架。底部是结构先验注入路径,右侧是语言引导调制路径。
图2 SLGNet 总体框架。底部是结构先验注入路径,右侧是语言引导调制路径。

从前向流程看,RGB 图像进入冻结的 ViT backbone,被切成 patch token 并在多层 transformer block 中传播。由于 backbone 维持的是相对粗的空间分辨率,这会天然削弱检测任务依赖的边缘、轮廓和局部几何信息。为解决这个问题,作者从 RGB 与 IR 额外提取多尺度结构先验,并把这些先验通过 FF-Adapter 注回各级 ViT 表征中。

与此同时,作者又引入一条独立的语言支路。该支路不直接参与检测头,而是先让视觉语言模型为当前图像对生成结构化 caption,再将文本编码成语义特征,生成通道级缩放和偏置参数,对最终视觉特征做 affine modulation。于是整套系统的分工就很清楚了。

  • 结构支路 负责几何恢复与跨模态结构一致性
  • 语言支路 负责环境解释与动态重标定

这也是 SLGNet 和一般静态 RGB-T 融合框架最主要的差别。

4.2 参数高效迁移设定#

论文采用的是冻结 backbone、只训练轻量模块的 adapter tuning 范式。设模型参数被拆成两部分:

θ={θvit,θadapter}\theta = \{\theta_{vit}, \theta_{adapter}\}

其中 θvit\theta_{vit} 表示冻结的 ViT 主干参数,θadapter\theta_{adapter} 对应结构适配与语言调制模块参数。训练目标写为:

θadapterargminθadapterj=1ML(Fθvit,θadapter(xj),yj)(1)\theta_{adapter} \leftarrow \arg\min_{\theta_{adapter}} \sum_{j=1}^{M} L\big(F_{\theta_{vit},\theta_{adapter}}(x_j), y_j\big) \tag{1}

这个设定本身不新,但它在全文里非常关键。因为作者真正想证明的不是 adapter tuning 能不能做 RGB-T 检测,而是:只要注入的信息足够针对任务,冻结式迁移同样可以兼顾效率和性能。

4.3 Structure-Aware Adapter#

结构感知适配器由两部分组成:

  1. Structure Encoder
  2. Feature Fusion Adapter

前者负责从 RGB 与红外中提结构,后者负责把结构注回 ViT。

4.3.1 Structure Encoder#

Structure Encoder 的目标,是从两个模态中恢复对目标检测有价值的层次化几何信息。给定 RGB 图像 IvI_v 与红外图像 ItI_t,作者先通过共享 stem encoder ϕ()\phi(\cdot) 提取初始特征,再通过三个卷积阶段得到三层结构特征 FvlF_v^lFtlF_t^l,其中 l{1,2,3}l \in \{1,2,3\},分别对应大约 1/81/81/161/161/321/32 尺度。

更关键的是它后面的 Hierarchical Structural Alignment。对于每个尺度 ll,先分别用 Sobel 算子提取两模态的边缘响应:

Fvl=Sobel(Fvl),Ftl=Sobel(Ftl)(2)\nabla F_v^l = Sobel(F_v^l), \quad \nabla F_t^l = Sobel(F_t^l) \tag{2}

再用逐元素最大值得到参考结构图:

ref=max(Fvl,Ftl)(3)\nabla_{ref} = \max(\nabla F_v^l, \nabla F_t^l) \tag{3}

随后,论文用 SSIM 风格的结构一致性去计算两模态相对参考图的可靠程度,并将其归一化为自适应权重,最终得到融合结构特征:

Ffl=σ(Mv)Fvl+σ(Mt)Ftl,l{1,2,3}(6)F_f^l = \sigma(M_v') \cdot F_v^l + \sigma(M_t') \cdot F_t^l, \quad l \in \{1,2,3\} \tag{6}

这一步的意思并不复杂。

作者不是预设 RGB 更可信,或者红外更可信,而是每个尺度下都根据结构一致性,动态决定谁在这一层贡献更多结构信息。

下图就是 Structure Encoder 和 HSA 模块的细化结构。

图3 Structure Encoder 与 HSA 结构。它的重点不是简单边缘提取,而是通过参考结构图和结构一致性评估,动态决定各模态结构贡献。
图3 Structure Encoder 与 HSA 结构。它的重点不是简单边缘提取,而是通过参考结构图和结构一致性评估,动态决定各模态结构贡献。

4.3.2 Feature Fusion Adapter#

如果说 Structure Encoder 负责提结构,那 FF-Adapter 负责把结构注回 ViT。论文这里没有采用简单加法或逐层拼接,而是借鉴 deformable attention 的思想,为每个 ViT stage 设计了面向多尺度结构先验的稀疏注意力注入方式:

F^vit(i)=Fvit(i)+Attnsparse(Fvit(i),{Ffll=1,2,3})(7)\hat{F}_{vit}^{(i)} = F_{vit}^{(i)} + Attn_{sparse}\big(F_{vit}^{(i)}, \{F_f^l \mid l=1,2,3\}\big) \tag{7}

进一步写成:

Attnsparse(fq,{Ffl})=l=13k=1KAlqkWvFfl(ϕl(pq)+Δplk)(8)Attn_{sparse}(f_q, \{F_f^l\}) = \sum_{l=1}^{3} \sum_{k=1}^{K} A_{lqk} W_v F_f^l \big(\phi_l(p_q) + \Delta p_{lk}\big) \tag{8}

这里真正重要的一点是:FF-Adapter 并不是把整张结构图一股脑广播到 token 上,而是让 token 只去稀疏采样最有信息量的结构位置。 这让注入过程既保住了多尺度几何约束,又不会像密集对齐那样额外拖垮计算量。

此外,作者还用 MLP 让结构特征随着 ViT 层级逐步演化:

{Ff(i)}=MLP({Ff(i1)})(9)\{F_f^{(i)}\} = MLP(\{F_f^{(i-1)}\}) \tag{9}

这意味着结构先验不是静态外挂,而是跟着 backbone 的语义层级一起变化。

4.4 Language-Guided Modulation#

LGM 的目标,是让模型在多模态融合时拥有显式的环境理解能力。这里的重点不是把文本作为额外提示 token 塞进 ViT,而是先让视觉语言模型把场景翻译成结构化语言描述,再用这些语言先验去调制视觉特征。

具体地,给定 RGB 与红外图像对 (IRGB,IIR)(I_{RGB}, I_{IR}),作者先使用 Qwen2.5-VL 生成结构化 caption。该 caption 被拆成四类上下文成分:

  • Environmental Context,描述光照与天气等整体环境条件
  • Scene Type,描述室内外或功能区域等场景属性
  • Object Density,描述关键目标的分布密度
  • Thermal Signature,描述热对比和温度变化特征

随后,作者使用冻结的 CLIP 文本编码器 将四类文本分别编码为语义特征:

Fti=CLIPtext(si)RL×d(10)F_t^i = CLIP_{text}(s_i) \in \mathbb{R}^{L \times d} \tag{10}

再通过拼接和轻量 MLP 投影,得到融合后的语义先验:

Ftsem=MLPproj(Concat(Ftenv,Fttype,Ftobj,Fttherm))RL×d(11)F_t^{sem} = MLP_{proj}(Concat(F_t^{env}, F_t^{type}, F_t^{obj}, F_t^{therm})) \in \mathbb{R}^{L \times d} \tag{11}

接着对文本 token 做池化,并通过两个投影头生成通道级缩放和偏置参数:

γ=MLPγ(Pool(Ftsem)),β=MLPβ(Pool(Ftsem))(12)\gamma = MLP_{\gamma}(Pool(F_t^{sem})), \quad \beta = MLP_{\beta}(Pool(F_t^{sem})) \tag{12}

最后对 ViT 输出特征做 affine modulation:

Fvitguided=(γ+1)Fvit+β(13)F_{vit}^{guided} = (\gamma + 1) \cdot F_{vit} + \beta \tag{13}

这个模块最有意思的点在于,它给了模型一个高层场景解释接口。传统视觉注意力虽然也能学到某种模态重权,但通常只是从视觉统计中隐式推断环境变化;LGM 则试图先由 VLM 明确判断当前是低光、过曝、目标稠密还是热对比显著,再把这种解释过的环境信息写回视觉通道权重。

换句话说,它在网络里承担的是一种环境感知式特征重标定器,而不是普通的文本增强模块。


05 实验分析#

5.1 数据集与训练设定#

作者在四个数据集上验证方法。

  • LLVIP 主要强调低照场景下的 RGB-T 行人检测
  • FLIR 更偏复杂户外驾驶环境,背景杂乱、尺度变化大
  • KAIST 是经典 RGB-T 行人检测基准,模态间存在空间不对齐问题
  • DroneVehicle 是无人机俯视场景,目标小、密度高、方向变化大

指标方面,LLVIP、FLIR 与 DroneVehicle 主要看 mAP;KAIST 用的是行人检测里常见的 MR-2,越低越好。

实现上,作者采用 ViT-Base + DINOv2 作为 backbone,Structure-Aware Adapter 插在 12 个 transformer blocks 前。训练 50 个 epoch,batch size 为 8,优化器使用 AdamW,初始学习率为 1×1041\times10^{-4},并使用 layer-wise learning rate decay 和 AMP。

这里有个很关键的工程判断。

作者并没有把 VLM 作为在线实时推理的一部分。 论文明确说,VLM 生成场景上下文的部分是离线完成的。也就是说,它更像一种低频更新的上层语义控制信号,而实时检测主链路仍然由视觉 backbone 与 adapter 完成。这一点其实很现实,不然 VLM 推理开销会把部署价值直接冲掉。

5.2 LLVIP 与 FLIR 结果#

先看 LLVIP 和 FLIR。

表1 LLVIP 与 FLIR 主结果。SLGNet 在两套基准上都拿到最优或极强结果,而且可训练参数只有 12.1M。
表1 LLVIP 与 FLIR 主结果。SLGNet 在两套基准上都拿到最优或极强结果,而且可训练参数只有 12.1M。

从表 1 可以直接看出几个结论。

第一,SLGNet 在 LLVIP 上确实很强。 它拿到 66.1 mAP、98.3 mAP50、75.4 mAP75。相比普通多模态方法 COFNet,mAP 略高,mAP50 也更高。更关键的是,SLGNet 只训练 12.1M 参数,而 COFNet 是 90.2M。

第二,FLIR 上的提升更能说明方法泛化性。 LLVIP 本身就是低照优势明显的数据集,热红外收益很容易体现;但 FLIR 场景更杂,背景噪声更重,尺度变化也更大。SLGNet 在这里依然拿到 45.1 mAP、85.8 mAP50、42.3 mAP75,说明它不只是吃夜间场景红利。

第三,结构支路和语言支路的配合在这两套数据上的逻辑是成立的。 在 LLVIP 这类极暗环境下,结构感知分支能用热红外边缘补回 RGB 看不见的几何细节;而 LGM 则进一步抑制 RGB 中被低照污染的无效信息。到了 FLIR 这种复杂街景,结构先验负责小目标和遮挡边界,语言支路负责根据环境上下文调模态权重。

5.3 KAIST 结果#

KAIST 更能测试方法在模态错位和昼夜变化下的稳健性。

表2 KAIST 结果。指标是 MR-2,越低越好。SLGNet 在 overall 上达到 19.88。
表2 KAIST 结果。指标是 MR-2,越低越好。SLGNet 在 overall 上达到 19.88。

SLGNet 的 overall MR-2 是 19.88,明显优于 ResNet 系列方法,也优于不少现有 ViT 系方法。这个结果说明一件事。

结构先验注入并不是只在“模态完全对齐”时才有意义。 即便 RGB 与 IR 存在空间错位,只要高层 token 还能通过稀疏结构采样抓住更稳的边界信息,它仍然能对检测有帮助。

不过论文也给了一个很诚实的现象。夜间指标上,M-SpecGene 的 night MR-2 是 19.42,略优于 SLGNet 的 20.56。但 SLGNet 在 day 指标上更强,所以总体更平衡。换句话说,SLGNet 不是把某一个工况卷到极致,而是尽量让结构补偿和语言调制在不同工况下都稳定发挥作用。

5.4 DroneVehicle 结果#

DroneVehicle 是这篇文章里我觉得最能体现结构支路价值的数据集。因为它是俯视视角,小目标密、排列挤、背景纹理杂,单靠粗分辨率 token 很容易把车群糊成一片。

表3 DroneVehicle 主结果。SLGNet 达到 80.7 mAP,在 Freight-Car 类别上优势尤其明显。
表3 DroneVehicle 主结果。SLGNet 达到 80.7 mAP,在 Freight-Car 类别上优势尤其明显。

SLGNet 在 DroneVehicle 上达到 80.7 mAP,超过 WaveMamba、UniFusOD 等强基线。类别层面上,作者特别强调 Freight-Car 类别提升明显,这很符合方法直觉。因为货车本身轮廓更长、更规则、热特征也更明显,结构感知适配器更容易从中抽到稳定的几何先验。

但这篇文章也不是完全没有短板。论文里提到在 Van 类别上,SLGNet 仍略逊于 DMM。这也很好理解。Van 的外形在俯视图里常常介于 passenger car 和 truck 之间,不像货车那样有特别清晰的长形结构边界。这时,过于强调显式结构的模型,反而未必总比更自由的特征交互方式占优。

定性结果也能说明这一点。

图6 DroneVehicle 定性结果。相比 UniFusOD,SLGNet 在小目标密集区、相邻车辆分离和夜间热目标定位上更稳。
图6 DroneVehicle 定性结果。相比 UniFusOD,SLGNet 在小目标密集区、相邻车辆分离和夜间热目标定位上更稳。

从图 6 可以看出,SLGNet 在密集小车、相邻目标分离和夜间局部区域定位上明显更稳。尤其是蓝框放大的区域,基线方法会漏掉紧挨着的小目标,SLGNet 则更容易把它们单独分开。

5.5 组件消融#

作者先做了最核心的组件消融。

表4 组件消融。单加 SA-Adapter 就能涨,继续加 LGM 还能再涨。
表4 组件消融。单加 SA-Adapter 就能涨,继续加 LGM 还能再涨。

这个表非常重要。因为它回答了一个最直接的问题。

SLGNet 的收益,到底是结构模块带来的,还是语言模块带来的,还是纯粹因为多堆了点东西。

结果很清楚。

  • 只加 SA-Adapter,FLIR 从 42.3 提到 44.3,DroneVehicle 从 53.8 提到 55.1
  • 再加 LGM,FLIR 到 45.1,DroneVehicle 到 57.2

这说明两件事。

第一,结构支路是主增益来源之一。 只要把结构信息稳稳注回冻结 ViT,检测性能就会明显涨。

第二,语言支路不是摆设。 它在已有结构恢复的前提下,继续提供额外收益,说明显式环境上下文的确能帮助模态重标定,尤其在复杂背景或热对比变化较大的场景中更明显。

5.6 参数效率与训练稳定性#

这篇文章另一个卖点,是它不是只在涨点,还在省参数。

表5 full fine-tuning 与 adapter-tuning 对比。SLGNet 路线参数量减少约 87%,但精度反而更高。
表5 full fine-tuning 与 adapter-tuning 对比。SLGNet 路线参数量减少约 87%,但精度反而更高。

从表 5 看,adapter-tuning 的可训练参数从 96.0M 降到 12.1M,大约减少 87%。但在 FLIR 和 DroneVehicle 上,性能反而都超过 full fine-tuning。

这点挺有意思。

按直觉,full fine-tuning 应该更自由,也更容易涨点。但在 RGB-T 这种数据规模没那么夸张、场景分布又有偏移的任务里,大模型全量微调反而更容易把预训练的泛化能力弄乱。SLGNet 通过冻结 backbone、只训练轻量适配器,等于是把优化空间约束住了,反而更稳。

训练曲线也支持这个判断。

图4 FLIR 上的训练曲线。Adapter-tuning 收敛更快,波动更小。
图4 FLIR 上的训练曲线。Adapter-tuning 收敛更快,波动更小。

图 4 里,adapter-tuning 的蓝线更快进入稳定区间,阴影带也更窄。这意味着它不仅省参数,还更容易训稳。

5.7 结构可解释性#

作者还给了一个我很喜欢的可视化。

图5 结构先验注入的可视化。相似性响应会沿着目标边界传播,甚至会覆盖未标注的路灯杆这类细长结构。
图5 结构先验注入的可视化。相似性响应会沿着目标边界传播,甚至会覆盖未标注的路灯杆这类细长结构。

图 5 最有意思的地方,不是 pedestrian 或 car 的高响应,而是那个未标注的路灯杆。论文里专门提到,查询点放在路灯杆上时,SA-Adapter 仍能把整个杆状结构激活出来。

这说明一个很关键的现象。

结构支路学到的不是“检测类别模板”,而是更通用的几何结构先验。 这恰好符合它的设计目标。它不是替检测头去分类,而是尽量把本来会在 ViT 里被削弱的几何组织重新拉回来。

5.8 文本编码器与 prompt 设计#

作者还比较了不同文本编码器和不同 prompt 组织方式。

表6 不同文本编码器对比。CLIP 比纯 NLP 编码器更适合做这种调制信号。
表6 不同文本编码器对比。CLIP 比纯 NLP 编码器更适合做这种调制信号。

表 6 的结论很直接。

纯 NLP 编码器不如视觉语言预训练得到的 CLIP。 这很合理。因为 LGM 最终要去调制视觉 backbone 的通道特征,如果文本特征空间本来就和视觉特征没对齐,那 modulation 参数就更像额外噪声。CLIP 之所以更有效,是因为它天生就在 image-text 对齐空间里训练过。

再看 prompt 设计。

表7 prompt 粒度消融。结构化 caption 明显优于只列类别名,说明环境与热特征描述确实在提供有效信息。
表7 prompt 粒度消融。结构化 caption 明显优于只列类别名,说明环境与热特征描述确实在提供有效信息。

这里最值得注意的点是,只把类别名拼成一句 prompt,甚至比不加 LGM 还差。 这说明语言支路要有用,前提不是有文本就行,而是文本里必须包含能帮助模态重标定的环境信息,比如低光、过曝、热对比、场景类型、目标稠密度这些东西。

所以作者强调 structured caption,是说得通的。它不是为了把 prompt 写得更花,而是为了让语言支路拿到真正能指导融合策略的高层上下文。

5.9 小结与边界#

这篇文章最聪明的地方,是它没有把问题说得太玄。

它承认冻结式 ViT 在 RGB-T 检测里会丢结构,也承认静态融合很难显式理解环境变化。于是作者没有去发明一个更大的多模态 backbone,而是把问题拆成两个很具体的补丁:一个补结构退化,一个补环境感知缺失。这种拆法很工程,也确实有效。

不过这篇文章也有几个边界需要一起看。第一,它本质上还是 RGB-T 检测方法,不是图像融合方法;如果任务目标是先生成高质量融合图,再做检测、分割或视觉增强,那它并不直接对应。第二,语言支路的部署价值取决于上下文更新频率。论文把 caption 生成放在离线阶段,这很现实,但也意味着场景变化过快时,调制信号可能会滞后。第三,结构先验对轮廓清晰、热特征稳定的类别更占优,但对像 Van 这类边界和语义都更模糊的类别,结构优势未必总能完整转成分类优势。

我觉得它最值得借走的,不只是 SA-Adapter 或 LGM 这两个模块,而是这种建模方式。对于 foundation model 迁移到多模态检测这类任务,不一定非得靠全量微调或更重的融合骨干。很多时候,更有效的路子是先问一句,这个任务真正缺的是哪一类信息,然后只为那类信息设计一条轻量但精准的补偿支路。


06 个人声明#

本文为作者对原论文的学习笔记与心得分享,受个人学识与理解所限,文中对论文内容的解读或有不够周全之处,一切以原论文正式表述为准。本文仅用于学术交流与传播,内容均由作者独立整理完成,不代表本公众号立场。如文中所涉文字、图片等内容存在版权争议,请及时与作者联系,作者将在第一时间核实并妥善处理。

文章分享

如果这篇文章对你有帮助,欢迎分享给更多人!

【论文阅读 | arXiv 2026 | SLGNet:结构先验与语言引导调制协同的多模态目标检测框架】
https://mjy.js.org/posts/paper-arxiv-2026-slgnet/
作者
MaJianyu
发布于
2026-04-06
许可协议
CC BY-NC-SA 4.0
Profile Image of the Author
MaJianyu
永远相信,美好的事情即将发生。
音乐
封面

音乐

暂未播放

0:00 0:00
暂无歌词
分类
标签
站点统计
文章
39
分类
7
标签
114
总字数
213,186
运行时长
0
最后活动
0 天前

目录