一文彻底搞懂CNN - 卷积和池化（Convolution And Pooling）

显示全部楼层

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: var(--articleFontsize);text-align: center;color: rgb(172, 57, 255);">ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.034em;">ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: var(--articleFontsize);letter-spacing: 0.034em;">ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.034em;">ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: var(--articleFontsize);letter-spacing: 0.034em;">

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.034em;">ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: var(--articleFontsize);letter-spacing: 0.034em;">Convolutional Neural Network

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: var(--articleFontsize);color: rgb(172, 57, 255);">ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.034em;">ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: var(--articleFontsize);letter-spacing: 0.034em;">CNN（卷积神经网络）最核心的两大操作就是卷积（Convolution）和池化（Pooling）。卷积用于特征提取，通过卷积核在输入数据上滑动计算加权和；池化用于特征降维，通过聚合统计池化窗口内的元素来减少数据空间大小。

Convolution And Pooling

一、卷积（Convolution）

卷积（Convolution）：卷积是一种数学运算，在CNN中，它通过滑动窗口（也称为卷积核或滤波器）在输入图像或特征图上滑动，并计算窗口内元素与对应卷积核元素的加权和（包括偏置项），从而生成输出特征图。

Convolution

卷积是一种特殊的线性运算，用于提取图像中的局部特征。CNN通过使用一个或多个卷积核（也称为滤波器或特征检测器）在输入数据（如图像）上进行滑动窗口操作来提取特征。

卷积核（Convolution Kernel）：一个可学习的权重矩阵，其大小通常远小于输入图像的大小，用于在输入图像上滑动并进行元素级的乘法累加操作。
特征图（Feature Map）：卷积操作的结果，每个特征图都代表了输入图像在不同卷积核下的特征响应。

Convolution

卷积的计算过程：通过卷积核在输入数据上滑动，计算每个位置上的加权和（包括偏置项），并可能应用激活函数，以生成输出特征图。

选择卷积核：卷积核是一个可学习的参数矩阵，其大小（如3x3、5x5等）和数量（即输出特征图的通道数）是超参数。
滑动窗口：将卷积核在输入图像或特征图上按指定步长（stride）滑动，每次滑动都计算窗口内元素与卷积核的加权和。
计算加权和：对于每个滑动位置，将窗口内元素与卷积核对应位置的元素相乘后求和，并加上偏置项（如果有的话），得到输出特征图上对应位置的元素值。
添加激活函数：通常，卷积操作后会接一个激活函数（如ReLU），以增加网络的非线性特性。

Convolution

卷积的重要参数：卷积的重要参数主要包括卷积核大小（Kernel Size）、步长（Stride）以及填充（Padding），它们共同决定了卷积层的输出特征图的尺寸和特性。

卷积核大小（Kernel Size）：决定了感受野的大小，即每次卷积操作能够覆盖的输入区域大小。
步长（Stride）：决定了卷积核在输入图像或特征图上滑动的距离。步长为1表示每次滑动一个像素，步长大于1则表示每次滑动多个像素。
填充（Padding）：在输入图像或特征图的边缘添加额外的零值，以控制输出特征图的尺寸。常见的填充方式有“valid”（无填充）和“same”（填充后输出尺寸与输入相同）。
通道数（Channels）：对于输入图像，通道数指的是颜色通道数（如RGB图像的通道数为3）。对于卷积层，输出特征图的通道数由卷积核的数量决定。

Convolution

二、池化（Pooling）

池化（Pooling）：池化是卷积神经网络中的一种下采样操作。它通过定义一个空间邻域（通常为矩形区域），并对该邻域内的特征进行统计处理（如取最大值、平均值等），从而生成新的特征图。池化操作通常紧随卷积层之后。

特征降维：池化操作通过减少特征图的尺寸，降低了后续卷积层的计算量和参数数量，从而提高了计算效率。
特征提取：通过池化操作，CNN能够进一步提取输入数据的特征，使模型能够学习到更加抽象和高级的特征表示。
防止过拟合：池化操作通过减少特征图的维度和参数数量，降低了模型的复杂度，从而在一定程度上防止了过拟合现象的发生。

Pooling

池化操作在降低特征图空间大小的同时，保持了特征的空间层次结构，有助于减少计算量并提高模型的泛化能力。

Pooling

池化的常见类型：池化操作有多种方式，其中最常见的是最大值池化（Max Pooling）和平均池化（AveragePooling）。它们分别通过选取局部区域内的最大值和平均值来减少特征图的尺寸。

最大值池化（Max Pooling）：

原理：在定义的池化窗口内，选取所有元素中的最大值，并将该最大值作为池化结果输出到下一层特征图的对应位置。
特点：能够保留更多的纹理信息，减少因卷积层参数误差造成的估计均值偏移，使模型对特征的具体位置变化更加鲁棒。

平均池化（Average Pooling）：

原理：在定义的池化窗口（如2x2、3x3等）内，计算所有元素的平均值，并将该平均值作为池化结果输出到下一层特征图的对应位置。
特点：能够保留更多的背景信息，减少因邻域大小受限造成的估计值方差增大，使提取的特征更加平滑。

Pooling

池化的重要参数：池化窗口大小和步长是决定池化层输出尺寸的关键参数，窗口大小定义了覆盖区域，步长决定了滑动距离。

池化窗口大小（Kernel Size）：定义了池化操作的窗口大小，通常是一个正方形（如2x2、3x3等）。窗口大小决定了池化操作在输入数据上滑动时覆盖的区域大小。
步长（Stride）：步长定义了池化窗口在输入数据上滑动的距离。如果步长与窗口大小相同，则池化操作不会重叠。如果步长小于窗口大小，则池化操作会重叠。

Pooling