基于图像挖掘的人体尺寸自动测量方法研究

韩茹

浙江财经大学，浙江杭州 310000

摘要

本研究致力于开发一种基于图像挖掘的智能化人体尺寸自动测量方法，旨在解决传统接触式测量效率低、精度不足的问题。研究首先采用MODNet分割算法实现人体与背景的精准分离，结合二值化处理与数学形态学方法增强图像质量，并利用Canny边缘检测算法提取清晰的人体轮廓。在此基础上，系统比较了ResNet-50、DenseNet-121和ViT-B/32三种深度学习模型在尺寸预测任务中的性能。实验结果表明，DenseNet-121模型在多项评估指标上表现最优，其平均绝对百分比误差（MAPE）达到3.01%，同时具有最低的模型参数量，在预测精度与计算效率间取得了最佳平衡。

关键词

人体尺寸测量；深度学习；ResNet-50；DenseNet-121；ViT-B/32

正文

1绪论

1.1引言

随着智能化技术的快速发展，医疗、服装及健身等行业对精确人体尺寸测量的需求日益迫切。传统接触式测量方法存在效率低、精度易受人为干扰等局限，而非接触式测量技术凭借其高效、便捷与精准的优势，逐渐成为研究重点。

本研究旨在开发一套智能化的非接触式人体尺寸测量系统，通过基于图像数据的尺寸预测技术，为不同应用场景提供高精度、可定制的测量方案。该系统有望为医疗诊断、服装定制及健身监测等领域提供可靠技术支持，显著提升测量效率与准确性。

1.2人体尺寸测量技术的研究现状

随着计算机视觉与图像处理技术的飞速发展，人体测量技术已从传统的手工接触式测量‎^[1]转变为非接触式测量^‎^[2]。非接触式测量主要分为主动式和被动式两大类。主动式测量以三维扫描技术为代表，包括激光扫描法^‎^[3]、结构光测量法^‎^[4]等，通过发射特定光线并分析反射信息来获取人体三维数据。这类方法虽能实现高精度测量，但受限于设备成本高、测量环境要求严苛等问题，难以普及应用。

相比之下，基于二维图像的测量方法因其成本低、便捷性强而成为研究热点。该方法通过相机采集人体正、侧面图像，利用图像处理技术提取轮廓或特征点，再通过数学模型将像素尺寸转换为真实人体尺寸。在特征点检测方面，早期研究多依赖人体比例系数‎^[5]、轮廓分析^‎^[6]或区域分割^‎^[7]等传统方法，但这些方法在复杂体型下的鲁棒性较差。

近年来，深度学习技术显著推动了人体尺寸测量领域的发展。早期研究主要采用广义回归神经网络（GRNN）等浅层架构，通过手工特征提取实现尺寸映射。随着技术进步，研究者相继提出了多种改进方案：Xia等人^‎^[8]开发了基于GRNN的自动人体测量系统；Kaashki等人^‎^[9]首次提出了基于深度学习的自动测量方法，设计了多尺度EdgeConv模块；刘葆华^‎^[10]构建了基于ResNet-101的基准点检测网络，通过热图回归预测关键点位置；李旭^‎^[11]则通过改进PSPNet网络，引入坐标注意力机制提升分割精度。这些方法通过端到端的学习方式，实现了从图像特征到人体尺寸的精准映射。

1.3主要研究内容

（1）人体轮廓提取

人体轮廓的精准提取是后续尺寸测量与预测的基础。本研究首先利用MODNet分割算法对人体图像进行语义分割，随后对图像进行二值化处理，从而消除复杂背景、人体着装等因素对轮廓提取的负面影响；接着采用数学形态学方法进行图像增强；最后运用Canny边缘检测算法获取清晰的人体轮廓线图，确保轮廓提取的准确性。

（2）基于图像数据挖掘的尺寸预测

这一阶段将通过深度学习模型直接从图像中提取尺寸信息。首先，对人体轮廓图像进行进一步的预处理，然后，选择ResNet-50、DenseNet-121和ViT-B/32三种深度学习模型，对所选深度学习模型进行训练后，通过比较模型在预测精确度上的表现，选定性能最佳的模型进行实际部署，以实现高效和准确的尺寸预测。

2数据集介绍

2.1数据收集

本文使用的数据集由一家专业服装定制企业授权并提供，包含人体图像数据集和人体尺寸数据集两部分。

2.1.1人体图像数据集

本文所使用的人体图像数据来自上述企业的真实业务场景，该企业通过其标准化的上门测量服务，为每位用户规范采集以下图像数据：

全身正面照片：一张清晰的全身正面照片。

全身侧面照片：一张清晰的全身侧面照片。

本文使用经过企业严格规范采集的人体正侧面全身照片作为人体图像数据集，数据集共涵盖39832名用户，每位用户包含正面与侧面照片各一张，累计获得原始图像79664张。

2.1.2人体尺寸数据集

人体尺寸数据集包含39832条手工测量的人体尺寸记录，与人体图像数据集中的用户一一对应，该数据集涵盖了46个关键的人体尺寸变量，包括身高、胸围、腰围、臀围等，能够全面反映人体的体型特征。具体变量如表1所示。

表1人体尺寸数据集

人体尺寸
用户编号	上臂围	前腰高	肩型
性别	左腕围	裤长	裤前裆
身高	右腕围	腰膝长	前胸宽
体重	总肩宽	膝围	胸距
领围	前肩宽	腿肚围	后背宽
胸围	右袖长	左肩	臀围高
中腰围	左袖长	右肩	胸高
腹围	后腰节长	手臂	腹围高
裤腰围	衬衣后衣长	臀	前衣长
臀围	西服后衣长	肚	罩杯
腿根围	后腰高	后腰
通裆	前腰节长	胸背

2.2人体图像数据预处理

为了提高模型的训练效率和准确性，对人体图像进行了如下预处理操作：

1.灰度转换：所有图像被转换为灰度图像。这一步骤减少了图像的通道数，从而简化了模型的输入数据结构，减少了计算复杂性。

2.图像裁剪与缩放：对灰度图像进行中心裁剪和大小调整，以确保图像具有统一的尺寸和内容。这包括将图像中心裁剪为1536x1536像素，然后缩放至224x224像素。这一操作确保了输入图像尺寸的一致性，有助于提高模型的训练和预测性能。

2.3预测目标定义

基于服装测量专家指导，选取23个关键尺寸作为模型预测目标，包括领围、胸围、腰围、臀围等核心尺寸，以及袖长、裤长等长度参数（详见表2）。将人体尺寸预测定义为回归任务，通过深度学习模型实现从图像特征到具体尺寸值的预测。

表2需要预测的尺寸

目标预测尺寸
领围	腿根围	前肩宽	裤长
胸围	通裆	左袖长	腰膝长
中腰围	上臂围	后腰节长	膝围
腹围	左腕围	衬衣后衣长	腿肚围
裤腰围	右腕围	西服后衣长	右袖长
臀围	总肩宽	前腰节长

3人体轮廓识别

人体轮廓的准确提取是获取服装设计所需尺寸参数的关键。本研究首先运用MODNet算法分离人体与背景；随后通过全局阈值法进行二值化处理，得到黑白分明的二值图像；接着利用数学形态学方法消除噪声干扰；最后采用Canny算子完成边缘检测，获得清晰的人体轮廓线。

3.1MODNet算法

MODNet是一种融合语义分割与抠图思想的先进算法，能够实现无需人工干预的高精度人物分割。

该算法基于图像抠图数学模型，将图像看作是前景和背景之间的线性组合：

其中示像素透明度。通过精确预测每个像素的值，实现人体与背景的精准分离。

3.2二值化

二值化是一种基于阈值的图像分割技术，其目的是将灰度或彩色图像转换为仅有两个亮度级（通常是黑色和白色）的二值图像。该技术通过设定临界阈值，将图像像素划分为两类：大于或等于阈值的像素被设置为一个值（通常为255，表示白色），小于阈值的像素被设置为另一个值（通常为0，表示黑色）。

本文使用全局阈值法对人体轮廓图进行二值化处理。将阈值设置为130.5，将人体轮廓图中的像素值划分为两个类别，从而了简化图像，突出了人体轮廓。

3.3数学形态学处理

为了优化图像处理效果，本研究采用了一系列数学形态学操作来增强图像的特征表现，包括闭运算、开运算、去除噪声。

（一）闭运算

闭运算是形态学图像处理中的一种操作，它通过先膨胀后腐蚀的方式处理图像。膨胀操作可以扩大图像中的白色区域，而腐蚀操作可以缩小图像中的白色区域。闭运算主要用于填充小孔洞、连接断裂部分，从而增强图像中目标区域的连通性。

对于二值图像和结构元素，闭运算定义为：

其中，表示膨胀操作，表示腐蚀操作。

接下来，本文对二值化图像进行了闭运算操作，通过这一操作，有效地增强了图像中目标区域的连通性，减少了因噪声或图像分割不准确导致的断裂。

（二）开运算

开运算是形态学图像处理中的另一种操作，它通过先腐蚀后膨胀的方式处理图像。腐蚀操作可以缩小图像中的白色区域，而膨胀操作可以扩大图像中的白色区域。开运算主要用于去除小噪声、平滑物体轮廓。

对于二值图像和结构元素，开运算定义为：

其中，表示腐蚀操作，表示膨胀操作。

为了进一步去除图像中的噪声，本文对闭运算后的图像进行了开运算操作，这一操作有助于平滑图像的边界，同时去除小的干扰区域，使图像更加清晰。

（三）去除噪声

在数字图像处理中，噪声是影响图像质量的常见问题。噪声会降低图像的信噪比，导致图像细节丢失，影响后续的图像分析和处理任务。去除噪声是图像处理中的一个重要步骤，其目的是去除图像中的随机噪声，从而提高图像的质量。

在开运算之后，本文进行了噪声去除处理。具体而言，首先将图像再次二值化，通过计算每个轮廓的面积，确定了最大轮廓的面积。对于面积小于最大轮廓面积的其他轮廓，认为它们可能是噪声，将其填充为黑色。这一过程有效地去除了图像中的小噪声区域，进一步优化了图像质量。

3.4图像边缘检测

在完成对人体轮廓图像的数学形态学处理后，可进一步实施图像的边缘检测，其主要目的是识别图像中亮度变化显著的像素位置。

边缘检测算子根据其数学原理可分为基于一阶导数和基于二阶导数的两大类。基于一阶导数的算子包括Roberts、Prewitt、Sobel及罗盘算子，基于二阶导数的算子有LoG算子、Canny算子和Laplacian算子等。本文采用Python语言，基于Roberts算子、Prewitt算子、Sobel算子及Canny算子四种边缘检测方法，分别对图像边缘进行提取。

对比多种边缘检测算子后，最终选用Canny算子进行轮廓提取。该算子在噪声抑制与弱边缘检测方面表现优异，能够获得连续、精准的人体轮廓线，为后续尺寸预测提供高质量输入数据。

对人体图像数据集使用MODNet分割算法进行语义分割，从复杂背景和人体着装等因素中分离出人体轮廓图，再经二值化处理、数学形态学方法进行图像增强，最后经Canny算子边缘检测得到清晰的人体轮廓线图，为后续分析提供高质量的输入数据。

4基于图像数据挖掘的尺寸预测

本章将通过深度学习模型直接从人体轮廓线图中提取尺寸信息，实现更加自动化和精准的尺寸预测。

4.1模型设计与训练

为系统评估不同深度学习架构在人体尺寸预测任务上的性能，本章选取了三种代表性模型：两种经典卷积神经网络（ResNet-50和DenseNet-121）以及一种视觉变换器模型（ViT-B/32）。这些模型在特征提取机制上存在显著差异：ResNet-50通过残差连接缓解梯度消失问题，DenseNet-121采用密集连接促进特征复用，而ViT-B/32则通过自注意力机制捕捉图像块间的长程依赖关系。

在实验设置方面，使用包含39832个样本的数据集，按8:1:1比例划分为训练集、验证集和测试集。训练采用均方误差（MSE）作为损失函数，使用Adam优化器（初始学习率0.0001，批次大小64）。为优化训练过程，引入学习率衰减策略（当验证损失连续5轮未改善时，学习率降至原来的0.1倍）和早停机制（连续20轮未改善则终止训练）。

在模型适配方面，将各预训练模型的最后一层全连接层替换为具有23个输出节点的线性层，使其能够直接预测23项关键人体尺寸。这种设计既保留了预训练模型的特征提取能力，又满足了本研究的特定回归任务需求。

4.2结果与分析

三种模型的性能对比如表3所示

表3模型性能对比结果

模型	MAPE	MAE	MSE	RMSE	R^2	参数量
RseNet50	3.0935%	1.7645	5.9084	2.4147	0.9912	23555159
DenseNet121	3.0146%	1.7227	5.6465	2.2139	0.9916	6977431
ViT-B/32	3.1465%	1.8070	6.2833	2.3163	0.9907	87472919

综合分析表明，DenseNet-121在各项指标上表现最优，其平均绝对百分比误差（MAPE）最低（3.01%），同时在MAE、MSE和RMSE指标上也取得最佳结果，表明其预测精度最高。ResNet-50的表现次之（MAPE=3.09%），而在R²指标上与DenseNet-121相当。ViT-B/32的表现相对欠佳（MAPE=3.15%），可能与训练数据规模不足以充分发挥其模型能力有关。

特别值得注意的是，DenseNet-121在保持最优预测精度的同时，参数量仅为7.0M，显著低于ResNet-50（23.6M）和ViT-B/32（87.5M），展现出优异的计算效率。

综合考量预测精度、模型稳定性和计算效率，DenseNet-121被确定为最适合本任务的模型架构，为实际应用部署提供了理想选择。

5结论与展望

本研究提出了一种基于图像挖掘的智能化人体尺寸自动测量方法。通过MODNet分割算法与数学形态学处理实现了人体轮廓的精确提取，并基于深度学习方法构建了端到端的尺寸预测模型。实验结果表明，DenseNet-121模型在测试集上取得了最佳性能（MAPE=3.01%），同时保持了较高的计算效率，为实际应用提供了可靠的技术方案。

未来，我们计划进一步扩展和优化本研究成果，重点开发一个三维人体模型生成系统，通过用户的正面和侧面图像及身高、体重信息生成可360度旋转和缩放的三维模型，并进行误差分析和优化，提升系统稳定性。进一步的研究将着重于整合多模态数据，以提升测量精度，同时探索实时处理技术，以满足在线购物和虚拟试衣的需求。此外，将这一技术应用于虚拟现实和增强现实领域，推动数字化转型和市场竞争力提升。这些努力将推动智能化尺寸测量技术的发展，为各相关应用领域提供更加精准和高效的解决方案，同时为理论和实际应用中的交叉融合与创新提供新的视角和基础。

参考文献

[1]Zhong, Y., Xu, B. Automatic segmenting and measurement on scanned human body[J]. International Journal of Clothing Science and Technology, 2006, 18(1): 19-30.

[2]Peng, S., Sun, X., Liu, G., et al. Survey on 3D human body auto measurement technology[J]. Appl Res Comput, 2005.

[3]黄承亮.三维激光扫描技术在人体三维建模中的应用研究[J].测绘,2013,36(01):13-15+22.

[4]蔡磊.相移结构光三维扫描和人体特征提取的研究[D].湖南师范大学,2013.

[5]贾俊瑛.基于图像的人体尺寸测量方法研究[D].上海师范大学,2020.

[6]肖祎.基于拍照的服装和人体尺寸测量系统设计与研发[D].浙江大学,2019.

[7]师乐.基于二维图像实时个性化人体模型重建算法的研究[D].西安工程大学,2019.

[8]Xia, L., Yang, J., Han, T., et al. A mobilized automatic human body measure system using neural network[J]. Multimedia Tools and Applications, 2019, 78(9): 11291-11311.

[9]Kaashki, N. N., Hu, P., Munteanu, A. Deep learning-based automated extraction of anthropometric measurements from a single 3-D scan[J]. IEEE Transactions on Instrumentation and Measurement, 2021, 70: 1-14.

[10]刘葆华.基于2D图像的人体基准点提取与尺寸测量方法研究[D].中国石油大学(华东),2022.

[11]李旭.基于CAFA-PSPNet的棋盘格投射式人体尺寸测量系统[D].中原工学院,2023.

...

阅读全文