基于岭回归机器学习算法的红葡萄酒质量等级鉴定研究论文

基于岭回归机器学习算法的红葡萄酒质量等级鉴定研究

赵耀泽

(乌鲁木齐市第四十一中学，新疆乌鲁木齐 830000)

摘要：近年来，随着人们生活水平的提高，人们为了满足自身物质精神需求，对红葡萄酒等类似高档产品需求量与日俱增。而在葡萄酒鉴定行业当中，由于不同品酒员对葡萄酒评价主观性较大，从而导致葡萄酒的质量鉴定标准不同。针对这一问题，本文通过岭回归机器学习算法对红葡萄酒训练数据集进行建模，之后利用该模型对葡萄酒质量等级进行打分，总分为10分。机器学习的加入，使红酒鉴定更具客观性，并且使鉴定准确率和即时性均有大幅提高。

关键词：红葡萄酒等级鉴定；人工智能；机器学习；岭回归；数据挖掘

一、引言

1.重要性

食品工业的相关研究表明，葡萄酒中含有多种维生素、氨基酸和矿物质，可有效调节新陈代射、促进血液循环、降低胆固醇等。由于葡萄酒的这种营养价值和医疗保健作用，葡萄酒的消费量越来越大，其品质的鉴别问题也逐渐得到关注。现阶段，在评价葡萄酒质量时一般是通过一批有资质的评酒员进行感官评定，每个评酒员在对葡萄酒品尝后进行打分然后确定出葡萄酒的质量，由于品酒员间存在评价尺度、评价位置和评定方法等方面的差异，导致不同品酒员对同种酒的评价差异较大，从而影响到葡萄酒的质量的评价结果，所以找出更准确客观的评价葡萄酒质量的方法是必要的。与此同时，科学技术的发展使得客观评价葡萄酒质量成为可能，统计学与数据挖掘方法为其提供了技术支撑，本文基于数据挖掘分析技术对葡萄酒质量的评价进行了实证研究，完善葡萄酒质量等级制。

2.创新点

本研究创新点在于将人工智能机器学习技术与葡萄酒质量检验领域进行有机结合。机器学习是计算机基于数据构建模型并运用模型对新样本进行预测和分析的学科，此技术应用于多个领域，比如自动驾驶，人脸识别等。本研究即通过研究和分析1599个红葡萄酒样本来构建红葡萄酒质量评测模型，之后利用该模型对红葡萄酒质量进行预测。

局部拔桩孔的承压水控制：增加该部位承压水井和疏干井的密度，把承压水的水位也降低到开挖面以下，保持基坑稳定：根据计算，确定开启降压井逐步疏干承压水的时机，以保证基坑开挖的安全。

通过将机器学习引入红酒质量检测领域，可使该过程变得更加智能化，仅需将红酒的11项特征进行输入，便可在很短的时间内得到由机器自主精准预测出的该红酒的等级分数，由于该过程不需品酒员的主观性参与，因此其结果更具客观性。

二、训练数据集与数据预处理

1.红葡萄酒训练数据集介绍

本研究所使用的葡萄酒训练数据集来自UCI Machine Learning Repository网站(http://archive.ics.uci.edu/ml/datasets/Wine+Quality)，该数据集名称为“Wine Quality Data Set”，作者为Paulo Cortez。数据集包含1599个红葡萄酒样本，目标是构建红葡萄酒质量检验模型，从而分析和预测新的红葡萄酒样本的质量，标签为分数(1～10)。

C级供应商：该级别的供应商绩效水平低于B级，处于行业一般水平，当发生采购需求时需对其进行重点监控，例如加强关键工序检查，增加抽样数、提高抽样率等，保证各供应环节的产品和服务质量。

石首市目前水量计量设施不完善，水费收取基本按亩分摊，并存在水费收取层次多、搭车、代收、克扣等不规范现象。水价改革就是要解决这些问题，实现按量计费方式，增强农民节水意识，降低农民水费支出。确定合理的水价是水价改革顺利进行的保障，水价及水费体制的制定，必须兼顾水的经济、环境与社会效益，并应考虑农民的经济承受能力。因此，有必要对农民水费承受能力进行测算，并对农户交费意愿进行实地调查。

表特征字段与特征解释对应表

2.标准化

数据预处理作用为清理和纠正数据集中不完整和不一致数据，从而使模型构建更加准确和高效，根据本研究所使用数据集的特点，本文所采用的数据预处理方法为标准化。

x’表示标准化后的特征值数据，x为原始特征值，为某特征所在列的平均值，α为特征所在列的标准差。标准化的结果为通过改变特征值将数据集中的每列数据的均值变为0，方差变为1，即每一个特征的特征值服从标准正态分布。

标准化的作用是消除特征值本身的量纲和数值大小的影响，从而保证数据本身特点不会干扰机器学习的预测，标准化公式为：

三、岭回归算法

1.算法概述

岭回归算法是一种基本的机器学习回归算法，其算法即为将基本线性回归与正则化相结合，因此该算法具有防止过拟合、提高模型泛化能力的优势。岭回归算法输入为实验所用的训练数据集和新样本的特征向量x ，输出为新样本的标签值y。算法原理为首先由线性叠加函数表示决策函数，接着利用最小化损失函数的方法得到最好的模型参数，最后利用该模型对新样本的特征进行分析并对样本的标签值进行预测。岭回归的决策函数为：

其中，y’表示模型预测的样本标签值，y表示真实的标签值,为正则项，λ为正则系数。正则项的引入，可有效简化算法模型，防止过拟合的发生。

y=w ·x +b，

其中x 为样本特征向量，y为输出标签值，w 为权值向量，b为偏置，w 和b均为模型参数。

2.模型构建

根据上文岭回归模型所知，决策函数中包含两个参数w 和b。模型参数估计的目的即为求出最好的w 和b的值，从而得到了效果最好的模型，该过程包括构建损失函数和最小二乘法两个阶段。

很多业主担心房子装完后插座不够，导致家里到处都是插线板。可事实上，插座并不是越多越好，合理规划才行，而且增加插座在水电改造费是按量收费的，多一组插座要多付几百大洋的改造费。

该数据集的特征由与红葡萄酒质量有关的11项理化指标组成，特征字段与特征解释如表所示。

在实际的建筑工程施工过程中，一些建筑企业为了自己的经济利益，缩减管理人员编制，导致在工程管理控制过程中，往往是一人身兼数职，管理效果大打折扣，无法有效地控制施工维持在相对安全的条件下，无法监控每一个施工环节保证自身质量。而且一旦某一个环节出现问题，也比较难以追查最终责任负责人。导致公司施工管理以及质量控制工作目标不能实现。

本研究所使用的损失函数为均方误差，其用来衡量模型的失败程度，即模型预测值和真实值的差距，公式为：

即：

(1)损失函数

随着网络教学平台的应用和推广，教师的教学课件必须要上传到网络教学空间，提供给学生们业余时间自主学习，由于高职院校学生学习的自觉性稍差，为了提升课件的吸引力，这些教学课件的制作标准比普通课件高，基于此教师都积极地提升自己的教学课件制作水平，努力设计并创作出更多吸引学生注意力的优秀课件，以提升教学效果。但在教学课件的实际制作过程中，不少教师存在技术性的问题，导致课件效果不理想，学生很难提起学习兴趣。

陆游还十分钦佩名士的“真”风度，此“真”在于名士性情的至纯至真。最突出的要数《任诞》第47则王子猷“雪夜访戴”一典，此典在陆游作品中出现达21次之多。关于此典与士人精神的关系，罗宗强先生有准确的理解和解释：“这是一则极美的文字，其中传达着一种千古士人为之神往的感情。后来的很多士人，都为这个故事所感动。它不仅表达一种真挚的友情，更重要的是传达士人的传统性格里那种忘情的趣味。这趣味蕴含高雅脱俗的情调，而且是纯情的，情来即兴，情尽即止。这是后来文人画传统的内在精神之一表现，也应该是属于士文化的一种成分。”[21](P238)

本研究所使用的模型评估方法为十折交叉验证，即将数据集分成10份，轮流将其中9份作为训练集数据，1份作为测试集数据，其中训练集用来训练模型，测试集用来评估模型预测好坏。

(2)最小二乘法

据上文所知，该损失函数为凸函数，因此当损失函数对w 和b的偏导数为0时，损失函数取得最小值，此时便得到最好的参数，即得到最好的决策函数。

上文求得损失函数为：

损失函数对w和b的偏导数为：

令以此求出最合适的w和b值，将其代入y=w ·x +b中，即找到了最好的岭回归模型。

3.模型预测

由上文所得，已知岭回归模型即红酒质量评估模型，之后收集新的红葡萄酒样本，将其11项理化特征进行总结，作为特征向量x输入到模型之中，最后通过该决策函数求得样本对应的标签值y即该红酒样本的等级分数，以此来评测葡萄酒质量。

4.模型评估

此时参数估计问题变为损失函数的最小化问题，即求出使损失函数取最小值时的w 和b值。

本研究所使用的模型评估指标为均方根误差，公式为：

十折交叉验证中每次模型训练均会得出相应的均方根误差，将10次均方根误差的平均值作为对模型精度的估计，以此评测模型好坏。

5.训练结果

本研究所使用的红葡萄酒数据集包含在“红葡萄酒.xlsx”表格中，本实验所使用的编程语言为Python3，编程软件为Spyder，使用的Python工具包包括sklearn、time、pandas以及numpy。本实验代码如图1所示：

图1 实验代码

实验训练结果如图2所示：

图2 训练结果

据图2所知，10次训练模型的预测均方根误差均在0.55～0.75之间，其平均值为0.65，误差在合理范围内，并且整个过程仅需0.2秒，基本体现机器学习准确性和实时性高的优势，即省去人工参与的同时也令其预测更加快速，而且结果更加准确。

3.4 提高姜黄素的缓释作用微胶囊可以做到缓慢释放药物，维持稳定药物浓度，延长药物作用时间，减少给药次数，从而达到减少药物不良反应的目的。其中，壳聚糖微囊可通过形成电解质膜来达到缓释给药。曲建全[25]发现，儿茶素-壳聚糖微囊的释放速度较姜黄素-壳聚糖微囊更快，这可能由于姜黄素为脂溶性物质，缓释能力相对更强。潘振华等[26]对姜黄素微囊进行体外释放实验发现，微胶囊化后的姜黄素在12 h内释放相对较慢，体外释放略微延长，具有良好的缓释作用。

四、结语

本文主要围绕红葡萄酒的质量等级鉴定问题进行研究，首先，分析利用机器学习进行葡萄酒预测的重要性和优势，并对所使用的训练数据集进行详细介绍。其次，阐述建立岭回归模型以及利用该模型进行预测的方法。最后，采用十折交叉验证的算法进行模型评估。但本研究仍存在不足之处，比如只利用了岭回归一种机器学习算法进行研究，较为单一，缺少比较，而且数据集样本量较少也是模型预测不够精确的主要原因。

病虫害防治是冬枣幼果期的一项重要管理内容。病害主要防治炭疽病、斑点落叶病、锈病等，虫害主要防治盲蝽蟓、红蜘蛛、桃小食心虫等。

虽然存在一定缺陷，但本实验极大程度地省去了人工参与的部分，这是人工智能最直接的作用，由于消除了大部分人工分析的主观性影响，因此其预测结果更具客观性和准确性。随着科学技术的进步，机器学习也将一同发展，本研究也会逐渐弥补实验的不足，丰富实验的成果，笔者相信在不远的未来机器学习在大部分领域终将取代人工，更好地为互联网时代发光发热。

参考文献：

[1]周志华.机器学习[M].清华大学出版社,2016.

[2]李航.统计学习方法[M].清华大学出版社,2012.

中图分类号： U472.32

文献识别码： A

文章编号： 2096-3157(2019)07-0087-02

作者简介：

赵耀泽,乌鲁木齐市第四十一中学学生。

标签：红葡萄酒等级鉴定论文; 人工智能论文; 机器学习论文; 岭回归论文; 数据挖掘论文; 乌鲁木齐市第四十一中学论文;