机器学习技术对食品销售预测的最新进展

ifyoung • 2020年8月7日 pm8:03 • AI食品 • 阅读 1367

本文回顾了用于预测食品销售的现有机器学习方法。讨论了从事食品销售预测的数据分析师的重要设计决策，例如销售数据的时间粒度，用于预测销售的输入变量以及销售输出变量的表示形式。同时回顾了已应用于食品销售预测的机器学习算法以及评估其准确性的适当措施。

短期预测主要有助于生产计划和库存管理，而长期预测则有助于业务发展决策（Doganis等，2006）。销售预测科学性应得到计算机系统的支持，计算机系统可以在帮助管理人员做出正确的决定。计算机系统可以通过专家知识进行建模。或者，可以利用大量的销售数据和相关信息通过机器学习技术自动构建准确的销售预测模型。后者系统更为主观，并且它是动态的，意味着它可以适应数据的变化。

一、食品销售预测作为机器学习任务

食品销售预测是时间序列预测任务。可以使用诸如自动回归移动平均值（ARMA）和自动回归综合移动平均值（ARIMA）之类的经典统计技术来解决此任务。但是，采用机器学习方法来处理时间序列预测通常更强大，更灵活。功能强大，因为它允许使用现代最先进的监督学习算法，例如用于回归和模型树的支持向量机（Landwehr等人，2005年）（在叶子处具有线性回归功能的决策树）。

本节讨论从事食品销售预测的数据分析师的许多重要设计决策，例如销售数据的时间粒度，用于预测销售的输入变量以及销售输出变量的特定表示形式。最后，它讨论了已应用于食品销售预测的学习技术。

1.1时间粒度

对于货架期短的产品，例如牛奶（Doganis等，2006）和新鲜食品（例如，三明治和面包卷），需要每日销售预测。（2010），每天制作一次。对于保质期长的产品，每周的销售预测足以进行库存管理（Žliobaite等，2012）。与产品寿命无关，季度预测可以帮助管理人员在融资，基础设施规划和营销领域做出业务发展决策（Doganis等，2006）。

1.2输出变量

食品销售预测任务中的典型监督信息是每种产品的销售量。可以在商店级别（零售）或制造工厂级别（批发）记录销售。

不过，仅销售量并不能提供由于缺货产品而错过的销售机会的信息。但是，这种信息很难甚至不可能在商店记录。如果客户发现产品缺货，则可能不会表达对产品的兴趣，但是即使表达了这种兴趣，销售人员也需要付出一些努力才能记录下来。在面包店和糕点店的特殊情况下，还存在一个问题，即销售数据仅适用于某些产品。造成这种情况的原因之一是，销售人员通常太忙以致无法记录特定类型的产品，而是记录产品的一般类别。另一个原因是混合篮子问题，客户需要一个篮子，篮子中装有许多每公斤价格相同的不同产品。通常在订单结束时对它们进行一次加权，并记录它们的一般类别，因为分别对每种不同的产品进行加权会花费相当长的时间。由于这些问题，面包店和糕点店通常缺乏库存单位。

这些问题的一种解决方案是在一般类别级别应用销售预测。另一个方法是将销售数字均匀地或基于商店在相同或以下时间点上对这些特定产品的需求量，将销售数据分配给每个特定产品。

使用实际销售额作为输出变量，将销售额预测建模为回归任务。另一种表示形式是考虑实际销售数据与多个销售水平的近似值，例如：非常低，低，平均，高，非常高（Bakker和Pechenizkiy 2009）。然后，如果忽略输出变量值之间的顺序关系，则可以将销售预测建模为顺序分类任务（Frank和Hall 2001）或简单的分类任务。

输入变量

影响机器学习项目成败的最重要因素也许是所使用的功能（Domingos 2012）。预测变量可以分类为与销售相关的功能，这些功能可以从公司的数据仓库（内部）获得，也可以从外部资源获得（Žliobaite等，2009）。

内部功能最常见的类型是滞后变量，即过去时间单位（天，周等）的产品销售数字。滞后变量是命题学习算法可以捕获序列的过去值与当前值之间的关系的主要机制。他们会在一段时间内创建“窗口”或“快照”。本质上，创建的滞后变量的数量决定了窗口的大小。窗口的适当大小可以通过实验确定。可以根据给定问题的时间粒度确定合理的默认值。该窗口不必包含连续的时间单位，另外，可以将连续的滞后变量平均为一个字段，以减少输入变量的数量，因为大量的输入变量可能会对某些学习算法产生不利影响。

内部特征的另一种常见类型是时间和日期派生变量，例如时间是否在中午之前，星期几，是否是周末，一年的月份，一年的季度和一年的季节。

一类重要的内部功能是与产品相关的功能。这些通常包括产品的品牌，包装信息，是否在促销中，价格弹性，有效期是否短以及是否是假日产品。

用于销售预测的外部功能可以是与天气相关的数据（Liu和Ichise，2017年），财务指标以及与日期相关的功能，例如假期或吸引大众消费的事件（例如，美国的超级碗）。

Doganis等人考虑了以下内部特征。（2006）：前6天的销售额，去年同期（一周中的同一天，大约相同的日期）的销售额，该日前6天的销售额以及销售额的百分位数变化在今年和上一年之间。从经验上发现更有用的5个功能是今年的销售额，其滞后时间为1（前一天）和6（滞后一周的同一天，因为网点每周营业6天），以及相应的销售额。上一年出现滞后3、5和6。Žliobaite等人考虑了以下内部和外部特征。（2009年）：产品销售量，产品销售量的移动平均值，去年产品销售量的移动平均值，所有产品的累积销售量，去年所有产品的累积销售量，产品促销，日历，宗教和学校假期为二进制特征，季节为4进制功能，月份为13位二进制特征和温度。Meulstee和Pechenizkiy（2008）使用了相关产品的最后六个时间点（在这种情况下为几周）的销售。经过聚集的层次聚类过程，相关产品被视为属于同一群集的产品。各种距离量度的实验表明，动态时间扭曲和最长公共子序列可产生良好的效果。

1.3学习技巧

一种简单的预测技术是移动平均值（MA）。目标变量的预测是最后n个观察值的平均值。

Doganis等人使用混合计算智能方法。（2006）。使用模糊均值算法以快速无监督的方式训练径向基函数（RBF）网络。遗传算法还用于搜索输入变量子集的空间以及输入变量的模糊集数量，该数量作为模糊均值算法的输入而给出（介于3和15之间）。

在Meulstee和Pechenizkiy（2008）中使用了集成方法。该集合由使用8种学习算法（2个决策树学习者，2个规则学习者，2个惰性学习者，支持向量机和逻辑回归）产生的24个模型组成，并具有3个不同的时间窗口（13、26和52个时间点）。合奏使用动态集成（Tsymbal等组合2008）。

深度学习最近被用于预测日本超级市场的销售额（Liu and Ichise 2017）。具体来说，该方法涉及到堆叠式去噪自动编码器以生成深层次的高级功能，然后将这些功能馈入长期的短期存储网络中以预测未来的销售量。

二、评价

为了评估食品销售预测算法，通常使用以下实验协议：将每个时间段的每种产品的销售量在同一时间点分为两个部分，第一个按时间顺序成为火车组，第二个按时间顺序成为火车组测试集。然后依次对算法进行训练和测试：对于测试集的每个时间点，直到先前时间点的所有数据都可用于训练算法。

考虑一个包含n个示例的测试集，其中是输入的向量，是目标变量（销售额）的值。让我们用表示此测试集中目标变量的平均值。还考虑一个模型，其中X是输入空间，该空间已从训练集中进行训练。然后可以基于以下措施评估产品算法的准确性（Bakker和Pechenizkiy 2009； Aho等人2012）：

评估不同食品销售预测算法的典型方法是计算每种产品的预测误差并汇总结果。但是，由于目标变量的规模可能会在不同产品（例如小批量产品与大批量产品）之间发生显着变化，因此汇总未缩放的度量（例如MAE，MSE，RMSE）不是可行的解决方案。MAPE根据目标变量的实际值缩放误差。这导致可以在不同产品上汇总的值，但是当目标变量的值为零甚至接近零时会遇到问题。MASE和RRMSE分别是不受此问题困扰的MAE和RMSE的缩放版本。MASE使用基线方法（例如移动平均值或随机游走）的MAE缩放MAE。RRMSE用预测测试集平均值的基线方法的RMSE缩放RMSE。在Bakker和Pechenizkiy中提出了将MASE与每种产品使用不同的基准的情况（2009）。

三、结论与机遇

食品销售预测可以帮助进行短期和长期决策，并可以降低成本和增加销售量。它主要是一个时间序列的预测问题。但存在部分问题，第一个是要求具有增加的预测值的外部功能（例如，假期，天气），以便获得良好的效果。第二个是它由许多不同的预测任务组成，每个产品可能都有一个相关的预测任务。需要各种学习算法来匹配每个不同时间序列的属性。

食品销售预测现在研究应用比较狭窄，造成这种情况的主要原因之一是缺乏公开可用的数据，这很可能是由于商业敏感性以及避免了对竞争对手的潜在泄漏。实际上，食品预测任务仍然仅基于人类专业知识。在某些情况下，食品销售预测作为针对核心业务需求（例如记录客户交易）的软件模块提供。在简单和高级软件解决方案中，人工决策者始终拥有最终决定权，通常被允许以外部变量的形式进行调整，以应对（机器学习）系统未知的可能影响需求的原因，

添加有关相似产品的销售信息作为功能的输入变量，增加了使用多目标回归技术处理相似产品组的机会（Aho等人，2012年）。

参考：

[1] Tsoumakas G. A survey of machine learning techniques for food sales prediction[J]. Artificial Intelligence Review, 2019, 52(1): 441-447.

原创文章，作者：ifyoung，如若转载，请注明出处：https://www.drugfoodai.com/predict-sale.html

注意：本站原创指的是原创编译，并不主张对所介绍的工作的版权，如有侵权，请联系删除！

机器学习销售预测食品

ifyoung

1 0

微信扫一扫

支付宝扫一扫

jQuery会退出前端历史舞台吗

« 上一篇 2020年8月7日 am11:20

药物开发中基于深度学习的不平衡数据分类

下一篇 » 2020年8月8日 pm1:48

AI食品

一种基于机器视觉系统和深度学习的检测姜黄粉中掺假的新方法

今天介绍一篇最近由伊朗阿达比大学生物系统工程系Ahmad Jahanbakhshi等人发表在COMPUT BIOL MED （Q1, IF: 4.589）期刊上的文章。文章研究中，采用改进的卷积神经网络(CNN)对姜黄粉末图像进行分类，以检测参假。结果表明，计算机视觉，特别是与深度学习(DL)相结合，可以成为评价姜黄粉质量和检测参假的一种有价值的方法。

ifyoung
2021年11月21日 0 2 1.8K 0
AI食品

中国科学院上海技术物理研究所万雄课题组：基于β-胡萝卜素拉曼光谱定量检测的橄榄油鉴别

采用激光共聚焦拉曼技术与基于DFT的拉曼光谱相结合，准确分析了植物油的成分，并识别出低成本的仿制橄榄油。

FoodAI01
2022年10月26日 0 0 1.2K 0
AI食品

重磅干货：食品科学数据库资源汇总（国外篇第二部分）

书接上期，我们分享了一系列国内的食品数据库资源和一部分国外食品专业数据库。这些数据库主要对食品添加剂的安全、食品成分、食品营养和食品酶等方面进行了数据分析与平台搭建。下面继续介绍几篇相关的食品数据库文章。

ifyoung
2022年6月13日 0 1 2.8K 0
AI食品

人工智能从科学文献和媒体报道中检测未知兴奋剂推文

今天介绍一篇由Anand K. Gavai等人于2021年在Food Control上发表的文章。文中提出了一种方法用机器学习来检测在保健品中未知的兴奋剂。从两个不同的数据来源中确定了20种新的兴奋剂，分别是用单词嵌入模型从科学文献中自动发现未知兴奋剂，以及基于文本挖掘在万维网上搜索新闻报道来收集新的兴奋剂。

ifyoung
2021年10月24日 0 1 1.4K 0
食品质量和真伪分析评估的数据挖掘/机器学习方法

近年来，为了更好地鉴定食品，通过现代分析仪器所获得的数据种类和数量急剧增加。一些模式识别工具已经被开发来处理大量复杂的有效试验数据。应用最广泛的方法有主成分分析(PCA)、部分最小二乘判别分析(PLS-DA)、类模型方法(SIMCA)、k-最近邻分类算法(kNN)、平行因子分析(PARAFAC)和多元曲线分辨率-交替最小二乘分析(MCR-ALS)。然而，也有一些替代的数据处理方法，如支持向量机(SVM)、分类回归树(CART)和随机森林(RF)等，与传统的数据处理方法相比，显示出巨大的潜力和优势。在这篇文章中，作者解释了这些方法的背景，并回顾和讨论了这三种方法在食品质量和真实性领域的应用研究的报道。此外，作者声明清楚了在这一特定研究领域中使用的专业术语。

ifyoung
AI食品 2020年8月25日 1 0 1.9K 0
AI健康

Nutrients：eBASIS数据库中的可提取和不可提取抗氧化剂成分：人类健康和疾病研究中膳食评估的关键工具

今天介绍一篇由Jenny Plumb等人于2020年11月在线发表在Nutrients（IF=6.71）上的文章。这篇文章讨论了eBASIS数据库的更新，该数据库包括可提取和不可提取的抗氧化剂，这对于评估食物基质的抗氧化性质及其与人类健康的相关性非常重要。文章还介绍了非可提取多酚的重要性、测量食物和膳食补充剂中抗氧化活性/容量的各种方法、维护和更新食物成分数据库的重要性以及相关挑战。总体而言，文章强调了需要标准化的方法和数据库来准确评估我们饮食中的生物活性化合物及其潜在的健康益处

ifyoung
2023年7月4日 0 0 470 0
AI食品

天津工业大学卞希慧课题组：变分模态分解加权多尺度支持向量回归用于植物油和中药掺伪的光谱定量分析

天津工业大学化学工程与技术学院的复杂体系智能分析与计算实验室采用紫外可见光谱和近红外光谱结合基于变分模态分解的集成建模方法实现了掺伪植物油和中药的定量分析。相关研究成果在2022年8月1日以题为“Variational Mode Decomposition Weighted Multiscale Support Vector Regression for Spectral Determination of Rapeseed Oil and Rhizoma Alpiniae Offcinarum Adulterants”发表在国际学术期刊Biosensors（IF=5.743）上。

FoodAI01
2022年9月20日 0 0 1.2K 0
AI食品

智能食品加工：从人工神经网络到深度学习的旅程(三)

今天，我们将继续给大家带来综述《智能食品加工：从人工神经网络到深度学习的旅程》的第三个单元的介绍——基于深度学习的智能食品加工。

ifyoung
2021年8月26日 0 2 2.0K 0
AI食品

如何科学地挑选西洋参 / 机器学习预测西洋参生长年限

疫情反复，想买点西洋参提高下免疫力，又怕买到假货？今天这篇发表在Chinese Medicine (IF=5.4)的文章教你如何科学地剁手鉴定西洋参生长年限。这篇文章由中国食品药品检定研究院胡笑文、严华等人于2021年10月发表，通讯是魏锋和马双成研究员。这项研究基于106批西洋参样本和4种机器学习算法，建立了西洋参年限预测模型。为了进一步适应不同来源的西洋参样本，又基于相似性构建了模型的应用域，最终实现了对西洋参生长年限的准确预测。该方法为西洋参年限造假的鉴别提供了技术支持，论文也提供了完整的模型代码。

ifyoung
2021年11月2日 0 0 1.9K 0
AI食品

中国农业科学院农业信息研究所樊景超研究员课题组：ITF-WPI 基于图像和文本的枸杞害虫识别跨模态特征融合模型

导读 2023年8月，中国农业科学院农业信息研究所樊景超研究员课题组在农业科学领域Top期刊Computers and Electronics in Agriculture（Q1，…

ifyoung
2023年8月24日 0 0 487 0

机器学习技术对食品销售预测的最新进展

相关推荐

发表评论 取消回复

发表评论取消回复