技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于时间序列预测快销品品规分类订单量的方法与流程 > 正文

基于时间序列预测快销品品规分类订单量的方法与流程

国知局
2024-09-11 14:44:04

背景技术：

1、快销品仓库需要同时满足多品规分类存储与出入库效率，既要将种类庞杂的货品储存，又要满足订单的出库效率，为了平衡存储量与存储效率，在建立快销品仓库时，通常会将仓库划分为多个类型不同的区域，部分区域以高密度存储为优先，主要储存不经常出入库的货物；部分区域以访问效率优先，主要存储需要高频出库的货物；也有一些区域介于两者之间，考虑到品规数量、单品库存量、区域库位总量的限制，每个区域能存放的品规数量是有限的，将较多订单均涉及的品规优先放置在效率优先的库区，可以极大的提升仓库的整体出库效率，增加吞吐量、减少工作时间，因此，如何预测近未来一段时间的出库订单，并将其品规按照订单行数分类排序，是快销品仓库工作效率的重要技术，虽然问题本质上需要将所有品规按照预测的订单行数排序，但由于只需要对排序后的结果分组安排到不同的仓库区域，因此只需要按照预测的订单行数将品规分类即可，在业界也称为品规abc分类。

2、目前执行分类时，通常采用两种办法：1、人工预估：根据有经验的人的推算，直接决定下一个出库统计周期内的品规abc分类，这种方法在品规较少且稳定时表现良好，因此被广泛的用于计划经济或者计划色彩浓的领域，例如烟草领域；2、使用算法推算订单后分组：随着数据科学的进步，越来越多的仓库开始采用基于算法的方法来预测订单行数，并据此进行品规分类，这些方法包括：时间序列分析：利用历史销售数据来预测未来需求，常用的统计学模型如arima、指数平滑等，适用于需求模式相对稳定的商品；机器学习和深度学习算法：对于数据量大且变化复杂的商品种类，机器学习模型（如xgboost）和深度学习模型（如lstm、n-hits）可以提供更精准的预测，这些模型能够处理更复杂的数据关系和非线性模式，从而适应不同品规的需求变化，时间序列算法：对历史数据中的订单发生的时间、品规与数量进行训练，分析其中的规律，用于预测未来，为了提升准确度，通常会使用同比、环比数据，并叠加一部分节假日信息；深度学习方法：提供原始订单的尽可能多的栏位，通过深度学习分析其中的潜在关系，缺点是产出的结果不确定，有一定的运气成分，而且由于深度学习的回归性限制，在发生问题时也不容易进行针对性的调整。

技术实现思路

1、本发明的目的在于提供基于时间序列预测快销品品规分类订单量的方法，以解决上述背景技术中提出的问题。

2、为实现上述目的，本发明提供如下技术方案：基于时间序列预测快销品品规分类订单量的方法，包括以下步骤：

3、a、数据预处理：对于每一个快消品规，收集其一定时间区间段的数据并且按一定的时间频率进行聚合，比收集五年内每一个快消品规的每一天的出库频率作为一个时间序列；

4、b、特征变量处理：包括数据归一化以消除量纲影响，确保不同品规的时间序列具有可比性；

5、c、时间序列调整和节假日信息整合：时间序列调整为：生成不同时间尺度的移动平均变量时间序列，主要用于平滑短期波动和突出显示长期趋势，不同时间尺度的移动平均能够揭示不同周期性的数据特征；节假日信息整合为：将公共假期、特殊事件和农历的信息作为外部变量纳入模型，考虑其对销售的潜在影响，创建一个特定的时间序列变量，该变量将反映节假日对消费行为的可能影响，首先，将公历日期转换为农历日期，并在数据集中为每一条记录添加一个新的农历日期字段，对于农历日期，仅保留月份和日子，如正月十五，五月初五，并排除闰月的日期，因为闰月通常没有固定的节日或特定的消费模式，创建一个节假日标识符，对于每个日期，无论是公历还是农历，这个标识符将指明该日是否为特定的节假日，以及这个节假日的类别，通过以下方式实现：固定公历节日：直接在数据中标注这些日期，如国庆节，妇女节，移动公历节日：对于如父亲节这类固定在特定星期但日期不固定的节日，由于通常预测以月为单位，可以不做具体日期标注，只需记载其发生的月份；农历节日：包括固定农历日期的节日和不固定的农历节日，例如，春节、中秋节固定日期的节日直接标注，对于如除夕这种可能的日期变动，腊月廿九或腊月三十，应单独标注以便模型能够识别和学习其对消费行为的影响，最后，为了使这些节假日信息能被时间序列模型有效地利用，需要对节假日信息进行编码；

6、d、外部因素整合：加入宏观经济指标、市场趋势、竞争对手活动等外部因子的时间序列数据，加入与快消品规时间段重合的每日石油和电力价格时间序列并且进行相同的数据预处理后再叠加该快消品的促销活动时间序列，如当日处于促销活动则变量值为1，否则为0，作为外部因子协变量，与节假日时间序列类似，创建一条促销活动信息的时间序列，则其长度与原黑啤酒时间序列相等，仅在有促销活动的日期上值为1，否则为0；

7、e、模型建立与评估：包括模型选择、模型训练、模型应用步骤、递归计算、定义模型参数、样本划分、超参数调整和性能评估，且模型选择为：部署多个模型，如arima、lstm、tft，每个模型独立预测每个商品的出库频率，将选择指数平滑模型和n-hits模型进行训练与评估比较；模型训练为：对每一个时间序列变量包括所有的协变量进行数据集、验证集和测试集的划分，按照4：1：1的比例根据时间长度进行划分，并且取最新的一段时间集合作为测试集，具体的日期划分为：训练集：2019年1月1日至2022年4月30日，验证集：2022年5月1日至2023年2月28日，测试集：2023年3月1日至2024年1月1日，对于指数平滑模型的参数解释为：平滑系数（α）：这个参数控制模型对历史数据的“记忆”长度，α值越大，最近的观测值对平滑结果的影响越大，模型对趋势的反应也越敏感，相反，较小的α值使得模型更加平滑，对历史数据变动的反应较慢；模型应用步骤为：初始化：选择一个合适的初始平滑值，是系列的第一个观测值，或者使用前几个观测值的平均；选择平滑系数：选择一个初始平滑值，这个值通常是基于经验选择的，或者可以通过最小化预测误差，如平均绝对误差或均方误差来优化；递归计算为：对于时间序列中的每一个新观测值，使用下列公式计算新的平滑值，，其中为时间点t的平均值，为时间点t的实际值，a为平滑系数，为时间点的预测值；进行预测：简单的指数平滑模型的预测值就是最新的平滑值，对于所有未来的时间点，预测值保持不变，直到有新的观测数据可用，对于n-hits模型则定义模型参数，输入长度：选择适当的输入长度是关键，这通常取决于数据的周期性和季节性特征，例如，如果数据显示出明显的年度周期性，可能需要至少一年的数据来捕捉这些周期性变化，取输入长度为90天；输出长度：确定模型预测的时间范围，做月度销售预测，则可以设定输出长度为1个月；样本划分为：时间序列样本构建：从整个时间序列数据中抽取连续的时间窗口作为训练样本，每个样本包括指定的输入长度和输出长度，同时可以设置每个时间序列可采样的最大样本量来进行随机采样以防止过长的时间序列将带来过大的计算量消耗，每个时间序列的最大样本量为200；超参数调整为：在处理复杂的机器学习模型如n-hits时，通常有专门用于自动化机器学习模型的超参数搜索过程的工具，如optuna，使用optuna对模型搜索最优的神经网络结构，学习率，批次大小，一次训练中用来计算梯度的样本数量超参数；性能评估：通过指定的损失函数，如mse、mae，评价标准，如准确率、召回率、f1分数，比较不同模型的表现，使用rmsle作为loss函数与评估度量，rmsle是基于时间序列预测快销品品规分类订单量的方法用于评估两个数量之间的差异的度量，特别是当涉及到需要预测精确数量，且预测值和实际值都应该为正数时，如库存、销售、人口，rmsle对较小值的预测错误更为敏感，而对较大值的预测错误不那么敏感，其公式定义如下：，其中n是样本总数，是第i个样本的预测值，是第i个样本的实际值，表示自然对数，上述模型中，对测试集进行预测并且采用rmsle较低的模型作为新数据预测的模型；

8、f、新数据预测：包括新品规整合和出库量预测，新品规整合为：首先设定一个新品规的时间上限，将新近加入且存在期未超过此上限的品规识别为新品规，定义为市场上销售不超过六个月的产品，如果新数据中涉及新品规，使用语义模型，如自然语言处理技术，将新商品信息转换或映射至训练集中的已知商品信息，如现有新上架品规名称为“有机橙汁500ml”，其上架销售时间已经超过6个月，则收集其上架至今的数据按照上面的数据处理和训练方法，加入到训练集中重新训练模型，如果新上架品规名称为“苹果酒500ml”销售未超过6个月，则采用语义模型将其归类到已有的相近名称品规中进行预测，出库量预测为：使用选定的最佳模型对新数据进行出库量预测，其中指数平滑模型的预测公式为：，其中为下一期的预测值，a为平滑常数，介于0和1之间，为当前期的实际观测值，为当前期的预测值，表示1减去平滑常数，对于n-hits模型，首先预处理现有的苹果酒500ml的数据作为时间序列，并且添加其相似品规即黑啤酒的品规品类信息，然后将该时间序列输入到训练好的模型中，输出未来n个时间点的预测值，其中输入时间序列的长度m和输出的时间步长n需要分别与训练时的超参数设定inputlength，outputlength相同，预测表示为，其中表示在时间的预测值，f是由模型定义的函数，其涉及复杂的神经网络结构包括卷积层，循环层或全连接层，不在此赘述；

9、g、聚类分析：根据预测的出库频率，对商品进行聚类分析，以识别潜在的abc分类，使用k-means聚类，并且设置参数k=3：代表三类不同的销售或库存水平；

10、h、结果应用：包括决策支持、模型外部因素、宏观经济数据、商品价格、市场竞争情况、政策与法规变动和国际影响因素，决策支持为：根据聚类和预测结果提供决策依据，再根据供应链决策、库存管理和营销策略进行最终决策；宏观经济数据包括gdp增长率、消费者信心指数和零售销售数据，gdp增长率为：经济总体增长情况可以反映消费者购买力和市场需求；消费者信心指数为：反映消费者对未来经济形势的信心，高信心可能促进消费增加；零售销售数据为：直接反映消费品市场的活跃度和消费趋势，商品价格包括原材料价格和能源价格，原材料价格为：如塑料、纸张等原料价格变动，可能影响生产成本，进而影响产品价格和销售；能源价格为：石油和电力价格，这些成本的变动可能会影响整个供应链的运营成本；市场竞争情况包括竞争品牌的市场活动和新产品上市，竞争品牌的市场活动为：如促销、广告投放等，可能会影响消费者的购买选择；新产品上市为：竞争对手的新产品推出可能会吸引消费者的注意力和消费份额；政策与法规变动包括消费税调整和进出口政策，消费税调整为：税率的变动可能会直接影响产品的最终零售价格；进出口政策为：对于依赖进口原料或面向出口市场的产品，相关政策变动可能会影响成本和定价；国际影响因素包括全球经济环境和汇率变动，全球经济环境为：全球经济形势的变化可能影响出口市场的需求；汇率变动为：对于进口原材料或出口产品的企业，汇率波动可能会对成本和收益产生重大影响。

11、优选的，所述步骤a中，比如将“kaiserdom黑啤酒500ml”这一品规从2019年1月1日到2024年1月1日每一天的出库频率收集并以天为时间单位作为一个时间序列，这样的时间序列共有n条，n为记录中品规总数量，步骤b中，在预测商品出库量时，模型可能过分侧重于数值本身较大的特征，如一日出库上万卷的纸巾的时间序列，而不是同等重要的特征，如贵重电器的时间序列可能每日最大出库量为十，因此对每个品规的时间序列进行归一化，归一化后，每个特征对模型的贡献得到均衡，可以更公正地评估它们对预测结果的影响，利用minmaxscaler方法对数据进行归一化操作，，在这个公式中，x代表原始数据点，min(x)是整条时间序列数据集中的最小值，max(x)是时间序列数据集中的最大值，而则是归一缩放后的新值，此公式将每个数据点x缩放到0和1之间的值，将数据缩放到任何其他范围[max(x)，min(x)]公式可以进一步扩展为：，静态协变量时间序列：对于每个品规时间序列，添加固定的不随时间变化的静态协变量，通常是该品规的名称和类别，给“kaiserdom黑啤酒500ml”这条时间序列添加其品规名称和类别“风味饮料”作为其不随时间变化而变化的静态协变量。

12、优选的，所述步骤c中，添加7天、14天和30天的移动平均变量时间序列作为学习模型的协变量，其中7天移动平均为：7天移动平均通常用来观察一周内的趋势，针对黑啤酒这条时间序列，另外生成一条等长的时间序列，其中每个点的值是黑啤酒原序列在这一点的值及前六天的平均值，如果不足7天则取原序列本身的值，不采用移动平均值，这样新生成的一条时间序列为7天移动平均时间序列，下面的14天，30天移动平均序列同理；14天移动平均为：14天移动平均提供了两周数据的平均效果，有助于观察更长时间尺度上的趋势变化，这可以帮助分析半月效应或工资发放前后的消费模式变化；30天移动平均为：30天移动平均涵盖了大约一个月的时间，这有助于平滑月度周期性波动，如月初和月末的消费行为差异，这对于月度报告和分析具有重要价值；设是时间t上的数据点，则n天的移动平均为：是在时间点t的移动平均值，n是移动平均窗口的大小，表示在计算平均时考虑的天数，是从当前时间点t向前回溯i天的数据点，基于时间序列预测快销品品规分类订单量的方法常见的方法是使用独热编码，为每个节假日或节假日类别创建一个二进制变量，1表示是该节假日，0表示不是，例如在该节假日时间序列中，其长度与原来的黑啤酒时间序列相同都是从2019年到2024年，但是其数值为0和1，仅在节假日的日期上数值为1表示这一天是节假日，这样，每个日期都会有一个节假日特征向量，模型可以根据这些特征向量来学习节假日对销售或消费行为的影响。

13、优选的，所述步骤f中，具体操作如下：一个典型的选择是使用预训练的词嵌入模型，如word2vec、glove或fasttext，这些模型能够将单词，是产品描述中的关键词，转换为密集的向量表示，这些向量捕捉了单词的语义信息，即在语义上相似的单词会被映射到向量空间中的接近位置，假设我们有一个新品规，其描述为“有机苹果酒500ml”，为了将这个新品规归类到训练好的预测模型中，按照以下步骤操作：文本预处理：对模型中已有每一个品规名称包括新品规进行标准的文本预处理，包括小写化、去除停用词和标点符号；特征提取：使用一个词嵌入模型，如fasttext，转换上述预处理过的文本，将每个词转换为一个嵌入向量，例如“有机苹果酒500ml”被转换成一个100维的向量[0.12，0.23，-0.09，0.45，...，0.21]，“黑啤酒500ml”被转换成[0.11，0.22，-0.09，0.45，...，0.21]，接下来使用余弦相似度计算新品规和原有的每一个品规的嵌入向量的相似度，找出最相似的品规，余弦相似度通常用于计算两个向量间的余弦角，其值范围从-1，完全不同，到1，完全相同，余弦相似度的计算公式为：，模型整合：最后得出与苹果酒的嵌入向量余弦值最相近的向量为黑啤酒500ml，因此将苹果酒归为黑啤酒进行预测。

14、优选的，所述步骤g中，a类为高销售/高重要性商品，b类为中等销售/重要性商品，c类为低销售/低重要性商品。

15、优选的，所述步骤h中，最终k-means聚类的结果是在所有的品规中有40％是a类，b/c类各30％，但是由于库存区域原因，可按预测出库量顺序来选择前30％作为a类，40％作为b类，排序最后的30％作为c类，模型外部因素考虑可以引入多个与中国市场环境和经济活动密切相关的外部因素，这些因素可能对快消品市场需求产生直接或间接的影响。

16、与现有技术相比，本发明的有益效果如下：

17、本发明通过对传统的基于时间序列的预测算法进行三个大方面的修改和补充以构造新的方法，使其更好的适用于预测快销品品规分类订单量的工作。