一种基于深度学习的二手房价预测方法
- 国知局
- 2024-09-05 14:21:27
本发明涉及价格预测,具体涉及一种基于深度学习的二手房价预测方法。
背景技术:
1、传统的预测方法主要依赖于历史数据和统计模型,但这些方法往往无法准确捕捉数据的复杂性和变化趋势。由于价格的影响因素较多,要求模型需要具备动态更新和自适应能力。近年来,深度学习技术在处理复杂非线性问题上表现出了显著优势,因此将其应用于价格预测成为一种新的研究方向。
技术实现思路
1、本发明提出的基于深度学习的二手房价预测方法包括:
2、随机森林。随机森林(random forest)是一种集成学习方法,通过组合多个决策树来提高预测精度。它是一种从bagging算法的基础上改进而来的基于分类树的组合算法,该算法由众多没有经过剪枝的决策树组合而成,其基本思想是通过自助法(boot-strap)重采样技术,从原始样本集中有放回的重复随机抽取k个样本集组成新的训练集合,将这k个新的训练集合分别生成k个决策树使之组成随机森林,用于测试集数据的分类或是回归。随机森林将决策树作为bagging之后的基分类器模型。首先,对原始数据集使用bootstrap方法进行随机抽样,生成多个训练集和相应的测试集,每个训练集训练一棵决策树,不同训练集下的决策树相互独立,这些决策树构成随机森林。其次,在决策树构造的过程中,从训练集样本的所有属性特征中随机选取一部分特征构成一个随机特征子空间,作为决策树当前节点的分裂特征集,在随机森林模型的生成过程中,随机子空间大小保持不变。这也是随机森林中最关键的两个随机步骤。最后,分类结果由每棵决策树投票产生。由于随机森林采用的bagging算法是一种集成学习算法,对样本和特征都进行了随机采样,因此避免了过拟合。
3、极端随机森林。它是一种基于随机森林(random forest)的集成学习算法,极端随机森林与随机森林算法有很多相似之处,它们都是由多棵决策树构成的。比如基学习器都是决策树,都可看作为“森林”,因此同样具有很多优秀的特征,如不容易过拟合、抗噪性能良好,能够很好的处理高维特征数据且无需进行特征选择,能够并行化计算且运算效率高等点。但随机森林使用bagging算法对样本进行随机抽取,而极端随机森林则使用所有训练样本构建每棵决策树。换句话说,每棵决策树都使用全部的训练样本。相较与传统的随机森林模型在选定了划分特征后,会基于信息增益、基尼系数、方差之类的原则,选择一个最优的特征值划分点,极端随机森林则会随机的选择一个特征值来划分决策树。这样可以使极端随机森林模型在精度和训练时间等优于传统的随机森林模型。它在每个决策树节点上采用了更加随机的属性选择方式,即随机选择一个特定的阈值来拆分节点,从而构建具有较高随机性的决策树模型。
4、数据清洗。在爬取过程中存在不同数据格式的情况,例如面积字段中部分使用平方米,部分使用平方米符号,将其统一为同一种格式。在爬取过程中存在数据异常值情况,使用均值加减标准差的方法来检测和处理异常值。在爬取房屋数据时有些字段需要拆分,例如地址字段本发明采用拆分为省市区和详细地址的方法。对于字段类型需要进行转换的数据,将文本类型的价格字段转换为数值类型。在爬取不同尺度的数据时,采用归一化操作,使得它们处于同一数量级,方便后续的分析,在爬取过程中发现很多无用的字段和数据,选择进行筛选并保留有用的数据。爬取过程中存在多个数据源,选择数据合并操作,可以根据某些字段进行合并。
5、缺失值填补。经过数据清洗后的数据,虽然删除掉很多数据,但仍然有数据缺失,对于数据缺失值的处理办法有很多,最简单直接的方法就是删除缺失值数据,但有时直接删除数据可能会对最终预测结果产生影响,所以将缺失值进行填补比直接删除数据更好,对于缺失值填补方法有以下几种方法:(1)删除缺失值:当缺失值的数量相对较少时,可以直接将缺失值所在的行或列删除。但是,这种方法可能会导致数据量减少,从而影响模型的精度。(2)填充缺失值:常见的填充方法包括用平均值、中位数或众数来填充缺失值。这种方法适用于缺失值的数量较少,而且数据分布比较均匀的情况。(3)插值法填充缺失值:插值法可以使用一些基于插值的技术,例如线性插值、多项式插值、样条插值等来填充缺失值。这种方法通常适用于时间序列数据和地理信息数据。(4)使用模型来填充缺失值:可以使用机器学习模型,如knn、随机森林、神经网络等来预测缺失值,并用预测结果来填充缺失值。这种方法需要较多的计算资源和时间,但可以提高数据处理的精度。
6、数据标准化。在处理二手房价数据中,各个特征变量的量纲之间往往存在很大的差异,如果不进行处理,直接输入模型中会导致数值大的特征将对结果做出很大的贡献,数值小的特征对结果的作用将非常有限,因此,在建立模型之前对数据进行标准化处理至关重要。数据预处理中的标准化是指将数据缩放到均值为0,标准差为1的范围内,以便更好的与其他数据进行比较和分析。标准化的方法有很多,具体使用哪种方法需要通过具体的问题判断。本发明将采用四种最经典的标准化方法,分别为z-score标准化、min-max标准化、robust标准化、unit-vector标准化。
7、特征选择。特征选择是机器学习中的一个重要步骤,它是从原始数据集中选择贡献度最高的特征,以便于构建高效、准确的模型。在特征选择过程中,需要考虑特征与目标变量之间的相关性、特征之间的相关性、特征的重要性、特征的可解释性等因素。特征选择技术是数据降维的一种重要方法,它的本质就是从原始数据最初的特征集合中,选取一组符合某种评定标准的最优的特征子集,以便在进行分类或回归等任务时,可以获得更好的模型,取得更加精确的分析结果。
8、遗传算法。遗传算法是一种启发式搜索算法,它通过模拟自然选择和遗传机制来寻找最优解。它以进化论中的“适者生存、优胜劣汰”为基本原理,模拟自然界生物进化过程中的遗传、交配、变异等现象,以达到在群体中寻找最优解的目的。遗传算法通常用于解决复杂的优化问题,如组合优化、函数优化和特征选择等。遗传算法的优点在于它具有全局搜索能力,可以在大规模的搜索空间中寻找最优解。但是,遗传算法也存在一些缺点,如算法的收敛速度较慢,容易陷入局部最优解等。为了提高算法的性能,通常需要结合其他算法或改进策略,如多种群遗传算法、自适应遗传算法等。
9、模拟退火算法。模拟退火算法(sa)是一种用于解决优化问题的随机化算法,其思想来自于固体物理学中的退火过程。该算法通过一定的概率接受较差的解,从而避免局部最优解的陷阱,从而寻找全局最优解。sa的基本思路是随机的在搜索空间中移动,通过一定的概率接受劣解,以便能够跳出局部最优解,进而找到更优解。在移动过程中,算法将温度逐渐降低,以减少对劣解的接受率。
10、hyperopt超参数优化。超参数优化是机器学习的重要组成部分,它通常涉及到对模型的各种超参数进行调整,以获得最佳的模型性能。超参数优化可以手动进行,但这往往需要大量的试错和调整,并且很难保证找到最优的超参数组合。hyperopt使用树结构的parzen estimator(tpe)算法进行贝叶斯优化,该算法为每个超参数构建条件概率树,并选择具有最高概率提高模型性能的超参数。tpe算法是有效的,并且可以很好的扩展到高维超参数空间。hyperopt还提供了与流行的机器学习库(如scikit learn、keras和pytorch)的集成,从而可以轻松优化不同类型模型的超参数。总的来说,hyperopt是一个强大而灵活的超参数优化库,可以帮助提高机器学习模型的性能。选取hyperopt来对gsr-erf模型进行超参数优化hyperopt的核心是一种基于随机搜索和贝叶斯优化算法的优化器。它通过不断的尝试不同的参数组合来寻找最优的模型参数配置。
11、基于深度学习的二手房价预测方法设计流程包括4个部分:数据预处理、特征选择、超参数优化和模型评价。在对采集到的数据进行预处理后,将其分为训练集和测试集;采用基于先验卡方原理和混合特征选择算法对极端随机森林模型进行训练;利用hyperopt对训练好的模型进行超参数优化,通过不断的尝试不同的参数组合来寻找最优的模型参数配置,最后将二手房数据送进模型查看预测效果。
12、随机森林特征选择方法优化。由于单一的特征选择算法优势并不相同,并且每种特征选择算法的参数对最终选择结果有很大的影响,容易导致最终特征选择的效果不佳。
13、因此本发明提出一种基于先验卡方原理的混合特征选择算法(gsr)对极端随机森林模型进行改进,最终提出一种基于混合特征选择的极端随机森林(gsr-erf)模型,该算法通过遗传算法(ga)、模拟退火算法(sa)、递归消除算法(refcv)对数据集中的特征进行选择,并通过先验卡方从而确定最优的特征子集。
14、此时,通过优化后的随机森林算法对房价进行预测,预测效果会得到明显改善。
本文地址:https://www.jishuxx.com/zhuanli/20240905/285980.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表