一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于多源数据的旅游路线可视分析与规划方法与流程

2021-10-24 06:24:00 来源:中国专利 TAG:可视 分析 化与 路线 规划

技术特征:
1.一种基于多源数据的旅游路线可视分析与规划方法,其特征在于,包括以下步骤:s1:数据采集获取三类数据:旅游路线数据、旅游评论文本数据和旅游目的地地理信息数据;s2:数据处理对步骤s1中采集的数据进行以下处理:路线主题分类:用路线经过的目的地的评论文本对路线进行主题分类;目的地热度与评分:计算旅游目的地的热度指标和评分指标;s3:可视化映射设计主题路线降维可视化映射:对路线集合进行主题降维,可视化降维结果用于查看路线主题分布,选择路线集合;设计频繁路线可视化映射:对频繁挖掘结果、频繁路线可视化编码,用于频繁模式和路线的分析;设计目的地情感可视化映射:表示目的地的情感变化与关键词,用于分析目的地形象的时序变化和关键情感信息;设计路线规划可视化映射:表示详细的路线规划结果,用于分析各景点和城市的时间和游玩类型的规划安排与分布;s4:可视化布局将步骤s3定义好的映射规则进行具体的可视化布局及绘制实现:先根据路线类型、时间和空间约束过滤路线数据,然后基于主题分类结果降维,将降维后的结果以散点形式绘制在视图中,构成主题路线降维视图;将每条路线的目的地按照顺序排列绘制在地图上,并在周围绘制主题构成、热度、评分的关键信息,构成频繁路线视图;提取选择的目的地评论集合的关键词与关键词的共现关系,利用力引导布局计算其坐标位置,将词语绘制在视图中,构成目的地情感关键词视图;对加入计划的路线进行路径优化,优化后路线计算其层次关系并绘制在视图中,构成路线规划视图。2.根据权利要求1所述的基于多源数据的旅游路线可视分析与规划方法,其特征在于,在步骤s1中,所述数据采集具体为:s1.1:采集旅游路线分享页的网页内容,包括各旅游路线内容和计划详情的页面链接集合;s1.2:访问并解析计划详情页面,获取路线计划的计划时间、访问城市、访问景点、停留时间;s1.3:在旅游评论网页检索路线访问的所有景点,采集景点的评论内容、评分、评论时间;s1.4:在地图网页检索路线访问的所有城市、景点的地理坐标、标准名称;s1.5:建立路线

城市

景点

评论的数据结构索引。3.根据权利要求1所述的一种基于多源数据的旅游路线可视分析与规划方法,其特征在于,在步骤s2中,所述数据处理具体为:s2.1:对于景点路线,将路线访问的所有景点的评论文本聚合,对于城市路线,将路线
访问的所有城市的所有景点的评论文本聚合,聚合后的长文本作为路线的文本,然后利用主题分类方法从路线文本中抽取主题,每个主题包含若干关键词,最后以主题概率的形式表示每个路线,得到路线的主题构成;s2.2:对于目的地热度计算:统计各目的地评论文本数量,景点本文数量为该景点下评论数量总和,城市文本数量为该城市下所有景点评论数量之和,分别将城市和景点的本文数量值归一化处理后,得到在1~5区间内的归一化热度值数量值归一化处理后,得到在1~5区间内的归一化热度值其中,h
i
代表第i个城市或景点的热度值,n代表城市或景点的数量,h
min
为最小热度,h
max
为最大热度;再取其平均值得到各城市和景点的访问热度:其中,h
visit
为访问热度指标,h
route
为路线热度;h
comment
为评论热度;对于目的地评分计算:城市和景点的访问评分为网络评分和评论评分的平均值;其中,s
visit
为访问评分指标,s
web
为网络评分,s
comment
为评论评分。4.根据权利要求1所述的一种基于多源数据的旅游路线可视分析与规划方法,其特征在于,在步骤s3中,所述主题路线降维可视化映射具体为:旅游路线使用圆点进行编码,圆点的二维坐标为该路线的主题概率分布的降维结果,点与点之间的距离代表它们的主题概率相似程度,相近代表相似程度较高,远离则代表相似程度较低;圆点的填充颜色表示该路线的主题概率组成,使用不同颜色编码不同主题,圆点的颜色由其所属的每个主题概率与该主题的颜色的乘积叠加计算所得。5.根据权利要求1所述的一种基于多源数据的旅游路线可视分析与规划方法,其特征在于,在步骤s3中,所述频繁路线可视化映射具体为:使用柱状图编码不同节点数的频繁路线数量,供用户通过交互手段选择频繁路线集合,并通过路线概览视图列表展示;所述路线概览视图包括由外到内排布的环状面积图、环形图和圆形的地理视图;对于路线集合中的每一个频繁路线,将途经的目的地按照其经纬度将带有序号的标识符标注在地理视图上,并用直线连接相邻的目的地;所述地理视图的外侧采用环形图表示该路线的来源路线集合的主题分布和比例,每个主题环形的角度对应该主题在所有主题概率中所占比例;环形图左右两侧布局两个半圆环状面积图,分别编码路线中各目的地的热度和评分,图中每个极轴对应一个热度或评分的数值,每个极轴刻度通过贝塞尔曲线连接,构成半圆环面积图。6.根据权利要求1所述的一种基于多源数据的旅游路线可视分析与规划方法,其特征在于,在步骤s3中,所述目的地情感可视化映射具体为:
对于目的地情感时序变化,采用不同的颜色对积极情感、中性情感和消极情感进行编码,纵向高度表示不同类型情感评论在该时间段内所有评论中所占比例,所有时间横向排列构成时序面积图,供用户在其中刷选时段,过滤探索情感关键词的评论数据;对于目的地情感关键词,采用不同的颜色对积极情感、中性情感和消极情感进行编码,关键词大小代表词语在集合中出现的频率;布局共分为两个部分,第一部分是情感比例,按照集合中统计的各情感类型的句子数量将画布按比例分为积极、中性和消极区域,关键词只允许在对应的区域内绘制;第二部分是力引导布局,根据关键词在集合中句子的共现关系定义关键词之间的引力,共现次数越多引力越大,布局越接近,词语间通过电荷斥力与碰撞检测规则使词语保持基本距离。7.根据权利要求1所述的一种基于多源数据的旅游路线可视分析与规划方法,其特征在于,在步骤s3中,所述路线规划可视化映射具体为:对加入规划的路线进行路径优化,优化完成后的路线分为日期、城市、景点三个层级,日期为最大层级,使用纵向排列的单列表格表示,每个单元格内部有横向排列的左右两个柱形,左边的柱形表示当日游玩城市,右边的柱形表示对应城市的游玩景点,景点柱形的长度由其计划游玩时间决定,颜色由该景点的类型编码,城市柱形长度则为其对应景点柱形长度之和,颜色由其所有景点游玩世间最长的景点类型编码。8.根据权利要求7所述的一种基于多源数据的旅游路线可视分析与规划方法,其特征在于,所述路径优化方法具体分为三个步骤:s3a:遍历每一个目的地作为一个可行解序列c的起点,并将目的地按照游玩时间降序排序得到队列p,计算其他各点到起点的弧度,升序排序得到队列q,对于每一个可行解序列c执行下一步;s3b:查找当前目的地g在q中的位置,分别按顺时针和逆时针查找是否有符合约束的下一个目的地:如果在的顺时针方向存在目的地,而逆时针方向没有符合约束的目的地,则直接将顺时针结果设为当前目的地g;如果在的顺时针方向没有符合约束的目的地而逆时针方向存在目的地,将逆时针结果设为当前目的地g;如果两个方向上均存在目的地,则比较二者到当前目的地的行驶时间,选择时间更短的作为当前目的地g;如果在两个方向上均不存在符合约束的目的地,则取出队列p的第一个元素作为当前目的地,并计算其他各点到当前点的弧度更新队列q;将当前目的地g加入解序列c,并从队列p和q中将该目的地删除,如果队列p中仍存在目的地,重复执行上述步骤;否则,将得到的解序列c作为染色体加入初始种群集合;s3c:对初始种群进行遗传算法迭代优化,收敛后的最优子代作为最终序列输出。9.根据权利要求1所述的一种基于多源数据的旅游路线可视分析与规划方法,其特征在于,所述步骤s4中,主题路线降维可视化布局实现包含以下步骤:s4.1.1:对于路线主题概率数据,通过各数据点之间的欧式距离,计算得到表达相似性的条件概率,计算公式如下:式中,p
j|i
是x
i
按照以其自身为中心的正态分布选择邻居时,选择x
j
为邻居的概率;σ
i
是以x
i
为中心的正态分布的方差,x
k
是除了x
i
以外的所有数据点;
s4.1.2:对于低维数据点,计算公式如下:式中,q
j|i
是y
i
按照以其自身为中心的正态分布选择邻居时,选择y
j
为邻居的概率;y
k
是除了y
i
以外的所有数据点;s4.1.3:使用梯度下降使数据点k

l散度之和最小,联合概率分布来映射相似度以解决代价函数不对称的问题,对称代价函数对应的梯度计算公式如下:式中,e为对称代价函数,表现为概率分布的k

l散度总和;s4.1.4:利用t分布代替正态分布以解决正态分布映射导致的“拥挤问题”,最终的低维联合概率分布公式如下,使用该公式获得各路线降维后的二维坐标;s4.1.5:图中点的颜色由rgb三个颜色通道组成,每个颜色通道值计算公式如下:式中,c
r
是路线点r的各颜色通道值,t
k
是路线属于第k个主题的概率,c
t
是主题t的各颜色通道值,k
t
为主题的总数量。10.根据权利要求1所述的一种基于多源数据的旅游路线可视分析与规划方法,其特征在于,所述步骤s4中,频繁路线可视化布局实现包含以下步骤:s4.2.1:实现左侧柱状图的布局,柱形元素按照平行坐标的纵轴排列分布,垂直宽度映射不同频繁路线集合中包含的路线节点数,宽度值统一且平均分布在纵轴,计算公式如下:式中,barheight是柱状图垂直宽度,totalheight是视图总高度,padheight是预设垂直间隔宽度,s表示集合的总个数;s4.2.2:柱状图中每个柱形元素的水平宽度表示该集合中包含的频繁路线数量的值,计算公式如下:式中,r
b
表示第b个柱形的宽度与视图总宽度的比值,sum
b
为第b个柱形对应的频繁路线集合中的路线数量,sum
min
是所有频繁路线集合路线数量最小值,sum
max
为所有频繁路线集合路线数量最大值,barwidth
b
是第b个柱形的水平宽度,totalwidth是视图的总宽度,s为集合的总个数;s4.2.3:布局路线概览视图中的外层环状面积图中极轴的位置公式如下:
式中表示评分面积图中第a个极轴的角度,为热度面积图中第a个极轴的角度,d是该路线包含目的地的总个数;s4.2.4:环状面积图中极轴的有效长度范围通过固定内圆半径和外圆半径确定,将各目的地的热度h
visit
和评分s
visit
通过下式线性映射到极轴上;使用二次贝塞尔曲线按照顺序连接各部分的极径顶点,与内圆共同构成面积图:式中,表示评分面积图中第a个极径的长度,表示热度面积图中第a个极径的长度,outerradius
area
是面积图外圆半径,innerradius
area
是面积图内圆半径,为评分面积图中第a个目的地的评分值,是热度面积图中第a个目的地的热度值,d是该路线包含目的地的总个数;s4.2.5:布局路线概览视图中间部分的环形图,环形图中各子圆环弧代表路线中对应主题的分布及比例;每一个子圆环弧的极径长度统一,为环形外圆半径与环形内圆半径之差,计算公式如下:式中,outerradius
dc
代表环形图外圆半径,paddingradius为预设间隔宽度;innerradius
area
为面积图内圆半径,innerradius
dc
为环形图内圆半径,ringwidth为环形图内圆半径;s4.2.6:环形图中第k个主题的圆环弧的角度θ
k
为该频繁路线涉及的所有路线集合中该主题的概率和占比,计算公式如下所示:式中,θ
k
为第k个主题的圆环弧角度,为该频繁路线涉及的路线集合中,第e个路线为第k个主题的概率,m是该频繁路线涉及的路线集合中路线的总个数;s4.2.7:布局路线概览视图最里层的地理视图,将目的地按照其经纬坐标,将其在路线中的顺序标注在地图上,用直线连接相邻的目的地,并将地图图片进行遮罩处理,圆形遮罩层半径计算公式如下:
radius
geo
=innerradius
dc

paddingradius式中,radius
geo
是地理图半径。11.根据权利要求1所述的一种基于多源数据的旅游路线可视分析与规划方法,其特征在于,所述步骤s4中,所述目的地情感可视化布局实现包含以下步骤:s4.3.1:实现上部分情感时序图布局,首先分别对三类评论的数量集合进行标准化,公式如下:式中,σ代表数据集的总体标准差,x
f
是数据集中第f个元素,是数据集平均值,f是数据集数据总数,x
*
是标准化后的数值;s4.3.2:情感时序图每个时间单位上分别有三个纵向长度,代表积极、中性和消极评论的占比,计算公式如下:式中,sentimentratio
*
为各情感的比例,sentiment
*
为各情感的标准评论数值,sentimentsum为各情感的标准评论数值之和,flowlength
*
为各情感的纵向长度,height为视图总高度;s4.3.3:实现中间部分情感关键词视图布局,使用不同的颜色区分积极、中性和消极词汇,绿色代表积极词汇,蓝色代表中性词汇,红色代表消极词汇;s4.3.4:情感关键词视图中词语的尺寸大小与词频相关,词频高的词语尺寸越大,具体计算公式如下:式中,wordsize
u
是第u个词语尺寸大小,frequent
u
是第u个词语的词频,frequent
min
是词语集合中词频的最小值,frequent
max
是词语集合中词频的最大值,minsize是预设的最小词语尺寸,maxsize是预设的最大词语尺寸;s4.3.5:情感关键词视图中各关键词的布局计算基于力引导,假设在初始空间中,每个词语节点的初始位置随机,每个节点均带有q个单位的正电荷,则电荷力公式如下:式中,f
k
为电荷力,k
e
为库伦常数,q为节点的带电量,r为节点之间的距离;s4.3.6:根据词汇共现矩阵中各词语的共现数值,在各词语节点之间添加引力,引力的大小与词语的共现次数呈正比,引力公式如下:
式中,f
w
为节点之间的引力,k
w
为预设的引力系数,是第u个词语和第v个词语的共现次数;s4.3.7:为不同类型的词语节点添加画布中心弹力,减少情感比例约束布局计算的成本,积极、中性和消极词语的弹力中心的纵坐标均是height/2,横坐标分别为poswidth/2、poswidth midwidth/2、poswidth midwidth negwidth/2,引力计算公式如下:f
c
=k
·
x式中,poswidth、midwidth和negwidth分别为积极、中性和消极词汇根据其所占比例计算得到的视觉宽度;f
c
为中心弹力,k为弹性系数,x为弹性绳的拉伸长度;s4.3.8:根据能量守恒定律,添加阻尼力使节点系统达到平衡,阻尼力的计算公式如下:f
z


k
z
·
v式中f
z
为阻尼力,k
z
为阻尼系数,v为节点的运动速度;s4.3.10:对于各类不同情感的词语,计算其是否在期望的情感区域中,若该词语节点的中心坐标越界,则进行坐标修正,下面两式分别对词语的横纵坐标进行左右边界和上下边界修正,以此保证大部分词语在规定的情感区域中,从而表达不同情感分句的比例;式中为第u个词语节点修正后的横坐标,x
u
为第u个词语节点修正前的横坐标,wordwidth
u
为第u个词语的宽度,paddingarea
x
为预设区域横向间隔,leftborder为区域左边界,rightborder为区域右边界;式中为第u个词语节点修正后的纵坐标,y
u
为第u个词语节点修正前的纵坐标,wordheight
u
为第u个词语的高度,paddingarea
x
为预设区域纵向间隔,upborder为区域上边界,bottomborder为区域下边界;s4.3.11:对发生重合的词语,添加碰撞修正,横坐标修正公式如下式所示,当实际横向距离|x
u

x
v
|小于预设距离wordwidth
u
wordwidth
v
padding
x
时,将左边节点向左移动重叠长度,右边节点同样向右移动重叠长度;式中,是第u个词语节点和第v个词语节点的横向重叠长度,是第v个词语节
点修正后的横坐标,x
v
是第v个词语节点修正前的横坐标,wordwidth
v
为第v个词语的宽度,padding
x
是预设词语横向间隔;纵坐标修正公式如公下式所示,布局调整过程与横坐标相同;式中,是第u个词语节点和第v个词语节点的纵向重叠长度;为第v个词语节点修正后的纵坐标,y
v
为第v个词语节点修正前的纵坐标;wordheight
v
为第v个词语的高度;padding
y
为预设词语纵向间隔。12.根据权利要求1所述的一种基于多源数据的旅游路线可视分析与规划方法,其特征在于,所述路线规划可视化布局实现包含以下步骤:s4.4.1:路线规划视图中单日计划采用表格从上至下排列表示,宽度为视图宽度,其中各柱形宽度相同,每个景点的柱形高度由该景点的活动时长计算获得;而每个城市的柱形高度为该城市内当天的景点高度之和,每天的表格高度则是由当天城市的柱形高度相加得出,具体计算公式如下:式中,poiheight
h
为第h个景点计划的柱形高度,unitheight为单个小时的柱形高度,t
h
为第h个景点的活动小时数,cityheight
i
为第i个城市计划的柱形高度,dayheight
z
为第z天的表格高度,n
i
为第i个城市计划的活动计划总数,m
z
为第z天的城市计划总数;s4.4.2:路线规划视图中分别用不同的颜色标注各类型景点的柱形。

技术总结
本发明公开了一种基于多源数据的旅游路线可视分析与规划方法,采集旅游评论、地理信息等多源数据,对旅游路线进行主题分类,并计算目的地热度、评分等评价指标;设计主题路线降维可视化映射,对路线集合进行主题降维,用于查看路线主题分布,选择路线集合;设计频繁路线可视化映射,对频繁挖掘结果、频繁路线可视化编码;设计目的地情感可视化映射,表示目的地的情感变化与关键词;设计路线规划可视化映射,表示详细的路线规划结果;实现主题路线降维视图、频繁路线视图、目的地情感视图、路线规划视图的可视化布局。本发明可以帮助旅游服务提供商挖掘个性旅游路线,对路线进行多层次、不同粒度分析,短时间内规划完整的旅游路线方案。线方案。线方案。


技术研发人员:朱敏 庞潇 张馨艺 王翔坤
受保护的技术使用者:四川大学
技术研发日:2021.07.23
技术公布日:2021/10/23
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜