数据定价方法和装置、电子设备、存储介质与流程

2022-03-31 10:19:18 来源：中国专利 TAG：

1.本发明涉及数据流通、数据处理和人工智能领域，尤其涉及数据定价方法和装置、电子设备和存储介质。

背景技术：

2.随着大数据技术的成熟和发展，大数据在商业上的应用越来越广泛，大数据交易的需求也在不断增加。大数据商品与实体商品不同，难以评估其价值，也没有行业的定价标准，数据商品的卖方难以找到定价的参考依据，影响卖方获取更高的收入。因此，如何预估大数据商品的参考定价成为本行业亟待解决的问题。

技术实现要素：

3.本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明提出一种数据定价方法和装置、电子设备和存储介质，能够完成数据商品的定价，带来的技术效果是使得数据商品的定价更贴合市场需求，定价系数也能更好的对当前市场是不合理的数据商品定价进行纠偏，得出一个合理的数据商品定价。
4.为实现上述目的，本发明实施例的第一方面提出了一种数据定价方法，包括：
5.获取数据信息，所述数据信息包括数据名称、数据描述、数据使用行业、场景文本信息；
6.基于自然语言处理对所述数据信息进行关键词提取，得到目标关键词；
7.根据所述目标关键词得到推荐标签；
8.根据所述推荐标签获取关联商品列表；其中，所述关联商品列表包括商品的相关性、数据评估分数、价格、参考单价，所述参考单价等于所述关联商品列表中所有商品的价格总和除以所有商品的总数量；
9.根据所述相关性和所述数据评估分数计算定价系数；
10.根据所述参考单价和所述定价系数计算建议定价；其中所述建议定价等于所述定价系数乘以所述参考单价。
11.可选地，在本发明的一些实施例中，所述根据所述相关性和所述数据评估分数计算定价系数包括：
12.从所述关联商品列表中获取与所述数据信息的相关性最高的数据评估分数，作为第一数据评估分数；
13.从所述数据信息中获取数据评估分数，作为第二数据评估分数；
14.将所述第二数据评估分数除以所述第一数据评估分数，得到所述定价系数。
15.可选地，在本发明的一些实施例中，所述数据信息包括短文本串和长文本串，所述基于自然语言处理对所述数据信息进行关键词提取，得到目标关键词，包括：
16.通过语义分析分别对所述短文本串和所述长文本串进行关键词提取，得到所述目标关键词。
17.可选地，在本发明的一些实施例中，所述通过语义分析分别对所述短文本串和所述长文本串进行关键词提取，得到所述目标关键词，包括：
18.通过语义分析对所述短文本串进行分词处理，得到第一词语；
19.获取所述第一词语的权重；
20.根据所述权重和预设第一阈值提取出所述短文本串的关键词，得到所述目标关键词。
21.可选地，在本发明的一些实施例中，所述通过语义分析分别对所述短文本串和所述长文本串进行关键词提取，得到所述目标关键词，还包括：
22.通过语义分析对所述长文本串进行分词处理，得到第二词语；
23.将符合预设关键词规则的所述第二词语归类为所述目标关键词。
24.可选地，在本发明的一些实施例中，所述通过语义分析分别对所述短文本串和所述长文本串进行关键词提取，得到所述目标关键词，还包括：
25.对所述第二词语进行词性识别，得出带有词性类别的第三词语，所述词性类别包括虚词和实词；
26.对所述第三词语进行频率统计，得到第三词语的词语频率；
27.根据所述词语频率剔除相应的虚词，得到所述目标关键词。
28.可选地，在本发明的一些实施例中，所述根据所述词语频率剔除相应的虚词，得到所述目标关键词，包括：
29.将所述第三词语按照所述词语频率由高到低排列；
30.根据预设第二阈值筛选所述第三词语，得到第四词语；
31.将所述第四词语中的虚词剔除，得到所述目标关键词。
32.为实现上述目的，本发明实施例的第二方面提出了一种数据定价装置，包括：
33.数据信息获取模块，用于获取数据信息，所述数据信息包括数据名称、数据描述、数据使用行业、场景文本信息；
34.提取目标关键词模块，用于基于自然语言处理对所述数据信息进行关键词提取，得到目标关键词；
35.推荐标签形成模块，用于根据所述目标关键词得到推荐标签；
36.关联商品列表获取模块，用于根据所述推荐标签获取关联商品列表；其中，所述关联商品列表包括商品的相关性、数据评估分数、价格、参考单价，所述参考单价等于所述关联商品列表中所有商品的价格总和除以所有商品的总数量；
37.定价系数计算模块，用于根据所述相关性和所述数据评估分数计算定价系数；
38.建议定价计算模块，用于根据所述参考单价和所述定价系数计算建议定价；其中所述建议定价等于所述定价系数乘以所述参考单价。
39.为实现上述目的，本发明实施例的第三方面提出了一种电子设备，包括：
40.至少一个存储器；
41.至少一个处理器；
42.至少一个程序；
43.所述程序被存储在存储器中，处理器执行所述至少一个程序以实现本发明如上述第一方面所述的方法。
44.为实现上述目的，本发明的第四方面提出了一种存储介质，该存储介质是计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行：
45.如上述第一方面所述的方法。
46.本发明实施例提出的数据定价方法和装置、电子设备和存储介质，通过获取数据信息，并基于自然语言处理对所述数据信息进行关键词提取，得到目标关键词；然后根据所述目标关键词得到推荐标签，并根据所述推荐标签获取关联商品列表；然后根据所述相关性和所述数据评估分数计算定价系数，并根据所述参考单价和所述定价系数计算建议定价；通过本发明实施例提供的技术方案可以带来的技术效果是使得数据商品的定价更贴合市场需求，定价系数也能更好的对当前市场是不合理的数据商品定价进行纠偏，得出一个合理的数据商品定价。
附图说明
47.图1是本发明实施例提供的数据定价方法的流程图；
48.图2是图1中步骤s150的流程图；
49.图3是图1中步骤s120的流程图；
50.图4是图1中步骤s120的流程图；
51.图5是图1中步骤s120的流程图；
52.图6是图5中步骤s530的流程图；
53.图7是本发明实施例提供的电子设备的硬件结构示意图。
具体实施方式
54.为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。
55.在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。
56.在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系，也不必用于描述特定的顺序或先后次序。
57.本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
58.首先，对本技术中涉及的若干名词进行解析：
59.自然语言处理(natural language processing，nlp)是指让计算机接受用户自然
语言形式的输入，并在内部通过人类所定义的算法进行加工、计算等系列操作，以模拟人类对自然语言的理解，并返回用户所期望的结果。自然语言处理的目的在于用计算机代替人工来处理大规模的自然语言信息。在很大程度上与计算语言学(computational linguistics，cl)重合，是计算机科学与语言学的交叉学科，也是人工智能的重要方向。自然语言处理的研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。让计算机能够确切理解人类的语言，并自然地与人进行交互是nlp的最终目标。自然语言处理的挑战通常涉及语音识别、自然语言理解和自然语言生成。
60.自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系，但又有重要的区别。自然语言处理并不是一般地研究自然语言，而在于研制能有效地实现自然语言通信的计算机系统，特别是其中的软件系统。因而它是计算机科学的一部分。
61.自然语言处理技术的核心为语义分析。语义分析是一种基于自然语言进行语义信息分析的方法，不仅进行词法分析和句法分析这类语法水平上的分析，而且还涉及单词、词组、句子、段落所包含的意义，目的是用句子的语义结构来表示语言的结构。语义分析技术具体包括如下几点。
62.词法分析：词法分析包括词形分析和词汇分析两个方面。一般来讲，词形分析主要表现在对单词的前缀、后缀等进行分析，而词汇分析则表现在对整个词汇系统的控制，从而能够较准确地分析用户输入信息的特征，最终准确地完成搜索过程。
63.句法分析：句法分析是对用户输入的自然语言进行词汇短语的分析，目的是识别句子的句法结构，以实现自动句法分析的过程。
64.语用分析：语用分析相对于语义分析又增加了对上下文、语言背景、语境等的分析，即从文章的结构中提取出意象、人际关系等附加信息，是一种更高级的语言学分析。它将语句中的内容与现实生活中的细节关联在一起，从而形成动态的表意结构。
65.语境分析：语境分析主要是指对原查询语篇之外的大量“空隙”进行分析，以便更准确地解释所要查询语言的技术。这些“空隙”包括一般的知识、特定领域的知识以及查询用户的需求等。
66.自然语言生成：人工智能驱动的引擎能够根据收集的数据生成描述，通过遵循将数据中的结果转换为散文的规则，在人与技术之间创建无缝交互的软件引擎。结构化性能数据可以通过管道传输到自然语言引擎中，以自动编写内部和外部的管理报告。
67.短文本的表现形式为即时通讯软件发出的即时消息，在线聊天室的聊天记录，电子布告板的bbs标题，网络日志的评论，互联网信息的评论等，这些文本的长度一般比较短，通常称之为短文本。而长文本就与短文本相反，长文本为一些报刊的文章，网络上一些媒体文章等，长文本的长度较长，包含的词语数量较多。
68.中文分词，所谓分词，就是把一个句子中的词汇根据使用时的意义切分出来。在英文中单词与单词之间有显式的分割符，而在中文里，只有段与段、句子与句子之间有明显分割，而单词之间并不存在分界。词是汉语中最小有意义的独立单位，但这最小的单位却没有显式分割，若要计算机能够与人类达到自由无障碍的语言交互，就必须让计算机能够理解自然语言。只有汉子串组成的句子被准确地转化为词之后，才能继续进一步的工作。
69.词性标注(part-of-speech tagging或pos tagging)又称词性识别，是指为分词
结果中的每个单词标注一个正确的词性的程序。具体来说就是，确定每个词是名词、动词、形容词或者是其他词性的过程。
70.pagerank算法：pagerank通过互联网中的超链接关系来确定一个网页的排名，它是通过一种投票的思想来设计的：如果我们要计算网页a的pagerank值(以下简称pr值)，那么我们需要知道有哪些网页链接到网页a，也就是要首先得到网页a的入链，然后通过入链给网页a的投票来计算网页a的pr值。这样设计可以保证达到这样一个效果：当某些高质量的网页指向网页a的时候，那么网页a的pr值会因为这些高质量的投票而变大，而网页a被较少网页指向或被一些pr值较低的网页指向的时候,a的pr值也不会很大，这样可以合理地反映一个网页的质量水平。
71.textrank算法:textrank算法是一种抽取式的无监督的文本摘要方法。它遵循的textrank算法的流程为首先把所有文章整合成文本数据，再把文本分割成单个句子，然后为每个句子找到向量表示(词向量)，计算句子向量间的相似性并存放在矩阵中，然后将相似矩阵转换为以句子为节点、相似性得分为边的图结构，用于句子textrank计算，最后，一定数量的排名最高的句子构成最后的摘要。可以看出两个算法有相似之处：textrank用句子代替网页，textrank的任意两个句子的相似性等价于网页转换概率，在相似性得分存储在一个方形矩阵中。
72.随着大数据技术的成熟和发展，大数据在商业上的应用越来越广泛，大数据交易的需求也在不断增加。大数据商品与实体商品不同，难以评估其价值，也没有行业的定价标准，数据商品的卖方难以找到定价的参考依据，影响卖方获取更高的收入。
73.当前，卖方的定价方案大多基于成本法、收益法等传统会计方法，但由于数据的虚拟性，成本法收益法无法完全覆盖数据的定价维度。基于成本法、收益法等传统会计方法，考虑的定价维度无法体现数据的价值，也无法结合历史相关数据定价提供定价参考，且数据针对不同的行业和场景，产生的价值也是不同的，需要分门别类的对待。
74.基于此，本发明实施例提供一种数据定价方法和装置、电子设备、存储介质，可以使得数据商品的定价更贴合市场需求。
75.本发明实施例提供数据定价方法和装置、电子设备、存储介质，具体通过如下实施例进行说明，首先描述本发明实施例中的数据定价方法。
76.本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
77.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
78.本发明实施例提供的数据定价方法，涉及人工智能技术领域，尤其涉及大数据定价技术领域。本发明实施例提供的数据定价方法可应用于终端中，也可应用于服务器端中，还可以是运行于终端或服务器端中的软件。在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机或者智能手表等；服务器可以是独立的服务器，也可以是提供
云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network，cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器；软件可以是实现数据定价方法的应用等，但并不局限于以上形式。
79.本技术可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本技术可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本技术，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
80.图1是本发明实施例提供的数据定价方法的一个可选的流程图，图1中的方法可以包括但不限于包括步骤s110至步骤s160。
81.步骤s110，获取数据信息，数据信息包括数据名称、数据描述、数据使用行业、场景文本信息；
82.步骤s120，基于自然语言处理对数据信息进行关键词提取，得到目标关键词；
83.步骤s130，根据目标关键词得到推荐标签；
84.步骤s140，根据推荐标签获取关联商品列表；其中，关联商品列表包括商品的相关性、数据评估分数、价格、参考单价，参考单价等于关联商品列表中所有商品的价格总和除以所有商品的总数量；
85.步骤s150，根据相关性和数据评估分数计算定价系数；
86.步骤s160，根据参考单价和定价系数计算建议定价；其中建议定价等于定价系数乘以参考单价。
87.目前对于大数据的交易需求越来越多，数据的定价是亟待解决的问题，传统的成本法、收益法的定价维度不能解决数据的定价问题。本发明实施例，基于自然语言处理对数据信息获取关键词的方式选取出若干商品形成最关联商品列表，引入定价系数，同时结合参考单价计算出建议定价。
88.在一些实施例的步骤s110中，获取需要售卖的数据信息，数据信息可以包括但不限于包括数据名称、数据描述、数据使用行业、场景文本信息。通过以上信息可以反映数据的特征，进而找到与此类似的数据商品。
89.在一些实施例的步骤s120中，基于自然语言处理对数据信息进行关键词提取，得到目标关键词，对数据信息提取关键字的自然语言处理可以包括但不限于包括语义分析的textrank的方法，基于有监督的分类方法，基于tf-idf(term frequency-inverse document frequency)的方法。通过以上方法可以高效的提取数字信息的关键词。
90.在一些实施例的步骤s130中，根据目标关键词得到推荐标签，根据自然语言处理得出的目标关键词使用基于内容的推荐算法得出数据信息的推荐标签，基于内容的推荐算法可以为：最近邻方法、rocchio算法、决策树算法。
91.在一些实施例的步骤s140中，根据推荐标签获取关联商品列表；使用基于内容的
推荐算法得出数据信息的推荐标签后，需要匹配上当前市场上的商品的标签，当数据信息和当前市场数据商品的标签是对应时，说明该当前市场数据商品是关联的，选取若干个匹配的数据商品，形成关联商品列表，数量可取10或100，商品数量不做限制。其中，关联商品列表包括商品的相关性、数据评估分数、价格、参考单价。相关性可以由余弦相似度、欧式距离、皮尔逊相关性方法计算得出；数据评估分数可以由单维度评估、多维度评估、熵权法计算得出；价格为当前市场给予的市场价格；参考单价等于关联商品列表中所有商品的价格总和除以所有商品的总数量。
92.在一些实施例的步骤s150中，根据相关性和数据评估分数计算定价系数，相关性可以使用步骤s140的余弦相似度、欧式距离、皮尔逊相关性方法计算得出，数据评估分数可以使用步骤s140的单维度评估、多维度评估、熵权法计算得出。由相关性和数据评估分数可以计算定价系数，定价系数将市场上的商品作为参考可以客观的反映该数据信息与市场价格的比较。
93.在一些实施例的步骤s160中，根据参考单价和定价系数计算建议定价；其中建议定价等于定价系数乘以参考单价，建议定价随着参考单价与定价系数更新而动态调整。
94.通过本发明以上步骤的实施例提供的数据定价方法，可以对市场上的数据信息商品更好定价，由于传统的成本法、收益法的方式不能给数据信息商品准确的定价，造成数据信息定价不合理问题，而通过本发明以上步骤的实施例可以解决数据定价问题，给予卖家可参考的数据定价，目前市场上对于数据信息的定价没有一个具体的计算方法，基于成本法、收益法等传统会计方法，考虑的定价维度无法体现数据的价值，也无法结合历史相关数据定价提供定价参考，而本发明参考市场上最关联商品数据形成参考单价，定价系数也能更好的对当前市场是不合理的数据商品定价进行纠偏，得出一个合理的数据商品建议定价，同时数据定价可随着市场上数据商品的价格变化情况而动态调整。
95.在一些实施例的步骤s150，根据相关性和数据评估分数计算定价系数，请参阅图2，可以包括但不限于包括：
96.步骤s210，从关联商品列表中获取与数据信息的相关性最高的数据评估分数，作为第一数据评估分数；
97.步骤s220，从数据信息中获取数据评估分数，作为第二数据评估分数；
98.步骤s230，将第二数据评估分数除以第一数据评估分数，得到定价系数。
99.在一些实施例的步骤s210中，从关联商品列表中获取与数据信息的相关性最高的数据评估分数，作为第一数据评估分数。将与数据信息商品相似的数据商品的数据评估分数作为第一数据评估分数，具有参考意义。
100.在一些实施例的步骤s220中，从数据信息中获取数据评估分数，作为第二数据评估分数，数据本信息身也使用步骤s140评估数据评估分数的方法，评估出数据评估分数作为第二数据评估分数。
101.在一些实施例的步骤s230中，将第二数据评估分数除以第一数据评估分数，得到定价系数，定价系数可以较好的对比当前市场类似数据商品的价格。
102.通过本发明以上步骤的实施例提供的数据定价方法，可以得出定价系数，数据信息由于其虚拟性，过去历史无法参考，而由定价系数的概念可以以当前市场类似数据商品的价格作为参考来评估数据信息。
103.在一些实施例，数据信息包括短文本串和长文本串，基于自然语言处理对数据信息进行关键词提取，得到目标关键词，包括：
104.通过语义分析分别对短文本串和长文本串进行关键词提取，得到目标关键词；短文本可以包括但不限于包括即时通讯软件发出的即时消息，在线聊天室的聊天记录，电子布告板的bbs标题，网络日志的评论，互联网信息的评论等，这些文本的长度一般比较短，通常称之为短文本。而长文本就与短文本相反，长文本可以包括但不限于包括一些报刊的文章，网络上一些媒体文章等，长文本的长度较长，包含的词语数量较多。
105.在一些实施例的步骤s120，基于自然语言处理对数据信息进行关键词提取，得到目标关键词，其中数据信息包括短文本串和长文本串，请参阅图3，通过语义分析分别对短文本串和长文本串进行关键词提取，得到目标关键词可以包括但不限于包括：
106.步骤s310，通过语义分析对短文本串进行分词处理，得到第一词语；
107.步骤s320，获取第一词语的权重；
108.步骤s320，根据权重和预设第一阈值提取出短文本串的关键词，得到目标关键词。
109.具体地，在一些实施例的步骤s310中，对短文本串进行分词处理，从短文本串中分离出词语，得到第一词语；在一些实施例的步骤s320中，获取第一词语的权重，也即获取分词后每一个词语的权重；在一些实施例的步骤s330中根据权重和预设第一阈值提取出短文本串的关键词，得到目标关键词，对不同权重的词语进行筛选，设定一定数值的阈值，阈值的范围在0到1之间，比如设定0.8阈值，只有大于0.8权重的词语才能通过筛选，最后得到目标关键词。通过本公开实施例提供的数据定价方法，获取不同的词语的权重，设置0.8的阈值筛除权重低的词语，保留权重高的词语，可以高效的提取目标关键词。
110.在一些实施例的步骤s120，基于自然语言处理对数据信息进行关键词提取，得到目标关键词，其中数据信息包括短文本串和长文本串，请参阅图4，通过语义分析分别对短文本串和长文本串进行关键词提取，得到目标关键词，可以包括但不限于包括：
111.步骤s410，通过语义分析对长文本串进行分词处理，得到第二词语；
112.步骤s420，将符合预设关键词规则的第二词语归类为所述目标关键词。
113.具体地，在一些实施例的步骤s410中，对长文本串进行分词处理，得到第二词语；在一些实施例的步骤s420中，将符合预设关键词规则的第二词语归类为所述目标关键词，基于过去专家经验归类出来的关键词规则，针对的词语的划分，过去专家经验对一个词语应该归类为何种词语制定规则，具体地，在一些实施例中，智慧城市交通，公安，食药品数据，自动归类到政务，智慧城市关键词；健康档案，电子病历，慢性病，流感，当出现这些词语的时候，自动归类到医疗，基于以上的这种关键词规则对第二词语归类，当词语符合关键词规则时，归类为目标关键词。通过本公开实施例提供的数据定价方法，可以依照过去专家经验归类出来的关键词规则快速的提取出目标关键词，而且随着归类处理的次数和时间的增长，会积累总结出更多经验归类得出的关键词规则，可以更快提取出目标关键词。
114.在一些实施例的步骤s120，基于自然语言处理对数据信息进行关键词提取，得到目标关键词，其中数据信息包括短文本串和长文本串，请参阅图5，通过语义分析分别对短文本串和长文本串进行关键词提取，得到目标关键词，可以包括但不限于包括：
115.步骤s510，对第二词语进行词性识别，得出带有词性类别的第三词语，词性类别包括虚词和实词；
116.步骤s520，对第三词语进行频率统计，得到第三词语的词语频率；
117.步骤s530，根据词语频率剔除相应的虚词，得到目标关键词。
118.具体地，在一些实施例的步骤s510中，对第二词语进行词性识别，得出带有词性类别的第三词语，对词语词性进行识别，词性类别包括虚词和实词，虚词可以包括但不限于包括副词、介词、连词、助词、语气词，实词可以包括但不限于包括名词、动词、形容词、数词、量词、代词；在一些实施例的步骤s520中，对第三词语进行频率统计，得到第三词语的词语频率，对词语在长文本串中出现频率进行统计，得到第三词语的词语频率；在一些实施例的步骤s530中，根据词语频率剔除相应的虚词，得到目标关键词；通过本公开实施例提供的数据定价方法，可以按照词语频率和词性类别来筛选目标关键词。
119.在一些实施例的步骤s530，根据词语频率剔除相应的虚词，得到目标关键词，请参阅图6，可以包括但不限于包括：
120.步骤s610，将第三词语按照词语频率由高到低排列；
121.步骤s620，根据预设第二阈值筛选第三词语，得到第四词语；
122.步骤s630，将第四词语中的虚词剔除，得到目标关键词。
123.具体地，在一些实施例的步骤s610中，将第三词语按照词语频率由高到低排列，将高频率的词语放置在前面得位置，低频率的词语放置在后面得位置，由高到低的顺序排列；在一些实施例的步骤s620中，根据预设第二阈值筛选第三词语，得到第四词语，预设的第二阈值设置为30次，只有词语频率超过30次的第三词语才能被筛选出来，成为第四词语，预设的第二阈值数值可按照实际需求设置，在此不做限制；在一些实施例的步骤s630中，将第四词语中的虚词剔除，得到目标关键词，虚词可以包括但不限于包括副词、介词、连词、助词、语气词，比如和、或、且这些词语在长文本中出现频率较高但没有意义与价值，所以它们的权重不高需筛选去除，实词可以包括但不限于包括名词、动词、形容词、数词、量词、代词，比如标签，用户，亮点，场景这类的词语，可能对商品描述的关键词提取有帮助的词语权重高可作为目标关键词；通过本公开实施例提供的数据定价方法，可以把长文本串中高频且有用的实词提取出来，而虚词虽然在长文本中也会频繁出现，但不作为目标关键词。
124.在一具体应用场景，首先对长文本串进行分词处理，形成很多的词语，然后对分词后的词语做词性识别，通过基于过去专家经验归类出来的关键词规则对词语进行筛选，若出现符合关键词规则的词语归类为目标关键词，对剩下的词语计算各个词语的频率频次，筛除频率高，但无实际意义的副词、介词、连词、助词、语气词，提取出频率高，但有实际意义的实词作为目标关键词。通过本公开实施例提供的数据定价方法，可以有效的提高对长文本串分词提取目标关键词的效率，基于过去专家经验归类出来的关键词规则快速的提取出目标关键词，同时可以筛除一些无实际意义的词语而提取出重要且高频的词语作为目标关键词。
125.在一具体应用场景，卖方为通信运营商，拥有一些用户标签数据集，卖方上传该数据集并填写一些基础商品信息，比如商品名：xx运营商用户标签数据，数据描述：2019年1月-2021年9月用户标签数据，字段包括id,学历,婚姻，用户等级等，可用于风控，营销等场景；
126.对卖方发布的信息文本进行数据预处理，分词和词性识别，使用自然语言处理的方法对信息文本进行处理，提取结果为时间＝2019年1月，2021年9月，关键词：用户标签，
id，学历，婚姻，用户等级，风控，营销；
127.基于关键词和推荐标签寻找最关联商品，基于推荐标签获得了100个关联数据商品列表，同时对100个商品的相关性、数据评估分数、价格进行获取，如下表：
[0128][0129]
将当前卖方的数据进行数据评估后，可以得到数据信息的数据评估分数90分，也即第一数据评估分数；
[0130]
取当前与数据信息相关性最高的a运营商用户标签数据的数据评估分数作为第二数据评估分数，第二数据评估分数的得分86.88分，和卖方的数据评估分数90分进行计算，得到定价系数k＝90/86.88＝1.036；
[0131]
然后获取一个初始的参考定价，即把1-100个相关商品的定价集计算平均值，平均值为：p＝19.79万元；
[0132]
最后形成建议定价y＝k*p＝1.036*19.79＝20.5万元。将20.5万元推送给卖方，卖方可结合建议定价自主定价，然后数据信息商品上架后，机器可以获取到数据商品对应的商品价格，作为后续其他商品定价的关联数据。通过本发明实施例提供的数据定价方法，可以对数据信息商品精准的定价，解决了传统基于成本法、收益法不能对虚拟化的数据定价，而且针对不同的场景下的数据可以灵活的参考最关联商品列表来进行实时、动态的定价。
[0133]
本发明实施例还提供一种数据定价装置，可以实现上述数据定价方法，该装置包括：
[0134]
数据信息获取模块，用于获取数据信息，数据信息包括数据名称、数据描述、数据
使用行业、场景文本信息；
[0135]
提取目标关键词模块，用于基于自然语言处理对数据信息进行关键词提取，得到目标关键词；
[0136]
推荐标签形成模块，用于根据目标关键词得到推荐标签；
[0137]
关联商品列表获取模块，用于根据推荐标签获取关联商品列表；其中，关联商品列表包括商品的相关性、数据评估分数、价格、参考单价，参考单价等于关联商品列表中所有商品的价格总和除以所有商品的总数量；
[0138]
定价系数计算模块，用于根据相关性和数据评估分数计算定价系数；
[0139]
建议定价计算模块，用于根据参考单价和定价系数计算建议定价；其中建议定价等于定价系数乘以参考单价。
[0140]
本实施例的数据定价装置的具体实施方式与上述数据定价方法的具体实施方式基本一致，在此不再赘述。
[0141]
本公开实施例还提供了一种电子设备，包括：
[0142]
至少一个存储器；
[0143]
至少一个处理器；
[0144]
至少一个程序；
[0145]
所述程序被存储在存储器中，处理器执行所述至少一个程序以实现本发明实施上述的数据定价方法。该电子设备可以为包括手机、平板电脑、个人数字助理(personal digital assistant，简称pda)、车载电脑等任意智能终端。
[0146]
请参阅图7，图7示意了另一实施例的电子设备的硬件结构，电子设备包括：
[0147]
处理器701，可以采用通用的cpu(centralprocessingunit，中央处理器)、微处理器、应用专用集成电路(applicationspecificintegratedcircuit，asic)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本发明实施例所提供的技术方案；
[0148]
存储器702，可以采用rom(readonlymemory，只读存储器)、静态存储设备、动态存储设备或者ram(randomaccessmemory，随机存取存储器)等形式实现。存储器702可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器702中，并由处理器701来调用执行本公开实施例的数据定价方法；
[0149]
输入/输出接口703，用于实现信息输入及输出；
[0150]
通信接口704，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如usb、网线等)实现通信，也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信；
[0151]
总线705，在设备的各个组件(例如处理器701、存储器702、输入/输出接口703和通信接口704)之间传输信息；
[0152]
其中处理器701、存储器702、输入/输出接口703和通信接口704通过总线705实现彼此之间在设备内部的通信连接。
[0153]
本发明实施例还提供了一种存储介质，该存储介质是计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令用于使计算机执行上述数据定价方法。
[0154]
本发明实施例提出的数据定价方法、数据定价装置、电子设备、存储介质，通过获
取数据信息，并基于自然语言处理对数据信息进行关键词提取，得到目标关键词；然后根据目标关键词得到推荐标签，并根据推荐标签获取关联商品列表；然后根据相关性和数据评估分数计算定价系数，并根据参考单价和定价系数计算建议定价；通过本公开实施例提供的技术方案可以带来的技术效果是使得数据商品的定价更贴合市场需求，定价系数也能更好的对当前市场是不合理的数据商品定价进行纠偏，得出一个合理的数据商品定价；通过本发明实施例提供的技术方案可以对市场上的数据信息更好的定价，提高定价的合理性，基于自然语言处理的方法获取信息关键词，选取出若干商品形成最关联商品列表，引入定价系数和参考定价的概念计算出数据信息的建议定价。使得数据信息更加符合市场的实际定价，并可以随着市场上数据商品的价格变化情况而动态调整，不拘泥于传统的成本法、收益法的方式，以高效的方式完成数据定价。
[0155]
存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0156]
本发明实施例描述的实施例是为了更加清楚的说明本发明实施例的技术方案，并不构成对于本发明实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本发明实施例提供的技术方案对于类似的技术问题，同样适用。
[0157]
本领域技术人员可以理解的是，图1至6中示出的技术方案并不构成对本发明实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。
[0158]
以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0159]
本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
[0160]
本技术的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0161]
应当理解，在本技术中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“a和/或b”可以表示：只存在a，只存在b以及同时存在a和b三种情况，其中a，b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可
以是多个。
[0162]
在本技术所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
[0163]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0164]
另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
[0165]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(read-only memory，简称rom)、随机存取存储器(random access memory，简称ram)、磁碟或者光盘等各种可以存储程序的介质。
[0166]
以上参照附图说明了本发明实施例的优选实施例，并非因此局限本发明实施例的权利范围。本领域技术人员不脱离本发明实施例的范围和实质内所作的任何修改、等同替换和改进，均应在本发明实施例的权利范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

数据定价方法和装置、电子设备、存储介质与流程

相关文献

最热文献