本发明涉及大数据
技术领域:
:,特别涉及一种基于元数据的数联网跨域数据访问标准化系统及方法。
背景技术:
::随着物联网、移动互联网、社会化网络的快速发展,企业数据增长迅速,半结构化及非结构化的数据成几何倍增长,业务需求复杂程度也在相应增加,给互联网行业带来了更高挑战.“数联网”(internetofdata)应运而生,“数联网”是我国下一代大数据基础设施总体技术架构和具体实现的总称,以互联网为承载网络,通过标准的格式、接口、协议,进行数据的交换和互联,以更加丰富的数据维度,实现数据连通之后的各种业务应用。数联网建立在互联网之上,互联网底层的tcp/ip协议仍然是传输的底层协议,但数联网要增加一个数联网层,解决数据的标准化表述、数据传输的标准协议、数据交换的标准、数据应用的标准化接口、数据访问终端的标准化等内容,数据在数联网中透明传输,应用端可以直接获取数据,产生各种基于数据的业务应用。数联网是促进“数数相连的互联网”。相关技术中多采用hadoop大数据集群存储、挖掘海量数据,为保持领先和健康良性的发展,有效的访问多个大数据集群中hdfs文件系统(hadoopdistributedfilesystem,分布式文件系统)、hbase、nosql(notonlysql,非关系型数据库)数据库和hive数据库等多数据源的数据,透明高效的实现跨多个hadoop集群层级之间的互操作成为通讯行业的迫切需求,无法解决跨域大数据中心的各层(数据存储层,计算引擎层等)数据访问的透明化,亟待解决。技术实现要素:本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的一个目的在于提出一种基于元数据的数联网跨域数据访问标准化系统,该系统可以实现数据访问的标准化,解决跨域大数据中数据访问的问题。本发明的另一个目的在于提出一种基于元数据的数联网跨域数据访问标准化方法。为达到上述目的,本发明一方面实施例提出了一种基于元数据的数联网跨域数据访问标准化系统,包括:资源管理层外部互通协议,用于一致性访问hive数据库,其中,所述资源管理层外部互通协议包括基于hivemetadataprotocol标准化的访问hive;数据存储层外部互通协议,用于一致性访问hbase数据库,其中,所述数据存储层外部互通协议包括基于hbasemetadataprotocol标准化的访问hbase;文件存储层外部互通协议,用于一致性访问hdfs文件系统,其中,所述文件存储层外部互通协议包括基于hdfsmetadataprotocol标准化的访问hdfs数据;其中,对所述资源管理层外部互通协议、所述数据存储层外部互通协议和所述文件存储层外部互通协议整合得到基于元数据的数据访问协议,以实现数据访问的标准化。本发明实施例的基于元数据的数联网跨域数据访问标准化系统,可以通过对资源管理层外部互通协议、数据存储层外部互通协议和文件存储层外部互通协议整合得到基于元数据的数据访问协议,以实现数据访问的标准化,实现数字资源的流通与共享,在数联网技术架构中,解决跨域大数据中心的各层数据访问的透明化,实现了层级之间的访问协议。另外,根据本发明上述实施例的基于元数据的数联网跨域数据访问标准化系统还可以具有以下附加的技术特征:进一步地,在本发明的一个实施例中,所述文件存储层外部互通协议进一步用于:发送获取指令以获取相关文件;通过访问元数据仓库获取所述相关文件在各省集群的当前存储位置;根据查询到的各省信息拼接到hdfsmeatdataprotocol协议头,使得拼接后可以定位到任一省的集群的hdfs中的位置;利用hdfsmeatdataprotocol将文件请求命令分发到各省,以实现访问各省的数据。进一步地,在本发明的一个实施例中,所述资源管理层外部互通协议进一步用于:发布命令访问hive数据,使用hivemetadataprotocol协议操作中央任意数据库任意表;通过访问元数据仓库获得所述中央任意数据库任意表位于各省当前位置的元数据信息;采用jdbc访问方式;根据查询到的各省信息拼接到hivemetadataprotocol协议头,使得拼接后可以定位到任一省的集群的hive中的位置;利用hivemetadataprotocol将hive请求命令分发到各省,以实现访问各省的数据。进一步地,在本发明的一个实施例中,所述数据存储层外部互通协议进一步用于:发布命令访问hbase数据,使用hbasemetadataprotocol协议,操作中央任意表;查询中央元数据库获得所述中央任意表位于各省当前位置的元数据信息;采用scan类访问;根据查询到的各省信息拼接到hbasemetadataprotocol协议头,使得拼接后可以定位到任一省的集群的hbase中的位置;利用hbasemetadataprotocol将hbase请求命令分发到各省,以实现访问各省的数据。进一步地,在本发明的一个实施例中,还包括:上层引用层外部互通协议、数据分析层外部互通协议和计算引擎层外部互通协议。为达到上述目的,本发明另一方面实施例提出了一种基于元数据的数联网跨域数据访问标准化方法,包括以下步骤:通过资源管理层外部互通协议一致性访问hive数据库,其中,所述资源管理层外部互通协议包括基于hivemetadataprotocol标准化的访问hive;通过数据存储层外部互通协议一致性访问hbase数据库,其中,所述数据存储层外部互通协议包括基于hbasemetadataprotocol标准化的访问hbase;通过文件存储层外部互通协议一致性访问hdfs文件系统,其中,所述文件存储层外部互通协议包括基于hdfsmetadataprotocol标准化的访问hdfs数据;对所资源管理层外部互通协议、所述数据存储层外部互通协议和所述文件存储层外部互通协议进行整合,生成基于元数据的数据访问协议,以实现数据访问的标准化。本发明实施例的基于元数据的数联网跨域数据访问标准化方法,可以通过对资源管理层外部互通协议、数据存储层外部互通协议和文件存储层外部互通协议整合得到基于元数据的数据访问协议,以实现数据访问的标准化,实现数字资源的流通与共享,在数联网技术架构中,解决跨域大数据中心的各层数据访问的透明化,实现了层级之间的访问协议。另外,根据本发明上述实施例的基于元数据的数联网跨域数据访问标准化方法还可以具有以下附加的技术特征:进一步地,在本发明的一个实施例中,所述通过文件存储层外部互通协议一致性访问hdfs文件系统,进一步包括:发送获取指令以获取相关文件;通过访问元数据仓库获取所述相关文件在各省集群的当前存储位置;根据查询到的各省信息拼接到hdfsmeatdataprotocol协议头,使得拼接后可以定位到任一省的集群的hdfs中的位置;利用hdfsmeatdataprotocol将文件请求命令分发到各省,以实现访问各省的数据。进一步地,在本发明的一个实施例中,所述通过资源管理层外部互通协议一致性访问hive数据库,进一步包括:发布命令访问hive数据,使用hivemetadataprotocol协议操作中央任意数据库任意表;通过访问元数据仓库获得所述中央任意数据库任意表位于各省当前位置的元数据信息;采用jdbc访问方式;根据查询到的各省信息拼接到hivemetadataprotocol协议头,使得拼接后可以定位到任一省的集群的hive中的位置;利用hivemetadataprotocol将hive请求命令分发到各省,以实现访问各省的数据。进一步地,在本发明的一个实施例中,所述通过数据存储层外部互通协议一致性访问hbase数据库,进一步包括:发布命令访问hbase数据,使用hbasemetadataprotocol协议,操作中央任意表;查询中央元数据库获得所述中央任意表位于各省当前位置的元数据信息;采用scan类访问;根据查询到的各省信息拼接到hbasemetadataprotocol协议头,使得拼接后可以定位到任一省的集群的hbase中的位置;利用hbasemetadataprotocol将hbase请求命令分发到各省,以实现访问各省的数据。进一步地,在本发明的一个实施例中,还包括:通过上层引用层外部互通协议、数据分析层外部互通协议和计算引擎层外部互通协议生成所述基于元数据的数据访问协议。本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。附图说明本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为根据本发明实施例的基于元数据的数联网跨域数据访问标准化系统的结构示意图;图2为根据本发明一个实施例的基于元数据的数联网跨域数据访问标准化整体架构的结构示意图;图3为根据本发明一个实施例的hdfsmeatdataprotocol协议访问各大数据集群的hdfs文件的流程图;图4为根据本发明一个实施例的hivemetadataprotocol协议访问各大数据集群的hive数据库的流程图;图5为根据本发明一个实施例的hbasemetadataprotocol协议访问各大数据集群的hbase数据库的流程图;图6为根据本发明实施例的基于元数据的数联网跨域数据访问标准化方法的流程图。具体实施方式下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。下面参照附图描述根据本发明实施例提出的基于元数据的数联网跨域数据访问标准化系统及方法,首先将参照附图描述根据本发明实施例提出的基于元数据的数联网跨域数据访问标准化系统。图1是本发明实施例的基于元数据的数联网跨域数据访问标准化系统的结构示意图。如图1所示,该基于元数据的数联网跨域数据访问标准化系统10包括:资源管理层外部互通协议100、数据存储层外部互通协议200、文件存储层外部互通协议300。其中,资源管理层外部互通协议100用于一致性访问hive数据库,其中,资源管理层外部互通协议100包括基于hivemetadataprotocol标准化的访问hive。数据存储层外部互通协议200用于一致性访问hbase数据库,其中,数据存储层外部互通协议200包括基于hbasemetadataprotocol标准化的访问hbase。文件存储层外部互通协议300用于一致性访问hdfs文件系统,其中,文件存储层外部互通协议300包括基于hdfsmetadataprotocol标准化的访问hdfs数据。其中,对资源管理层外部互通协议100、数据存储层外部互通协议200和文件存储层外部互通协议300整合得到基于元数据的数据访问协议,以实现数据访问的标准化。本发明实施例的系统10可以基于元数据来实现数据访问,实现数字资源的流通与共享,在数联网技术架构中,解决跨域大数据中心的各层数据访问的透明化,实现了层级之间的访问协议。可以理解的是,元数据是描述大数据平台内数据的结构和建立方法的数据,可将其按用途的不同分为两类:技术元数据(technicalmetadata)和业务元数据(businessmetadata),用户存储关于大数据系统技术细节的数据和介于使用者和实际系统之间的语义层元数据。基于元数据的跨域大数据集群之间的数据访问标准可以避免数据访问的歧义,如图2所示,对于数联网的存储层,基于元数据的数据访问协议为:资源管理层外部互通协议100包括基于hivemetadataprotocol标准化的访问hive;数据存储层外部互通协议200包括基于hbasemetadataprotocol标准化的访问hbase;文件存储层外部互通协议300包括基于hdfsmetadataprotocol标准化的访问hdfs数据。另外,数据存储层包括hdfs文件系统、hive数据库和hbasenosql数据库,客户端对数据的访问抽象为基于一定的协议进行访问,如hivemetadataprotocol用于一致性访问hive数据库;hbasemetadataprotocol用于一致性访问hbase数据库;hdfsmetadataprotocol用于一致性访问hdfs文件系统,最后对这些协议进行整合成统一的基于元数据的数据访问协议。进一步地,在本发明的一个实施例中,文件存储层外部互通协议300进一步用于:发送获取指令以获取相关文件;通过访问元数据仓库获取相关文件在各省集群的当前存储位置;根据查询到的各省信息拼接到hdfsmeatdataprotocol协议头,使得拼接后可以定位到任一省的集群的hdfs中的位置;利用hdfsmeatdataprotocol将文件请求命令分发到各省,以实现访问各省的数据。可以理解的是,如图3所示,本发明实施例的基于hdfsmeatdataprotocol协议访问各省集群的hdfs文件流程步骤如下:(1)发送获取文件的指令,获取相关文件hdfsmeatdataprotocol://file_path;(2)通过访问元数据仓库,获取该文件在各省集群中实际的存储位置(由于各省集群文件系统不统一,相关文件位置不一样);(3)根据查询到的各省信息(如各省的id编号)拼接到hdfsmeatdataprotocol协议头;(4)最终拼接成可以定位到某一省的集群的hdfs中的位置;(5)利用hdfsmeatdataprotocol将文件请求命令分发到各省,实现访问各省的数据。进一步地,在本发明的一个实施例中,资源管理层外部互通协议100进一步用于:发布命令访问hive数据,使用hivemetadataprotocol协议操作中央任意数据库任意表;通过访问元数据仓库获得中央任意数据库任意表位于各省当前位置的元数据信息;采用jdbc访问方式;根据查询到的各省信息拼接到hivemetadataprotocol协议头,使得拼接后可以定位到任一省的集群的hive中的位置;利用hivemetadataprotocol将hive请求命令分发到各省,以实现访问各省的数据。可以理解的是,如图4所示,本发明实施例的基于hivemetadataprotocol协议通过jdbc方式访问各省集群的hive数据库步骤如下:(1)发布命令访问hive数据,本发明实施例使用hivemetadataprotocol协议,来操作中央某数据库某表,其访问路径可以为:hivemetadataprotocol://databasename/tablename;(2)通过访问元数据仓库,获得该表位于各省实际位置的元数据信息(数据库ip,数据库名,表名等);(3)采用jdbc访问方式;(4)根据查询到的各省信息(如各省的id编号)拼接到hivemetadataprotocol协议头;(5)最终拼接成可以定位到某一省的集群的hive中的位置;(6)利用hivemetadataprotocol将hive请求命令分发到各省,实现访问各省的数据。进一步地,在本发明的一个实施例中,数据存储层外部互通协议200进一步用于:发布命令访问hbase数据,使用hbasemetadataprotocol协议,操作中央任意表;查询中央元数据库获得中央任意表位于各省当前位置的元数据信息;采用scan类访问;根据查询到的各省信息拼接到hbasemetadataprotocol协议头,使得拼接后可以定位到任一省的集群的hbase中的位置;利用hbasemetadataprotocol将hbase请求命令分发到各省,以实现访问各省的数据。可以理解的是,如图5所示,本发明实施例的基于hbasemetadataprotocol协议通过scan类方式访问各省集群的hbase的步骤如下:(1)发布命令访问hbase数据,使用hbasemetadataprotocol协议,操作中央某表,访问路径为:hbasemetadataprotocol://tablename。(2)查询中央元数据库,获得该表位于各省实际位置的元数据信息(表名等)。(3)采用scan类访问。(4)根据查询到的各省信息(如各省的id编号)拼接到hbasemetadataprotocol协议头(5)最终拼接成可以定位到某一省的集群的hbase中的位置。(6)利用hbasemetadataprotocol将hbase请求命令分发到各省,实现访问各省的数据。进一步地,在本发明的一个实施例中,本发明实施例的系统10还包括:上层引用层外部互通协议、数据分析层外部互通协议和计算引擎层外部互通协议。根据本发明实施例提出的基于元数据的数联网跨域数据访问标准化系统,可以通过对资源管理层外部互通协议、数据存储层外部互通协议和文件存储层外部互通协议整合得到基于元数据的数据访问协议,以实现数据访问的标准化,实现数字资源的流通与共享,在数联网技术架构中,解决跨域大数据中心的各层数据访问的透明化,实现了层级之间的访问协议。其次参照附图描述根据本发明实施例提出的基于元数据的数联网跨域数据访问标准化方法。图6是本发明一个实施例的基于元数据的数联网跨域数据访问标准化方法的流程图。如图6所示,该基于元数据的数联网跨域数据访问标准化方法包括以下步骤:在步骤s601中,通过资源管理层外部互通协议一致性访问hive数据库,其中,资源管理层外部互通协议包括基于hivemetadataprotocol标准化的访问hive。在步骤s602中,通过数据存储层外部互通协议一致性访问hbase数据库,其中,数据存储层外部互通协议包括基于hbasemetadataprotocol标准化的访问hbase。在步骤s603中,通过文件存储层外部互通协议一致性访问hdfs文件系统,其中,文件存储层外部互通协议包括基于hdfsmetadataprotocol标准化的访问hdfs数据。在步骤是s604中,对所资源管理层外部互通协议、数据存储层外部互通协议和文件存储层外部互通协议进行整合,生成基于元数据的数据访问协议,以实现数据访问的标准化。进一步地,在本发明的一个实施例中,通过文件存储层外部互通协议一致性访问hdfs文件系统,进一步包括:发送获取指令以获取相关文件;通过访问元数据仓库获取相关文件在各省集群的当前存储位置;根据查询到的各省信息拼接到hdfsmeatdataprotocol协议头,使得拼接后可以定位到任一省的集群的hdfs中的位置;利用hdfsmeatdataprotocol将文件请求命令分发到各省,以实现访问各省的数据。进一步地,在本发明的一个实施例中,通过资源管理层外部互通协议一致性访问hive数据库,进一步包括:发布命令访问hive数据,使用hivemetadataprotocol协议操作中央任意数据库任意表;通过访问元数据仓库获得中央任意数据库任意表位于各省当前位置的元数据信息;采用jdbc访问方式;根据查询到的各省信息拼接到hivemetadataprotocol协议头,使得拼接后可以定位到任一省的集群的hive中的位置;利用hivemetadataprotocol将hive请求命令分发到各省,以实现访问各省的数据。进一步地,在本发明的一个实施例中,通过数据存储层外部互通协议一致性访问hbase数据库,进一步包括:发布命令访问hbase数据,使用hbasemetadataprotocol协议,操作中央任意表;查询中央元数据库获得中央任意表位于各省当前位置的元数据信息;采用scan类访问;根据查询到的各省信息拼接到hbasemetadataprotocol协议头,使得拼接后可以定位到任一省的集群的hbase中的位置;利用hbasemetadataprotocol将hbase请求命令分发到各省,以实现访问各省的数据。进一步地,在本发明的一个实施例中,还包括:通过上层引用层外部互通协议、数据分析层外部互通协议和计算引擎层外部互通协议生成基于元数据的数据访问协议。需要说明的是,前述对基于元数据的数联网跨域数据访问标准化系统实施例的解释说明也适用于该实施例的基于元数据的数联网跨域数据访问标准化方法,此处不再赘述。根据本发明实施例提出的基于元数据的数联网跨域数据访问标准化方法,可以通过对资源管理层外部互通协议、数据存储层外部互通协议和文件存储层外部互通协议整合得到基于元数据的数据访问协议,以实现数据访问的标准化,实现数字资源的流通与共享,在数联网技术架构中,解决跨域大数据中心的各层数据访问的透明化,实现了层级之间的访问协议。在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。当前第1页12当前第1页12