云存储框架中的多关键词加密检索方案
来源:原创 时间:2018-02-26 浏览:6349 次坐标匹配方法与文献匹配方法的相似性,用内部产品相似性评价坐标匹配方法。由于大数据和云计算技术的布尔索引量化方法的发展,隐私保护问题是以相同的关键字文件数和相同的相关分数,导致在云存储环境中重要的数据所有者向云服务器上传数据到多个关键字搜索的低精度方法[2]。这提供了必要的数据在公共和用户的搜索,是与隐私保护有关的。
目前云存储环境下基于公钥密码体制的多关键字传输多关键字搜索方法,但传统的密文搜索算法搜索效率低,多关键字搜索在模糊匹配关键字和加密时间开销方面存在不足,导致方法规律不完善,多关键字搜索方法,已成为当前密文检索的低效率。根据文献参考文献[3]的相似性,对文档聚类和聚类索引的关键词进行了研究。
在离线阶段形成、建立完整的聚类和聚类索引;但文献[1]提出了云数据加密(搜索关键字排序,Muli-用户可以根据自己的需要调整关键字权重值,导致实际应用关键字排序搜索对加密云数据,MRSE)缺乏自适应能力。文献[4]中的文献检索方法在密文加密插件搜索中,采用基于频率的逆文档频率(术语Frequeney-InverseDocument Frequument Frequeney-InverseDocument Frequument Frequentrequent,TF-DF)对即将出现的关键字方法进行排序,在一定程度上减少了云服务器搜索时间,但这种方法要求用户和数据所有者必须使用加密搜索软件。
在文献[5]中,提出了一种基于分层聚类索引的多关键字分级搜索方法。针对用户定义的关键词权重不支持,搜索精度低,搜索效率低的问题,提出了一种改进的质量层次聚类算法(IQC)。在此基础上,提出了一种基于IQHC-MRSE-lQHC加密云数据库的关键字排序搜索方法,以提高多关键字密文检索的效率和准确性。关键词密文搜索方法的研究目的是对加密数据进行多关键字密文搜索,保护隐私。在云存储中,我们可以支持多关键字密文搜索,支持多关键字密文搜索。根据用户的要求,将第一个k个最佳匹配结果返回给用户。
2)将TF-DF4与等距空间模型(ⅤSM°)相结合,通过对IHC算法进行聚类以提高搜索效率,提高了搜索效率。缩短搜索时间。3)满足用户对关键词权重的定义。通过给出关键词用户的权重值,根据用户的需要在多关键字的搜索中优先返回,以满足用户的要求,提高搜索的准确性。
4)隐私保护。保护数据所有者和用户的秘密攻击者和云服务器不能访问明文数据系统模型。MRSE-QHC方法涉及三个实体:数据所有者、用户和云服务器。这三个实体和密文搜索方法构成了一个系统模型,其中数据所有者和用户诚实可信,云服务器是半可信的。系统模型的结构是数据所有者的搜索和控制机制。
c用户系统模型图的数据所有者。I系统模型是拥有文件并能提取文件关键字的实体。本文提出的IQHC算法用于生成文件向量聚类的聚类索引和文件索引,并对索引和文件进行加密并上传到云服务器。执行搜索操作的实体.
用户定义关键字的权重并在搜索时生成搜索请求,在数据所有者的帮助下生成加密的搜索向量。将接收器门上传到云服务器,等待云服务器返回搜索结果。云服务器是一个半可信的服务器,它存储来自数据所有者的加密文件和索引,并根据用户发送的陷阱门执行搜索操作。在该系统模型中,密文搜索可分为离线段和在线段两个阶段。
数据所有者使用LHC算法对文件向量进行聚类,并根据聚类结果生成文件索引和聚类索引。在联机阶段,数据所有者使用不同的加密方法对文件进行索引。然后将集群索引和文件加密上传到云服务器。用户根据所述需求生成所述搜索请求,并通过所述搜索控制机制将所述搜索请求发送给所述数据所有者。
数据所有者通过搜索请求构造搜索向量。加密后,生成捕获门并通过搜索控制机制返回给用户;用户将陷阱门上传到云服务器并等待搜索结果;云服务器在计算后将加密文件返回给用户;用户从数据所有者处获取解密密钥,并通过搜索控制机制对文件进行解密。系统模型中的搜索控制机制和访问控制机制不属于本文研究的范围。改进了2种质量等级聚类算法2.1 TFID和SM以前的密文搜索算法MRSE-HICI(仅根)。
基于构建文件是否以关键字存在,没有考虑关键字出现的频率及其重要性,在多关键字密文搜索中,只能返回给具有关键字的用户,但可以根据文件中出现的关键字的频率和整个文件集的重要性将其排序给用户。因此,本文将TF-DDF和ⅤSM相结合,构建文件向量,可以有效地解决上述问题。
TF-IDF通常用于信息检索和数据挖掘统计方法中,以测量用于TF-IDF:TF频率中的文件或一组文件的重要性的关键字,指示频率中的文件中的关键字的大小;Df用于反向文档频率,指示在频率测量方法的集合中的文档中的关键词的大小是该.tf-IDF关键字的一般重要性,对于密文搜索中的每个关键词权重,可以通过用户文件所需的关键词权重来计算。在本研究中,选择关键词作为特征,以TF和IDF作为关键词权重的乘积,表达每个关键词在文件中出现的重要性和文档向量构建中的文件集合中的文件,以提高VSSM算法的聚类效果是一种方形方法中的文本,常用于信息检索领域。如果该文件由多个不相关的特征组成,则该特征可以是单词、单词、短语中的每个特征之间的顺序关系、通过某种方法的Vsm将权重分配给每个特征,作为文档到向量空间中的权重将是6.Vsm文档向量坐标,文本语义处理问题成为数学问题。
通过矢量间矢量之间的数学运算,如矢量距离,相似矢量角法能够准确地测量文件的内容。该方法选择矢量距离作为相似性度量,将改进后的算法应用于SMV,提高文本聚类效果。
该方法通过TFDDF和SM的结合,将搜索结果排序密文,提高了云存储环境中多.2.2THC搜索算法的精度的关键——字密文搜索方法、高维向量维矢量文件冗余以及数据的稀疏分布,导致了大量的计算开销,密文检索效率较低。本文在QHC算法的基础上,通过减少向量空间中的文档向量,结合13种算法的主成分分析(主成分分析PCA)聚类和质量水平(质量分级聚类,QHC),提出了基于QHC算法的LQHC算法LQHC算法设计步骤:1个步骤,以TF-IDF和SM数为单位生成样本文档向量VD1nD2,...d、d、=(d1、d2、................................d)(i=1,2,...n)对于P维向量,当构造NP时,构造样本矩阵,并且将矩阵元素转换为标准化样本矩阵Z2=(D-D)/S;i=1,2,n,j=1,2,和...P(1)其中Z是矩阵Z的转置。
步骤3使用奇异值分解(奇异值分解VD)特性方程C-A&bar;=0方法求解样本协方差矩阵C,P为P根据从大到小的顺序的特征根,并且基于类型(3)来确定主分量的数目。4/},M的贡献率可以通过下面的公式来选择ETA值,M个主分量代表每个特征的原始信息,等式组RB=AB的解得到M个单位特征向量B(j=1,2,…,步骤4,M),其中U被称为第一主分量的主分量的标准化数据转换被称为第二主分量U,称为M主分量。利用5.1实验数据和环境的降维所代表的新主成分的文件向量,为便于配置聚类和效果测试,本实验采用了&bra;中国复旦大学语料库&ket;,库中包含了总共9804个文档的艺术、历史、能源、电子、交通等20种文本,并对每个文件的培训语料库进行了分类。
软件和硬件配置的实验环境:IntelCoreGHzCPU4GB、RAM、Windows7(64)操作系统,使用Python编程语言。在相同的实验条件下,MRSEQHC、MRSE和MRSE-HCT与三种方法比较。
5.2搜索影响数量的文件在搜索时间测试数据中被划分为5组,100,50被选择.0个文件,所选文件的大小为1~50kb。
字典中的关键字数为5000,搜索请求由10个关键字组成,每个关键字赋予一个13的权重,用户请求返回10个文件。结果如图2所示。如图2所示,在开始时,力法MRSE-iqhc和MRSE方法的搜索时间相似(该方法的搜索时间小于其他两种方法),随着文件数的增加,MRSE-HCI方法和MRSE-QHC方法的搜索时间基本呈线性增长。该方法的搜索时间呈指数增长,搜索时间明显少于其他两种方法。5.5搜索精度测试或选取500个文件,文件大小为1-50KBBrrC 5000,用户请求搜索10个关键词,每个关键字的权重为1/3,这三种方法在返回不同数量的文件时,都会检验三种方法的搜索精度。结果如表1所示。
可以看出,MRSE-lQHC方法的搜索精度明显高于其他两种方法。由于MRSE-QHC方法将TF-ID和ⅤSSM相结合来构造文件向量,搜索阶段由用户定义的关键字权重来定义。因此,首先可以选择具有重要关键字的文件,提高了密文搜索的准确性。另外两种方法只考虑文件是否包含关键字,而不考虑用户的需要。因此,本文提出的构造文件向量的VSM方法的精度低于本文方法的组合,能够有效地考虑文件集中关键词的频率和重要性。
其次,采用IQC算法对文件向量进行聚类。根据聚类结果构造聚类索引和文件索引,有效地提高了密文搜索的效率。最后,用户在搜索时定义关键字权重值。提高了方法的自适应能力,提高了检索结果的准确性。实验结果表明,该方法在搜索效率和准确性上均优于MRSE和MRSE-HCI。