专业汉语词典知识平台,分享汉字词语知识、历史文学知识解答!

励北网
励北网

EVDO是什么

来源:小易整编  作者:小易  发布时间:2023-08-17 09:45
摘要:数据优化(EVDO)是数据库必须对原始数据进行数据预处理。数据库是支持知识发现的基础工程,要获得高信息含量的、有用的知识,理想情况是原始数据是不含噪声的正确数据。数据库是支持知识发现的基础工程。要获得高信息含量的、有用的知识,理想情况是原始...

数据优化(EVDO)是数据库必须对原始数据进行数据预处理。数据库是支持知识发现的基础工程,要获得高信息含量的、有用的知识,理想情况是原始数据是不含噪声的正确数据。

EVDO是什么

数据库是支持知识发现的基础工程。要获得高信息含量的、有用的知识,理想情况是原始数据是不含噪声的正确数据。数据是组成数据库的基本单元,构建高质量的数据库,必须对原始数据进行数据预处理,也就是所说的数据优化(EVDO)。

基本介绍

网络数据处理是网络信息计量学的重要组成部分,也是当前网络界、新闻传播界、信息管理界都十分关注的热点研究领域之一。有科学价值的数据库,应能实现基于数据库的数据挖掘和科学研究。数据库是支持知识发现的基础工程。要获得高信息含量的、有用的知识,理想情况是原始数据是不含噪声的正确数据。

数据是组成数据库的基本单元,构建高质量的数据库,必须对原始数据进行数据预处理,也就是所说的数据优化。

优化模型

数据分析优化模型

对数据进行分析重组可以很大程度上减少数据转化过程中的为了转化而进行的查询次数,也能最大程度上的提高缓存命中率。首先我们判定哪些字段需要进行转化。如果仅有一个字段需要转化,那么只需将数据根据相关字段进行分组重排。这组数据的字段转化关系可以完全加入到缓存中。而且可以保证的是这个组的数据处理完毕后,其他的组不会用到这个缓存中的数据。也就是说这个字段被移除缓存后,就不会再加入缓存了。如果有多个字段,就要通过抽样试验分析字段问的相关性,按相关性的顺序进行数据重组。

程序员在进行数据抽取时只要声明要转化字段和相关性字段就可以了。并把它保存在配置文件中。转化字段非常容易的识别出,但是相关性字段除了一些常识性的可以立刻判断出,如一个部门的人重叠性很高,一个品牌的汽车重叠性很高。但有很多,用户也无法识别。框架提供了相关性抽样试验数据学习方法,抽取三个不相关数据子集,分别进行相关性命中率测试,取命中率平均值。最高的就为最相关的字段。

用户编写的 SQL 语句,要先进行语法语义分析。先分析这个 SQL 有哪些字段。去优化配置文件中找出待转化字段和相关字段,判断该 SQL 是要加入分组条件还是分组加排序条件。第二就是看看该 SQL 是不是会进行全盘扫描。如果会导致全盘扫描转化为按照索引进行扫描。最后根据以上两个方面进行 SQL 重写,生成符合要求的 SQI,让取出的数据变得有规律,使得下一步进行数据转化,缓存命中率大大提高。

1.对文件的分析过程

这部分主要是如果数据源是文本文件,如 EXCEL 表格时,根据文本类型,调用文本文件的一些操作函数,根据配置文件的规则,对 EXCEL 按照某些列进行排序,形成有规律的数据。再被引入到系统之中。方法和 SQL 类似。

2.数据重组

从数据分析模型中已经得知需要按照哪些属性进行重组,重组属性的优先级。如果数据源是文件,我们需要对文件进行排序。如果数据源是数据库,那么我们需要对查询 SQL 按照属性优先级进行重写。

SQL 优化模型

主要是对数据转化时,有些属性需要根据从目标数据库查询出的数据才能转化的情况。为了使缓存置换的时间变短,需要对查询 SQL 进行优化。经过 SQL 语句的预处理,将 SQL 语句分离成片段,找到片段中的各个部分,将片段主体部分拆分出来,根据规则优化 SQL 语句,还原整个 SQL 语句 6 个部分。

1.SQL 语句的预处理

在对 SQL 语句进行分析之前,有必要对它进行一些预处理,这样能减轻不少后面编程的负担。预处理的主要工作是对 SQL 进行标准化,方便后续的处理。标准化是要去空格,统一成小写格式,多行变为一行

2.将 SQL 语句分离成片段

预处理后,SQL 语句变为我们想要的格式。接下来将这个字符串按照某种限定符分为几个部分。

3.找到片段中的各个部分

有了表示片段的正则表达式,找到片段后从中分离出片段起始标志 start 片段主体 body 和片段结束标志 end 就很容易了。

4.对主体部分进行更深入的分析

5.将片段还原成主体

我们经过前四部分,已经将 SQL 分析完毕,但我们最终的目的还是将 SQL 还原,我们的目的是将前四部分分析的记过整合起来

6.优化 SQL 语句

缓存优化模型

和以往系统在初始化时初始缓存不同,这个缓存是业务缓存,且是不断变换的。需要在数据抽取阶段时进行初始化,随着数据类别的变化,缓存内容也要不断的进行替换。

如果有多个属性需要进行转变。优先级高的属性使用的缓存不需要置换。而优先级较低的缓存内容需要进行置换。因为置换的内容联系性较强。也就是说用到的几率都是相近的,因此,最近没被用到的,往往最容易被用到。所以使用 LRU 置换算法。

优化流程

主要流程分三个方面,分别是数据采集、数据分析和数据处理。下面将分别介缁这三个步骤所要完成的主要功能。

1.数据采集

软件测试方案生成子系统根据不同的测试部门和不同的测试项目的具体要求确定相应的数据采集范围,以实时数据和历史数据作为基础采集系统运行当中需要的数据。

2.数据分析

对于实时数据,系统将根据输入的文件或者命令,将其按照给定的设计要求保存到对应的数据变量和数组中,供测试管理人员生成新方案使用。

对于历史数据,系统需根据不同的数据表内容,分析其中的有用信息,并对其进行深入的分析。

3.数据处理

每次系统运行开始时,对系统中的各种数据进行总结与整理,将其按照系统要去放入对应的变量或者数据表当中,以供下一步工作使用。

批量处理框架研究背景

在计算机领域里,很多系统的开发和使用都离不开准确的数据。而这些数据很多时候都是由别的系统或资源产生和提供的。数据在不同的系统之间虽然内含一致,但表现形势不同。因此我们往往需要将数据从一个系统导入另一个系统中,而大部分数据需要经过处理后再导入。而这个过程会出现三个问题。

第一个问题是处理速度。如果数据量比较大,或者涉及数据库表非常多,或者转化过程逻辑很复杂,或者数据大部分都需要映射。那么处理数据和导入数据的过程就会占用大量的时间,在这段时间内很多因素都会导致批量处理过程的失败,这就造成了系统的不稳定性。而有些批量处理数据过程也需要在短时间完成,以给用户以良好的体验过程。这个是论文解决的重点。

第二个问题就是导入过程往往是把抽取数据,转化数据,导入数据过程和它们关联的业务仅仅联系在一起。让代码变得耦合性高和杂乱无章。使得批量处理过程没法扩展和重用。如果出现了一个新的业务的批量数据导入,就要做很多重复工作,甚至重新导数据。人们曾经利用 MVC 模式的 struts 框架成功分离了页面元素和业务逻辑元素。那么导数据过程也可以利用框架分离准备数据过程和处理数据过程,让程序员把业务逻辑都写入一个业务逻辑类中。而取数据,插入数据过程由框架完成。

第三个问题是,在处理数据的过程中,对于过程中处理的异常状况没有恰当的处理。最坏的情况下是导完数据后,不知道哪些成功了,哪些失败了。这样导数据工作将变得毫无意义。稍微好一点的情况是知道导入失败的记录,然后利用记录去手工调整。这样虽然最后也能完成批量处理数据过程,但浪费了很多时间。框架会把异常记录成为异常信息和异常关键字两部分,根据异常信息进行微调,在根据异常关键字进行补发。

过程介绍

大批量数据的处理是将数据从一个数据源经过处理和转化后,同步到另一个数据源的过程。这个过程关注以下问题:从数据源读取数据,数据的处理,数据的写入。大批量数据处理过程有以下特点:数据源的多样性造成取数据方式的多样性。转化过程比较复杂,有的设计运算,有时需要查询,耗费大量时间。同步过程频繁,如果数据量大,对目标数据库写入次数过多,消耗大量时间。

获取数据是大批量数据处理过程的一个重要组成部分,它负责将分布的、异构数据源中的数据,如关系数据、数据文件等的数据抽取出来,加载到内存中,以方便对数据发生重要的重构。

数据处理是将源数据转换为目标数据的关键环节。它指的是对于数据源获取到的数据,经过一系列的转换来变为目标数据库需要的数据的过程,通过比较源数据和目标数据的关系,实现了各种复杂的转换,包括数据格式转换,数据类型转换,数据汇总计算,数据拼接等。

数据同步主要是将经过转换和清洗的数据加载到目标数据库中,供目标系统使用处理。

系统架构

开发人员利用该框架对大批量数据进行处理进行编程时,通过取数据组件获取到数据,程序员设置一次性处理的数据量,并确定用什么样的规则对数据进行处理和转化,将数据送入仓库。另外,程序员需要设置消费者逻辑,如将数据写入哪个表,并将这个逻辑传入数据同步组件。剩下的问题程序员都不需要关注,框架会完成整个数据同步过程。如果同步过程是不稳定的,程序员需要调用异常处理函数。保证同步过程的顺利进行。

系统的体系结构图


本文地址:百科问答频道 https://www.neebe.cn/wenda/1028447.html,易企推百科一个免费的知识分享平台,本站部分文章来网络分享,本着互联网分享的精神,如有涉及到您的权益,请联系我们删除,谢谢!


百科问答
小编:小易整编
相关文章相关阅读
  • 销售额是什么意思?

    销售额是什么意思?

    销售额是指商业企业的一项关键指标,代表企业在一定时期内的营业额,它实时反映企业经营活动的情况,是衡量企业经营能力和效益的重要指标。销售额可以有多种形式,如零售销售额、批发销售额和出口销售额等。销售额的计算方法很简单,即:销售额=销售数量...

  • iTools是什么意思?

    iTools是什么意思?

    iTools是一款功能强大的苹果设备管理工具。它为苹果设备用户提供了便捷的设备管理功能,包括文件传输、备份还原、应用程序管理、屏幕截图、屏幕录制、音乐管理、视频管理等多种功能,而且支持所有的i系列设备,例如iPod、iPhone和iPad...

  • 无损分区工具是什么意思?

    无损分区工具是什么意思?

    无损分区工具是一种硬盘分区方式,是指在分区时保持原有数据不受损坏的一种分区技术,这种分区技术称为“无损分区”。无损分区可以保护硬盘上的数据,在分区时不会破坏硬盘上的任何数据。而且,在数据安全性上也有一定的优势,因为它不会破坏的数据,因此可...

  • 消费凭证是什么意思?

    消费凭证是什么意思?

    消费凭证是指一种书面的证明凭证,当消费者购买商品或服务时,商家会向其提供消费凭证,凭此凭证可以证明消费者购买了特定的商品或服务,以及在这次购买中耗费的钱财数额。消费凭证是一种用于表示购买交易的依据,是为消费者提供全面鉴证的凭证。它可以表明...

  • DSM系统是什么意思?

    DSM系统是什么意思?

    DSM是一种新晋的分布式、可扩展的模块化系统。它是以无服务器、全节点一致性的系统架构为基础,采用多进程系统将服务、运维功能以模块化的方式集合到一起而不会配置服务的的系统设计模型。DSM的核心特点在于采用了一致性的分布式架构,模块化的结构,...

  • 裸金属是什么意思?

    裸金属是什么意思?

    简而言之,裸金属是指被提取出来,没有被添加任何基材的未加工金属。它是将矿石熔化下去后提炼出来的金属,用来做各种活动和企业的原材料。裸金属通常是一种切削或加工的未经热处理的金属。裸金属一般不经过任何表面处理,以自身属性状态出售。它不会涂以油...

  • CVSS是什么意思?

    CVSS是什么意思?

    CVSS(CommonVulnerabilityScoringSystem,中文译名“公共漏洞评分系统”)是一种漏洞分级和评分系统,是由美国国家信息安全标准研究所(NIST)推行的一套机制,它利用特定的参数来构建一个漏洞评级分类体系...

  • 键盘接口是什么意思?

    键盘接口是什么意思?

    键盘接口一般是用于挂接键盘的接口。它也称为键盘插座或键盘接头,它是一个连接键盘和计算机系统之间的重要硬件部件。键盘接口可以用来接收键盘上发出信号,以便在主板上发出完整的指令。键盘接口可以分为有线和无线两种,有线键盘接口是指采用插孔的连接方...

  • 周排行
  • 月排行
  • 年排行

精彩推荐