有人说大数据技术是第四次技术革命,这个说法其实不为过。
很多人只是听过大数据这个词或者是简单知道它是什么,那么它是什么呢,在这里就通俗点来说一下个人对大数据的理解。
大数据,很明显从字面上理解就是大量的数据,海量的数据。大,意思就是数据的量级很大,不上TB都不好意思说是大数据。数据,狭义上理解就是12345那么些数据,毕竟计算机底层是二进制来存的,那么在大数据领域,数据就不仅仅包括数字这些,它可以是所有格式的东西,比如日志,音频视频,文件等等。
所以,大数据从字面上理解就是海量的数据,技术上它包括这些海量数据的采集,过滤,清洗,存储,处理,查看等等部分,每一个部分包括一些大数据的相关技术框架来支持。
举个例子,淘宝双十一的总交易额的显示,后面就是大数据技术的支持,全国那么多淘宝用户的交易记录汇聚到一起,数据量很大,而且要做到实时的展现,就需要强有力的大数据技术来处理了。
数据量一大,那么得找地方来存,一个服务器硬盘可以挂多少,肯定满足不了这么大的数据量存储啊,所以,分布式的存储系统应运而生,那就是HDFS分布式文件系统。简单的说,就是把这么大的数据分开存在甚至几百甚至几千台服务器上,那么管理他们的系统就是HDFS文件系统,也是大数据技术的最基本的组件。
有地方存了,需要一些分布式的数据库来管理查询啊,那就有了Hbase等,还需要一些组件来计算分析这些数据啊,mapreduce是最基本的计算框架,其他的计算框架Spark和Storm可以完成实时的处理,其中HDFS和MapReduce组成了Hadoop1.
总之,一切都是数据。我们的历史,是不是都是大量的数据保存下来的,现在我们也是大数据的生活,天天有没有接到骚扰电话还知道你姓什么,你查话费什么的从几亿人的数据中查到你的信息,大数据生活。未来,大数据将更深刻的渗透到生活中。1、大数据又称巨量资料,是海量具有高增长率和多样化特性的有价值的信息资产的集合。它不仅仅包括数字,还包括图片、文本、视频、交互记录等等。大数据无法在可承受时间范围内用常规软件工具进行捕捉、处理和管理。具有大亮、高速、多样、价值这四个特点,主要应用于计算机,它的最小单位是bit。
2、大数据可以说是云计算不断发展下的一个产物,同时也必须依托于云计算的分布式处理、分布式数据库、和云存储、虚拟化技术对海量数据进行分布式处理。
3、大数据中的信息资料大都来源于一些交互平台或者是公司企业、网站。这些信息经过处理后,其中一部分会转变为有规律的信息结构,这样就可以对他们进行分析从而利于企业的市场营销,甚至国家安全。
大数据的4个“V”,或者说特点有四个层面:
第一,数据体量巨大。从TB级别,跃升到PB级别;
第二,数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。
第三,处理速度快,1秒定律,可从各种类型的数据中快速获得高价值的信息,这一点也是和传统的数据挖掘技术有着本质的不同。
第四,只要合理利用数据并对其进行正确、准确的分析,将会带来很高的价值回报。业界将其归纳为4个“V”——Volume(数据体量大)、Variety(数据类型繁多)、Velocity(处理速度快)、Value(价值密度低)。大数据的特点。数据量大、数据种类多、 要求实时性强、数据所蕴藏的价值大。在各行各业均存在大数据,但是众多的信息和咨询是纷繁复杂的,我们需要搜索、处理、分析、归纳、总结其深层次的规律。笼统点讲吧!顾名思义大数据就是信息量大的数据!比如说一瞬间需要处理上亿条指令的动作,这个也算大数据,或者需要长时间演算的数据,甚至是包含无数条记录的信息,反正就是信息量大!
大数据的4V,就是“容量大Volume”“多样性Variety”“价值高Value”“速度快Velocity”
现在已经有5V了
一、Volume:数据量大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。
二、Variety:种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。
三、Value:数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵。随着互联网以及物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题。
四、Velocity:数据增长速度快,处理速度也快,时效性要求高。比如搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。
五、Veracity:数据的准确性和可信赖度,即数据的质量。大数据(big data),是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。 1. 数据量大,tb,pb,乃至eb等数据量的数据需要分析处理。 2. 要求快速响应,市场变化快,要求能及时快速的响应变化,那对数据的分析也要快速,在性能上有更高要求,所以数据量显得对速度要求有些“大”。 3. 数据多样性:不同的数据源,非结构化数据越来越多,需要进行清洗,整理,筛选等操作,变为结构数据。 4. 价值密度低,由于数据采集的不及时,数据样本不全面,数据可能不连续等等,数据可能会失真,但当数据量达到一定规模,可以通过更多的数据达到更真实全面的反馈。 大数据已经成为各类大会的重要议题,管理人士们都不愿错过这一新兴趋势。毫无疑问,当未来企业尝试分析现有海量信息以推动业务价值增值时,必定会采用大数据技术。