0 回复 最新回复: Dec 10, 2017 6:54 PM Leo Zhenjun Li RSS

避免“宠物计划”,让数据湖更好创造价值

Leo Zhenjun Li

文/Matt Maccaux

EMC全球大数据业务主管


存储大量数据对企业来说一直是个挑战,但相比之下,如何以易于访问和有效的方式管理数据则是更加严峻的挑战,而“数据湖”则是一个有效的解决方案。

 

数据湖和大数据技术,如Hadoop、HDFS、Hive和HBase,这在当下是一个非常流行的解决方案,特别对于那些需要用更好方式来存储和处理大量数据和分析的组织来说。由于它们能够以各种形式从各种应用程序提供原始数据,所以通常比企业数据仓库的成本更低。采用这些技术的目的是,组织可以轻松地搜索他们需要的信息,无论其来源或格式,帮助他们在日常的业务运作中更有效地利用分析。



除了以上优势,数据湖还为企业提供了一个能力——将数据货币化的能力但由于太多企业在没有考虑长期目标的情况下构建数据湖,使得他们缺少将数据湖转化为可扩展的、弹性的数据货币化平台的能力,导致他们在数据湖中错失的机遇。

 

因此,下面有五个常见的企业实施错误,可以帮助企业更好地部署数据湖。

 

 

 

1太多Hadoop

当Hadoop发行版或群集在企业中大量应用时,你存储的也许只是大量重复数据。许多企业一点一点地按部门部署Hadoop,造成数据孤岛,阻碍大数据分析,使得员工无法利用所有数据进行全面的分析。这实质上只是重复了数据仓库/集市的问题。

 

 

 

 

2太多的管理

一些组织对于数据湖的管理制定了太多限制,例如这个数据湖谁可以查看、访问和处理数据,以至于最后没有人能够访问数据库,导致数据无用。

 

 

 

 

3缺乏有效的管理

太多的管理会适得其反,但缺乏有效的管理也不行。如果数据湖没有被有效管理起来,那么数据湖会迅速被大量低质量的数据所淹没,导致数据被“污染”或“篡改”,最终使得业务不再信任这些数据,使整个数据湖再次变得无用。

 

 

 

 

4非弹性架构

组织错误最常见的错误是用非弹性架构来构建他们的数据湖。由于数据存储成本很高,组织往往一次一个服务器缓慢而有机地扩展其大数据环境,通常从基础服务器开始,最终添加高性能服务器以跟上业务需求。随着时间的推移,数据存储的增长超出了计算需求的增长,维持如此庞大的物理环境不仅繁琐,成本也是问题。

 

 

 

 

 

5“宠物计划”

IT团队经常把数据湖的实施视为“宠物计划”,认为如果建立数据湖,就会推动业务团队去使用它。 IT团队希望构建数据湖,并对IT数据执行分析,以证明他们可以代表业务执行分析。但是从业务的角度看,IT使用案例是一个出乎意料的低价值工作,没有为业务利益相关者建立可信度。


 

 


数据湖未来:创建协同价值创造平台


利用数据湖进行数据货币化的障碍远大于实施数据湖的挑战。但如果企业如果不了解各种机遇,企业就很难看到更大的局面,并为其数据湖投入足够的资源。

 

对于抓住机遇,成功克服这些障碍的组织,“数据湖未来”即将到来。 这个未来是专为那些完全接受数据和分析的独特特性的人所保留的,并且理解数字资产的力量是永不枯竭的,并且可以以接近于零的边际成本在无数用例上使用。 他们将数据湖看作是“协同价值创造平台”,不仅将推动新的效率水平,而且将推动新的数据货币化机会。


 

 

与任何新兴技术一样,完全进入数据湖还需要时间,因此对于那些已经运行这些技术的企业来说,他们已经充分发挥了潜力。 但对那些刚开始这段旅程的人,战略性地和长远目光,将会创造一个巨大的竞争优势,帮助他们赢得未来几年的竞争优势。