当前位置:七道奇文章资讯系统安全Linux安全
日期:2011-01-23 03:26:00  来源:本站整理

Apache Hadoop最佳实践和反情势[Linux安全]

赞助商链接



  本文“Apache Hadoop最佳实践和反情势[Linux安全]”是由七道奇为您精心收集,来源于网络转载,文章版权归文章作者所有,本站不对其观点以及内容做任何评价,请读者自行判断,以下是其具体内容:
Apache Hadoop是一个用于构建大规模,同享存储和计算底子设备的软件框架,Hadoop集群常常用于各种研究和开辟项目,如Yahoo!,eBay,Facebook,Twitter等互联网公司就大量利用了Hadoop,并在核心业务系统中扮演中关键角色,因此精确布置Hadoop集群是确保得到最佳投资回报的关键.

本文介绍了在Apache Hadoop上运行利用程序的最佳实践,实际上,我们引入了网格情势(Grid Pattern)的概念,它和计划情势近似,它代表运行在网格(Grid)上的利用程序的可复用办理筹划.

概述

Hadoop上的利用程序数据是利用Map-Reduce(映射-化简)范式写入的,Map-Reduce功课普通要将输入数据集拆分成独立的数据块,由Map任务以完好并行的方法处理,框架对Map的输出后果排序,然后传送给Reduce任务,普通情形下,功课的输入和输出后果都保存在文件系统上,框架管理筹划任务,监控它们的履行情形,以及重新履行失利的任务.

Map-Reduce利用程序指定输入/输出位置,通过实现得当的Hadoop接口,如Mapper和Reducer,辨别供应Map和Reduce功效,它们和别的功课参数一同构成功课配置.Hadoop功课客户端将功课(jar/可履行文件等)和配置提交给JobTracker,JobTracker承当起分配软件/配置,调度任务和监控的职责,为功课客户端供应状况和诊断信息.

Map/Reduce框架工作在(键/值)对上,也就是说,框架将给功课的输入看做是一对,并产生一对作为功课的输出,当然输入输出的范例大概是差别的.

下面是Map/Reduce利用程序中常见的数据流:

 
图1: Map/Reduce利用程序中的数据流

绝大大都Map-Reduce利用程序都在网格上履行,不会直接实现初级的Map-Reduce接口,相反,它们利用高级语言,如Pig实现.

Oozie是网格上完善的工作流管理和调度办理筹划,它支持多种接口(Hadoop Map-Reduce,Pig,Hadoop Streaming和Hadoop Pipes等),并可以按照时间或数据可用性实现利用程序的调度.

网格情势

这部份内容触及在网格上运行Map-Reduce利用程序的最佳实践.

输入

Hadoop Map-Reduce专门为处理大批量数据做了优化,Map普通利用并行方法处理数据,至少1个HDFS数据块,也就是说每次最少要处理128MB的数据.

◆默许情形下,这个框架每个Map至少要处理1个HDFS文件,这意味着假如某个利用程序要处理非常大的输入文件,最好是通过一种特别的输入格局,如MultiFileInputFormat,让每个Map处理多个文件,即就是在处理为数不多的小型输入文件时也理应如此,每个Map处理多个文件可以大大提高效率.

◆假如利用程序需求处理大量的数据,即便它们存在于大型文件中,每个Map处理超越128MB的数据也会更快.
网格情势:在少量Map中聚合处理多个小型输入文件,利用更大的HDFS块大小处理超大型数据集.

Map(映射)

Map的数目普通是由输入的总大小决意的,即全部输入文件的总数据块数,因此,假如你要处理10TB输入数据,块大小128MB,那么总共需求82000个Map.

任务设置需求一段时间,因此履行大型功课时,Map至少需求一分钟.正如前面提到的,让每个Map同时处理多个文件效率会更高,因此,假如利用程序要处理超大型输入文件,让每个Map处理更大的数据块更有效,比方,让每个Map处理更大都据的一个办法是让利用程序处理更大的HDFS数据块,如512MB或尽大概更大.

作为一个极度的例子,Map-Reduce开辟团队利用大约66000个Map完成了PB级数据的排序(PetaSort),也就是说,66000个Map处理了1PB数据(每个Map负责12.5GB).但太多的Map在很短的时间内同时运行很简单造成反效果.


  以上是“Apache Hadoop最佳实践和反情势[Linux安全]”的内容,如果你对以上该文章内容感兴趣,你可以看看七道奇为您推荐以下文章:

  • 教您玩转Apache服务器及虚拟主机
  • Linux下Apache自动监测重启脚本(智能化程度较高)
  • 配置Apache避免webshell上传
  • apache限制某个目录下的php文件没有履行权限
  • Apache+Mysql+PHP搭建LAMP平台
  • Ubuntu Apache Rewrite 加载
  • Ubuntu下Apache的Rewrite若何启用
  • Ubuntu 10.10安装Apache等环境
  • Ubuntu Server+Apache 运行 asp.net
  • Ubuntu Apache 伪静态配置 url重写
  • Ubuntu + Apache2编写简单的cgi脚本
  • Ubuntu下配置Apache2.0及其相关安装
  • 本文地址: 与您的QQ/BBS好友分享!
    • 好的评价 如果您觉得此文章好,就请您
        0%(0)
    • 差的评价 如果您觉得此文章差,就请您
        0%(0)

    文章评论评论内容只代表网友观点,与本站立场无关!

       评论摘要(共 0 条,得分 0 分,平均 0 分) 查看完整评论
    Copyright © 2020-2022 www.xiamiku.com. All Rights Reserved .