澳门新浦京娱乐场网站-www.146.net-新浦京娱乐场官网
做最好的网站

澳门新浦京娱乐场网站:大型企业如何搭建私有

为什么需要服务器?在网络数量,用户数量,数据量不断增长的今天,服务器可以把企业安排得井井有条,提高生产效率。但是由于服务器的种类繁多,如果不了解服务器,在选择上就会头痛不已。

在如今互联网蓬勃发展的大背景之下,中小企业自己动手创建网站的现象越来越普遍。目前中小企业建站有两种常见的实现方式:服务器托管与服务器租用。这里重点为大家介绍前者。

    云计算已经成为当前最流行的IT概念之一,越来越多的大型企业开始考虑如何用云计算平台来构建自己的信息系统。云计算平台具有高可扩展性、超大规模、高可用性、成本低廉等特点,因此如何利用云计算搭建企业信息化平台成为当前的热门话题。但是对于云计算如何落地、企业如何利用云计算平台,特别是大型企业可利用哪些云计算搭建企业信息化平台,并没有一个清晰的答案。本文依据云计算的基本概念,特别是私有云的建设,以虚拟化未基础,以构建企业级计算虚拟化池和存储虚拟化池未目标,搭建企业云计算平台,并给出了当前比较成熟的几个厂商的解决方案。

本文是基于网络访谈“小企业用户三问三答,问题一:什么是服务器?为什么要关注服务器?”整理而成。

首先,你需要明白服务器擅长做哪些事情。服务器可以用来储存文件,管理打印机。更妙的是,服务器还能限制局域网上用户访问的资源。此外,它们还能处理公司网页,电子邮件,数据库,远程访问和其他任务。服务器可以是价格低廉的塔式服务器,也可以是处理繁重工作,并提供灾难恢复与备份,数据冗余和容错的机架服务器。虽然服务器市场非常庞大,种类繁多,但是如果你对业务需求,以及公司未来发展十分了解,就不会因为如何选择适合的服务器而感到头痛。

所谓服务器托管,就是企业自己购买服务器并将其交予服务器托管商进行维护,服务器的使用权完全归自己所有。服务器托管商负责为企业提供设施完善的机房、丰富的带宽资源、良好的网络环境以及专业的运营经验。

当我们想搭建一个Hadoop大数据平台时,碰到的第一个问题就是我们到底该如何选择硬件。

    私有云也有前景

Bireny Sipher:现在我们要讨论什么是服务器,对于小企业用户而言要想区别台式机和服务器是个颇具挑战且容易让人沮丧的难题。所以,在开始讨论前首先要弄清的头一个问题是:什么是服务器?

为中小企业选择服务器应考虑以下几点:

由此,因为无需自己准备放置服务器的机架、供电系统等设备齐全的机房或者高新聘用24小时保障服务器安全稳定的专业人员,另外,也无需担心因网络等质量引起的业务中断,中小企业选择服务器托管除了可以节省大量的资金以外也有很多其他的好处。

虽然Hadoop被设计为可以运行在标准的X86硬件上,但在选择具体服务器配置的时候其实没那么简单。为已知的工作负载或者应用场景选择硬件时,往往都要综合考虑性能因素和性价比,才能选择合适的硬件。比如,对于IO密集型的工作负载,用户往往需要为每个CPU core匹配更多的存储或更高的吞吐(more spindles per core)。

    云计算(Cloud Computing)并没有一个严格的定义,不同的公司出于不同的目的,都给出了不同的概念,比如谷歌、亚马逊、IBM、Oracale、微软等都有不同的定义和不同的商业模式。一般来说,云计算是网格计算、分布式计算、并行计算、效用计算、网络存储、虚拟化、负载均衡等计算机技术和网络技术发展融合的产物。云计算是一种新的应用模式,按照通常的定义,云计算不仅仅是技术上的新模式,还包括商务上的新模式,比如用户可以不用再购买设备,而是仅仅购买服务就可以支撑IT信息系统需要。当前大家关注得比较多的是这种可购买服务的公共云的建设,公共云油服务提供商为客户提供,用户的计算应用可像日常生活中的自来水和电一样即开即用,而不需要自己去修建自来水厂和发电厂。

GregShields:我想这是个很好的问题,估计很多人对于服务器并没有什么概念。尤其是非新技术型业务的小企业业主。当我们提到服务器时,首先想到的会是某个带他们一起去下馆子吃饭的家伙,或者认为服务器就是一台基本的计算机。假设我跟他们去讲为什么需要一台服务器,他们会说“好吧,可是我已经有一台计算机了。为什么还需要再去购买额外且多余的一台呢?”而且,我认为很多人都不清楚一点,其实他们需要再购买一台服务器的原因有很多。

价格:毋庸置疑,对于小企业而言,价格是首选因素。小型企业服务器价格范围通常从500元至5000元不等。而价格的差异取决于服务器的配置。如果一个企业对于服务器的需求很低,例如,企业只需要服务器拥有备份,远程访问和一些有限的灾难恢复能力,那么一台低端服务器就已足够。请牢记,廉价的服务器往往不具备可扩展性,它们通常有一个驱动器通常有两个)来限制存储容量和容错功能。所以,他们负担不起沉重的工作量。和台式机一样,价格较高的服务器往往配置多个驱动器,更多的内存和更快的处理器。如果有大量数据需要处理,并且需要经常访问计费系统或是数据库,那么,你需要配置一台负担得起的高端服务器。这并不是为了炫耀,是为了帮助处理一些关键任务。

澳门新浦京娱乐场网站 1

通过本文,您将学习到如何根据工作负载来选择硬件,包括一些其他您需要考虑的因素。

    对于中小企业来说,公共云是一个不错的选择,云计算服务提供商提供晕计算平台,中小企业不需要自己建设数据中心,不用关心虚拟化、网格等方面的技术难点,只要选择一个信得过的云计算服务提供商就可以了。但是对那些想利用云计算平台特性、对安全性要求比较高、不想把应用外包的大型企业来说,构建自己的企业云计算平台(私有云)就成为一个新的发展方向。不同于公共云可以直接使用最终的产品,私有云更多的是考虑“云”本身的建设,更关注构建云平台的技术,建设企业的私有云,就要求企业把自己的数据中心构建成一个高可扩展性、超大规模、高可用性、成本低廉的数据中心。通话虚拟化、网格计算、自动化管理等云计算技术,逐步把企业内部的数据中心建设成面向企业内部系统的具有公共云平台特性的云计算平台。

最基本的一点就是先回答这个问题“什么是服务器?”。我们需要先理解,服务器并非是那种用户每天的日常工作都需要使用的计算机。而且它也不是那种在完成每天的业务相关工作时,都需要不断修改相关配置的设备。服务器是一台专用计算机,它是一台通常处于开机状态的计算机,多数时候它与网络相连接。总之,服务器是一台用于满足业务相关需求以及工作用笔记本、台式机需求的设备,而这是普通台式机和笔记本做不到的。

日常运作:了解贵公司的日常工作需求对选择服务器而言是至关重要的。贵公司是否需要在服务器上运行数据库?员工需不需要经常使用远程访问?如果服务器还帮助处理电子邮件,那么访问服务器的用户账户的数量也必须考虑在内。请牢记,一个特定的服务器可以在不同的商业用途中,拥有不同的配置。关键取决于选择什么功能。而预期流量较高的网站,需要很多数据库交易的企业选择轻量级的服务器足矣,而任何其他资源密集型工作负载的企业配置较高端的服务器将得到更好的服务。

中小企业在实施服务器托管时需要考虑多方面因素,有很多事项需要注意。下面的四个技巧可以帮助企业成功实施服务器托管:

澳门新浦京娱乐场网站 2

    公共云对于大型企业来说也并非毫无关系,从未来的发展来看,根据不同业务系统的需要,建立一个由公共云和私有云组成的混合云平台是趋势。

所以,让我们把数据跟服务器联系起来考虑。因为服务器总是开着机,所以你可以拥有一个随时可用的数据存储平台;因为总是与网络连接,你可以随时共享文件;如果服务器上的数据可用,你可以随时跟位于企业网络上的其他人分享文件,从而让业务更容易从一个客户扩展到两个、十个甚至更多,且他们可以更容易地进行协同工作,并处理相关数据,因为它总是保持在线。服务器还可以管理打印任务,通过后台打印任务池支持多用户访问,从而降低重复购买打印机的费用。服务器还可以管理通讯、邮件和语音等信息。如果你希望在企业内部拥有自己的邮件和语音服务系统,而不是外包出去,可以把服务器作为邮件和语音服务的提供平台,而且服务器还可以运行一些需要网络支持的特殊应用。

可扩展性:目前您的企业拥有5个员工甚至更少?一台适合少数用户使用的服务器并不能很好地支持两倍以上的用户。如果你希望添加用户和数据,尤其是大量的数据,如图像,视频,或数据库中的记录,请选择具有扩展性的服务器。这意味着能将存储容量最大化,并且支持多个驱动器,机箱内拥有扩展内存为了内存升级)和高效处理器。

技巧一:选择适当的服务器类型

1.计算和存储

    用两个虚拟池构建企业私有云平台

我们都知道QuickBooks提供的功能,应用安装到台式机上以后,通过各种不同的QuickBooks版本可以帮助用户把该单一应用扩展给多个用户使用。该软件在后台的某台服务器上添加一个数据库,所有的桌面连接都访问同一个数据库,因此公司内的所有用户看到的都是位于该数据库上的同一份数据。如果你的企业恰好正在使用这些网络应用的话,如QuickBooks、邮件服务、数据库等等,这些都需要集中存放数据并保持实时可用。

虚拟化:许多企业,甚至小企业也发现将多个物理服务器整合进虚拟机的益处。如果虚拟化是你的终极目标,那么请确保你中意的服务器是否支持虚拟化。

相比之下,在目前塔式、机架和刀片三种类型的服务器产品中,比较受中小企业青睐的是前两者。塔式服务器因为其外形类似于普通台式机,占地空间比较大。而占地空间的大小与服务器托管的费用是密切相关的,因此如果塔式服务器进行托管的话会造成很高的成本费用。相反,工业标准化的机架服务器非常适合用来进行托管。对于普通的中小型企业来说,1U的服务器托管已经能够满足业务的需求,而2U和4U的服务器托管会占据更大的机房空间,自然收费也会更高。这点在下面的成本控制中还将详细介绍。

过去的十年,业界基本已经形成了刀片和SANs(Storage Area Networks)的标准,从而满足网格和处理密集型的工作负载。这种模式对于许多标准应用(比如Web服务器,应用服务器,较小的结构化数据和数据搬运)还都是适用的,但是随着数据量和用户数据的增长,基础设施的需求也发生了变化。Web服务器现在已经有了缓存层,数据库借助本地磁盘开始支持海量并发,数据搬运的压力迫使我们需要更多的在本地处理数据。

    私有云计算平台的建设,当前比较成熟的方案主要是从虚拟化角度考虑,虚拟化是对物理资源(CPU、内存、网络等)的逻辑表示,以降低物理资源不同层次之间的耦合程度,使系统所需资源不受物理资源的限制,从而获得高性能,高可扩展性等特性。当前企业主机和存储设施往往与应用系统直接绑定,无法实现主机和存储资源扩系统共享,这就会导致资源综合利用率较低,同时由于主机和存储设备日益增多,使得对这些设施的管理日益复杂。通过应用虚拟化技术,实现主机和存储资源的一体化整合、主机和存储资源的共享利用,提高资源利用率、降低成本,也有利于降低管理的复杂性,避免出现上一套系统就要购置主机、存储设备。

那么现在,我们对服务器有了一些印象:总是处于开机状态、总是跟网络相连接、且不需要用户每天去操作。接下来我们可以说,它还扮演了很多有趣的角色。试想你开办了一家小企业,而企业中非常重要的一件事就是数据。无论你是销售饼干还是给汽车安装挡风玱璃,亦或是其它的小生意,最重要也是首先需要处理的一件事就是数据。如果你丢失了数据,换句话说也就是丢了生意。

数据冗余/容错:一些企业可能对数据要求十分宽容,但是还有一些企业根本无法承受因服务器宕机而产生的生产力中断现象。换言之,整片数据的丢失将意味着毁掉一个企业。数据冗余和容错的方法,可保证数据的完整性和服务器中磁盘驱动器故障等灾难事件的运作。通过RAID服务器技术可以实现容错和数据冗余。

技巧二:从需求出发为托管服务器选择硬件配置

“很多人在搭建Hadoop集群时都没有去真正了解过工作负载”

    当前比较成熟的虚拟化方案主要从两个层面进行虚拟化,建立两个虚拟化池:计算虚拟化池和存储虚拟化池。计算虚拟化池主要实现应用虚拟化,包含服务器虚拟化和应用中间件虚拟化两种方案。存储虚拟化池主要实现数据存储虚拟化,包含存储硬件架构虚拟化和存储软件虚拟化两种方案。通过计算虚拟化池、春初虚拟化池以及自动化管理平台,特别是通过自动化管理平台,使得应用和数据最大程度共享,从而获得更高的敏捷性、运营效率、经济效益和可管理性、并节省成本。

问题1:什么是服务器?

空间:许多规模较小的企业没有专门放置服务器的壁橱。对于感兴趣的服务器,你需要了解它的尺寸及外形,是不是有足够的空间存放。放在办公桌上运行的机架服务器将无法保持最佳工作状态。空气是否流通,温度是否适宜也是服务器选择需要考虑的因素之一。即使是体积较为庞大的台式服务器也最好放置于通风良好,温度可调节的房间内。此外,服务器噪声也是值得考虑的。如果服务器是放置于工作区域内的,那么,应该选择较为安静的服务器。

选定服务器类型之后,接下来就要考虑服务器的软硬件配置了。中小企业在对服务器进行托管之前是需要对服务器进行配置的,而这一定要从自身需求出发,否则,服务器性能低下并经常出现故障,从而影响企业网站的稳定运行。

硬件供应商更新了对应的产品来满足相应的需求,包括存储刀片,SAS(Serial Attached SCSI)交换机,外挂的SATA阵列和容量更大的机架。然而,Hadoop是基于一个全新的存储和处理数据的方式,尽量避免数据传输。Hadoop通过软件层来实现大数据的处理以及可靠性,而不像一个SAN存储所有数据,如果计算则传输到一系列刀片进行计算。

 

服务器是一台专用计算机
•通常处于开机状态
•通常保持网络的连接

IT专业知识:员工不能影响你选择服务器。如果你偶尔会打远程IT电话,那么许多服务器的远程管理和电源能力非常完美。

服务器托管的四个技巧让您避免上当

澳门新浦京娱乐场网站:大型企业如何搭建私有云计算平台,中小企业选择服务器的七大考量。Hadoop将数据分布式存储在各台服务器上,使用文件副本来保证数据不丢以及容错。这样一个计算请求可以直接分发到存储数据的相应服务器并开始进行本地计算。由于Hadoop集群的每台节点都会存储和处理数据,所以你就需要考虑怎样为集群里的这些服务器选择合适的配置。

澳门新浦京娱乐场网站 3

服务器可以扮演一个或多个确定的业务角色
•存储和共享数据
•打印机管理
•邮件和语音通讯
•特殊的网络应用
•作为web站点的宿主机
•备仹并确保业务数据安全
•集中运行安全和网络保护功能
•提供通过以太网迚行7*24小时进程访问服务的平台

...

托管服务器的硬件配置主要是指CPU、内存大小、硬盘速度和网卡速度等。比如你的服务器需要配置大量的应用软件或者支持较大的访问量,甚至提供数据库查询功能等,这时候你就需要为服务器配置较大的内存;如果企业提供免费电子邮件服务,那么一定需要有很大的存储空间,这时候可以采用磁盘阵列或者多个硬盘,甚至网络存储设备;另外,良好的电源系统具有较强的负载能力,能够保证服务器在大容量内存、多块硬盘等高配置下,不会因为电网的波动而影响正常工作,最终保证用户对网站的正常访问。

2.为什么跟工作负载有关系

图1 企业私有云平台技术方案

服务器拥有特殊的操作系统和管理终端
•Windows Server 2008 R2:Foundation、Small Business Server 2008
•服务器管理,管理员,及进程管理工具

除了这些必要的硬件配置,你还需要考虑一些服务器技术细节。比如,如果你的网站访问量很大,而且需要不间断提供可用性及较快的反应时间,这时候需要采用冗余或负载均衡技术避免出现系统故障;如果企业网站的数据量很大,就需要考虑实施数据备份和数据恢复技术。另外,通过自诊断技术可以快速定位服务器故障、快速分析问题原因并进行修复,从而缩短服务器宕机时间,减少由此造成的损失。如果服务器支持热插拔硬盘功能,你可以在无需关机的情况下进行在线更换故障硬盘。

在很多情况下,MapReduce/Spark都会遭遇瓶颈,比如从磁盘或者网络读取数据(IO-bound的作业),或者在CPU处理大量数据时(CPU-bound的作业)。IO-bound的作业的一个例子是排序,一般需要很少的处理(简单的比较)却需要大量的读写磁盘。CPU-bound的作业的一个例子是分类(classification),一些数据往往需要很复杂的处理。

 

你还可以使用服务器来运行Web站点。假设你希望通过Web做业务宣传,虽然Web服务器载体位于办公室内,但要把它同时扩展到网络上。所有这些任务服务器都可以完成,不过还有一些要点问题需注意,我之后会有所提及。另外,服务器还可以帮助做一些非常重要的事情,例如数据备份和安全保护。

你需要知道的是,托管服务器是高度可配置的。处理器、内存、磁盘冗余阵列、网卡等部件的选择关系着服务器的整体效益。企业面临的最大挑战就是如何在成本与服务器整体效益之间做出平衡选择。

典型的IO-bound的工作负载如下:

搭建企业私有云平台的技术方案

下面我将描述一个我身边的熟悉案例:我的妻子。她拥有自己的企业,成员也只有一人。但她把QuickBooks数据存储在服务器上,因为这样做让数据的备份和拷贝到磁盘都容易。我们可以确保即使她因为访问了有问题的Web站点而导致笔记本被黑客攻击,也不用担心QuickBooks数据的安全问题。

技巧三:做好成本控制

  • 索引(Indexing)
  • 分组(Grouping)
  • 数据导入导出
  • 数据传输和转换

在计算虚拟化池和存储虚拟化池构件技术方案上,不同的厂商出于不同的商业目的,在结合自己原有产品优势的基础上,提出了不同的解决方案。

把数据分开存放在更为安全的另一台计算机上对于保护业务数据至关重要。同时也把安全和网络保护任务集中进行管理,如果你已经拥有了反病毒和反攻击工具,还可以在服务器上统一设定这些工具的相关策略。所以,这对于用户来讲也是不错的选择。接下来,最后的也是最重要的是服务器本身,由于它始终开机且保持在线,也为您提供了可以随时访问到企业网络的方法。假设你正在咖啡馆内或机场,“哦,天哪,我需要访问那个文件!我正在赶去参加某个商务会议的路上,但是我把那个重要文件落在办公室台式机内了。”如果此时你没有正确的进程访问路径,或许将无法获取该文件了。但是,服务器提供了这样的平台。同样,因为它始终开机并总是保持在线,也意味着用户可以随时随地从位于网络上的任意地点,通过进程访问的方式登录这些应用,最终也意味着把企业网扩展到整个以太网的范围内。听起来很神奇吧。

服务器托管的成本因素主要包括托管服务器的尺寸大小、线路、带宽、IP数量与所托管的机房规模。中小企业在对服务器托管进行成本控制时主要从这几个方面入手。

典型的CPU-bound工作负载如下:

l        计算虚拟化池:计算资源层面,包含服务器虚拟化和应用中间件虚拟化

普通服务器和台式机还有一个很重要的区别是服务器使用特殊的操作系统并配置一些管理软件工具,以简化管理工作。OS不再是WindowsXP、WindowsVista戒Windows7等,而换成WindowsServer版本的方案。现在很多人谈到WindowsServer的时候会说,“哦,微软这个OS版本真是太贵了。WindowsServer是否要花费我数千美元的成本呢?”不过微软也听到了类似来自小企业业主的声音,他们提供了WindowsServer2008R2的FoundationEdition版。FoundationEdition设计用来满足15个用户以下的小企业需求,所以你可以购买这个特殊版本的WindowsServer,然后把它安装到小型企业服务器之上,另外增加一些额外的功能稍后会谈)。这样一台连接到网络的专用服务器平台就搭建完成了,你可以更加安全地存储和备份数据,并可以在任何地方访问它。那么,你是否开始感到有趣了呢?

服务器托管商会按照服务器所占的机房空间大小来收取费用,因此中小企业一定要慎重选择机柜大小。而另一方面,机房机柜所占用的位置多少是由服务器的尺寸大小决定的。一般情况下,服务器是按照1U尺寸为标准的,1U规定的尺寸是服务器的宽(48.26cm,即19英寸)与高(4.445cm)。上面也提到,1U的服务器托管对普通的中小型企业来说已经足够了,2U和4U的服务器托管可能会造成资源浪费和过高的成本。

  • 聚类和分类(Clustering/Classification)
  • 复杂的文本挖掘
  • 自然语言处理
  • 特征提取

1.       服务器虚拟化

Bireny Sipher:当然。

服务器托管的带宽有两种方式,一种是企业单独使用一定数量的带宽,另一种是与同一机柜内的所有服务器共享带宽。当然前者的费用会更高一些。

我们需要完全了解工作负载,才能够正确的选择合适的Hadoop硬件。很多人因为从来没有研究过工作负载,往往会导致Hadoop运行的作业是基于不合适的硬件。此外,一些工作负载往往会受到一些其他的限制。比如因为选择了压缩,本应该是IO-bound的工作负载实际却是CPU-bound的,或者因为算法选择不同而使MapReduce或者Spark作业受限。由于这些原因,当您不熟悉未来将要运行的工作负载时,可以选择一些较为均衡的硬件配置来搭建Hadoop集群。

操作系统运行中虚拟机上,服务器本身是虚拟化的,虚拟化的服务器跟正常的物理服务器是一样的,可以安装任何的应用。服务器虚拟化并不是什么最新的技术,很早就应用于小型机的虚拟化分区。服务器虚拟化软件品牌有VMWare(免费的是ESXi,收费的是vSphere)、思杰(免费的是XenServer,收费的是Essentials)、KVM、微软(Hyper-V)等,VMWare的vSphere最成熟,可以安装大多数操作系统。通过服务器虚拟化,可以将一台服务器当做N台服务器来使用,比如一台性能强劲的物理服务器可以虚拟出16台虚拟服务器,这样对于计算能力要求不高的系统,可以实现多个系统在一台物理服务器上运行而不会互相影响,大大减少了硬件的投资。

Greg Shield:接下来我们讨论下一个问题。当你在想什么是服务器这个问题时,一定也有过这样的疑惑,“需要什么样的服务器呢?”现在,可以告诉我市场上都有哪些类型的服务器了吗?可选的服务器种类非常多,所以如果你在考虑这样的需求,想弄清是否是戴尔服务器、捆绑了Microsoft Server,实际上,把一个物理盒子转化为一台服务器的方法有很多。所以我们要搞懂的不是戴尔提供了什么,而是理想的盒子应该是什么样的。在办公室内或任何其它地方找到一个物理主机盒子,我把它放在公司内部,插上电源、插上网线,找好一套键盘、鼠标和显示器。现在,这个物理盒子在我的环境中就扮演了服务器的角色。另外我还可以通过一些新技术把这台物理主机做成虚拟机。现在,通过虚拟化,我拥有了运行于同一台物理主机上的多个虚拟机,每台都可以运行不同的操作系统。所以,我已经建立了同时运行于一台主机上的两台虚拟计算机,而且现在也可以看出来当业务需求扩展需要更多容量时也可以满足。一台物理机提供一种服务,而通过虚拟机可以提供多种服务。另外,或许您也听说了一种新的技术云和虚拟化:存在于云上的虚拟机。而我的建议是现在让我们忽略云采取的形式,只关注云的概念,实际上云是把虚拟主机移动到位于以太网上的某个地方,然后把它整个迁移出原有的办公室,可以通过网络随意连接。现在你已经了解创建服务器的方法很多,无论是通过物理机、虚拟机、或是位于网络上某个模糊地方的云。

托管机房常用的线路是联通或者电信。托管时有单线路、双线路和多线路之分。单线路的优势是带宽大,价格低,但存在网通和电信之间访问较慢的问题。双线路是为了解决网通和电信之间的互联互通问题而产生的。但相比单线路费用较高且带宽较小。同理,多线路解决了跨网之间的访问速度问题。

接下来我们就可以在集群中运行一些MapReduce/Spark作业进行基准测试,来分析它们的bound方式。可以通过一些监控工具来确定工作负载的瓶颈。当然Cloudera Manager提供了这个功能,包括CPU,磁盘和网络负载的实时统计信息。通过Cloudera Manager,当集群在运行作业时,系统管理员可以通过dashboard很直观的查看每台机器的性能表现。

对于计算能力要求高的系统,通过自动化管理平台,能够把正在运行中的虚拟机从一台物理服务器上,或者另外增加系统1的虚拟机而减少系统2的虚拟机,使系统1获得更多的计算资源,从而实现跨物理服务器动态调整计算资源,共享相互分离的物理服务器,有限保证具有优先级的系统业务需求,实现资源利用最大化。比较典型的应用是白天运行业务系统,晚上运行数据处理任务,这样保证了计算资源利用的最大化。

BirenySipher:那么Greg,回到之前的问题,我看到你介绍了很多形式,选择也非常多。您是否认为这个过程很难呢?尤其是虚拟机模式?是否安装起来很困难,或是要比其它的方法都困难呢?

一般情况下,服务器托管商会向企业免费赠送一个IP地址。如果企业需要绑定多个IP地址,就需要单独支付费用。通常一个IP地址费用是几百元到几千元不等。

“第一步是了解运维部门管理的硬件。”

澳门新浦京娱乐场网站 4

GregShields:这个问题很好。如果你采用物理机方法,就需要自己对它投入更多的管理精力。管理问题我们稍后再讨论,如果有人可以帮助你管理,那么这个人必须首先可以访问这台机器,因此在实际连接时会涉及一些具体的工作。如果你拥有一台网络上的虚拟机,它的家就是网络,而网络是任意互联的。所以,相比而言虚拟机和物理机方法各有利弊。物理机意味着你拥有对数据的完全拥有权,你拥有数据的同时也担负起这台主机的相应责任。虚拟机放弃了一部分的拥有权,但是在管理、维护和故障诊断方面得到更多的灵活性。总之,这个问题非常非常得棒。

最后就是托管机房的实际配置水平、地理位置等因素也会影响到服务器的托管费用。

除了根据工作负载来选择硬件外,还可以与硬件厂商一起了解耗电和散热以节省额外的开支。由于Hadoop是运行在数十,数百甚至数千个节点上,尽可能多的考虑方方面面都可以节省成本。每个硬件厂商都提供了专门的工具来监控耗电和散热,以及如何改良的最佳实践。

 图2 服务器虚拟化示意图澳门新浦京娱乐场网站 5

现在已经明白我需要一台服务器。那么,我需要在上面安装什么呢?我希望购买Dell的主机。那么我需要从微软购买一些产品并安装在服务器上吗?”那么,虽然达到这种方法的可选择非常的多。我们可以选WindowsServer2008R2,由于IMA规模略大于小型企业,我需要购买完整版WindowsServer使用。FoundationEdition在某些方面存在限制,它本身的设计就是针对15名用户以下的企业。15名用户的打包授权价已经非常优惠了。不过,我需要在安装操作系统后再增加一些额外的功能,所以必须使用SmallBusinessServerStandardEdition或SmallServerPrimiumEdition中的一些功能。

技巧四: 选择合适的服务器托管提供商

3.为CDH集群挑选硬件

图3 虚拟机迁移示意图

现在我们来看看都有哪些功能。在SmallBusinessServerStandardEdition中,你获得了WindowsServer授权;你获得了MicrosoftExchangeServer授权,可用于电子邮件服务器;你获得了WindowsSharePointServices授权,可以支持文件共享功能;你获得了WindowsServerUpdateServices授权,可以保证正确地升级所有这些组件;你获得了MicrosoftForefrontSecurityforExchange授权,可以保护邮件服务器免受恶意软件、病毒和任何恶意攻击;另外,你还获得了集成的OfficeLiveSmallBusiness软件,这是一款基于云的方案,可以在网络或云上发布Office文档或任何其它有趣的内容。对于多数人而言,这已经足够。可以处理文档、可以定时升级、可以受到保护、可以支持邮件系统,这些都在服务器的授权中获得了。

最后,要慎重选择服务器托管商。尽量选择专业、知名度较高的服务商,因为这样的服务商通常具备更全面的证件,如ICP证、ISP证、工商营业执照等。另外需要了解托管服务商的售后情况,正规的服务器托管商会提供24小时免费售后服务,包括重启和安装系统、安装IIS等常用软件、配置ASP/.NET/PHP环境、制定安全策略以及进行系统优化等。在签订合同之前将这些内容确认清楚,可以帮助企业避免一些不必要的额外费用支付,而且后期的维护以及管理才是进行服务器托管的根本利益所在。

在挑选硬件的时候,第一步是了解您的运维部门所管理的硬件类型。运维部门往往倾向于选择他们熟悉的硬件。但是,如果您是在搭建一个新的集群,并且无法准确的预测集群未来的工作负载,我们建议您还是选择适合Hadoop较为均衡的硬件。

2.       应用中间件虚拟化

其他的一些用户可能还需要数据库系统,数据库可用作用户信息数据库、库存数据库或任意在业务过程中需要的服务。而Premium版本中加入了额外的授权支持WindowsServer2008和SQLServer,这样它同时也是一台数据库服务器。所以,如果你的业务需求这些功能和工具,微软也提供了可选项。对于小企业用户和如何制定满足小企业用户需求产品方面,微软已经考虑地非常周全,他们希望也有能力进入这一市场。

【编辑推荐】

一个Hadoop集群通常有4个角色:NameNode(和Standby NameNode),ResourceManager,NodeManager和DataNode。集群中的绝大多数机器同时是NodeManager和DataNode,既用于数据存储,又用于数据处理。

基于应用中间件的虚拟化,不同于服务器虚拟化在操作系统层面的虚拟化,而是中间

BirenySipher:邮件功能部分尤其重要,特别是要带有备份和安全功能。

以下是较为通用和主流的NodeManager/DataNode配置:

件层面的虚拟化。应用中间件虚拟化的优势是能够更好地利用各种平台,对原有的设备可以有效利用,不像服务器虚拟化对CPU等有特殊要求。

GregShields:确实是。这么来考虑,拥有自己的邮件服务器意味着你可以管理自己所有的邮件。如之前提到的,很多人没有意识到的一点是,数据是企业最重要的部分,而邮件本身就包吨了重要信息的电子邮件,这可以拯救你的生意。这点注释非常的棒。

  • 12-24块1-6TB硬盘, JBOD (Just a Bunch Of Disks)
  • 2 路8核,2路10核,2路12核的CPU, 主频至少2-2.5GHz
  • 64-512GB内存
  • 绑定的万兆网 (存储越多,网络吞吐就要求越高)

3.       存储虚拟化池:在数据存储层面,包含存储硬件架构虚拟化和存储软件架构虚拟化

Bireny Sipher:现在我们要讨论什么是...

NameNode负责协调集群上的数据存储,ResourceManager则是负责协调数据处理。Standby NameNode不应该与NameNode在同一台机器,但应该选择与NameNode配置相同的机器。我们建议您为NameNode和ResourceManager选择企业级的服务器,具有冗余电源,以及企业级的RAID1或RAID10磁盘配置。

存储软件构架虚拟化主要是通过数据库软件的集群技术实现,如Oracle提供的技术包

NameNode需要的内存与集群中存储的数据块成正比。我们常用的计算公式是集群中100万个块(HDFS blocks)对应NameNode的1GB内存。常见的10-50台机器规模的集群,NameNode服务器的内存配置一般选择128GB,NameNode的堆栈一般配置为32GB或更高。另外建议务必配置NameNode和ResourceManager的HA。

括集群(RAC)、内存数据库,IBM提供的是数据库分区技术。存储硬件架构虚拟化则包含Oracle提供的软硬一体化、IBM提供的XIV存储等。

以下是NameNode/ResourceManager及其Standby节点的推荐配置。磁盘的数量取决于你想冗余备份元数据的份数。

1.       Oracle集群(RAC)

  • 4–6个1TB的硬盘,JBOD(1个是OS, 2个是NameNode的FS image [RAID 1], 1个配置给Apache ZooKeeper, 还一个是配置给Journal node)
  • 2路6核,2路8核的CPU, 主频至少2-2.5GHz
  • 64-256GB的内存
  • 绑定的万兆网

    基于Oracle应用集群(RAC)技术,Oracle数据库可以在一组集群服务器上运行,可以设置多个节点访问单个数据库,这就提供了最高的可用性和最灵活的可伸缩性。党西药更多额处理能力时,只要添加服务器即可。RAC最多可以支持32台机器,从实际的应用效果来看,2台或4台机器效果不错,而随着机器的增加,性能提升并不大。另外Oracle内存数据库(TimesTen)通过将数据读取到物理内存中直接操作,减少了到磁盘间的I/O交互,数据库操作能够以最大效率执行,从而大大提高响应速度和吞吐量。

“记住,Hadoop生态系统的设计需考虑并行环境。”

2.       IBM数据库分区技术

如果预期你的Hadoop集群未来会超过20台机器,建议集群初始规划就跨两个机架,每个机柜都配置柜顶(TOR,top-of-rack)的10GigE交换机。随着集群规模的扩大,跨越多个机架时,我们在机架之上还要配置冗余的核心交换机,带宽一般为40GigE,用来连接所有机柜的柜顶(TOR)交换机。拥有两个机架,可以让运维团队更好的了解机架内以及跨机架的网络通信需求。Hadoop网络要求可以参考Fayson之前的文章CDH网络要求(Lenovo参考架构)。

IBM DB2数据库分区是DB2企业版DPF(DataPartitioning Feature)选件提供的,它主

当搭建好Hadoop集群后,我们就可以开始识别和整理运行在集群之上的工作负载,并且为这些工作负载准备基准测试,以定位硬件的瓶颈在哪里。经过一段时间的基准测试和监控,我们就可以了解需要如何增加什么样配置的新机器。异构的Hadoop集群是比较常见的,特别是随着数据量和用例数量的增加,集群需要扩容时。所以如果因为前期并不熟悉工作负载,选择了一些较为通用的服务器,也并不是不能接受。Cloudera Manager支持服务器分组,从而使异构集群配置变的很简单。

要用来为大规模数据处理、高并发数据访问提供支持。DB2数据库在一个非共享的环境中被分解为独立的分区,分割分区都具有自己的资源,例如内存、CPU和磁盘以及自己的数据、索引、配置文件和事务日志。数据库分区可以部署在集群或MPP环境下,也就是说数据库分区分布在不同的机器上,从而大大提升数据库服务器的查询能力,但是对于数据写的性能提升不大,对于业务操作环境方面的支持布什很好,适合于数据仓库的应用场景。

以下是不同的工作负载的常见机器配置:

3.       Oracle软硬一体化设计

  • Light Processing Configuration,1U的机器,一般为测试,开发或者低要求的场景:2个hex-core CPUs,24-64GB内存,8个磁盘(1TB或者2TB)
  • Balanced Compute Configuration,均衡或主流的配置,1U/2U的机器:2个hex-core CPUs,48-256GB的内存,12-16块磁盘(1TB-4TB),硬盘为直通挂载
  • Storage Heavy Configuration,重存储的配置,2U的机器:2个hex-core CPUs,48-128GB的内存,16-24块磁盘(2TB-6TB)。这种配置一旦多个节点或者机架故障,将对网络流量造成很大的压力
  • Compute Intensive Configuration,计算密集型的配置,2U的机器:2个hex-core CPUs,64-512GB memory,4-8块磁盘(1TB-4TB)

Oracle的Exadata V2采用软硬件一体化设计,基于采用处理器的刀片服务器以及Sun

注意:以上2路6核为最低的CPU配置,推荐的CPU选择一般为2路8核,2路10核,2路12核

的FlashFire技术、Oracle数据库11g实现,因为硬件特别是内存方面做了专门的处理,比一般的RAC性能有了极大的提升,可以提供大容、易于扩展的存储,具有很强的数据仓库和联机交易处理能力。可以设想,如果数据库的集群技术实现图片,普通PC服务器可以实现集群,小型机的末日也就不远了。

下图显示如何根据工作负载来选择你的机器:

l        自动化管理平台

澳门新浦京娱乐场网站 6

自动化管理平台是实现支持动态规模扩展和动态负载均衡集群的关键。通过自动化管理

4.其他注意事项

平台,实时监控各个虚拟机的运行状况,并增加或者减少分配的资源。自动化管理平台需要结合不同的实现技术,当前都是由相应的虚拟化厂商提供的。比如VMWare可以通过设置服务级别(网络带宽、计算资源份、存储I/O等)和设置负载平衡及优化规则,实现动态资源调度,实现最大化资源利用。

Hadoop生态系统是一个并行环境的系统。在选择购买处理器时,我们不建议选择主频(GHz)最高的芯片,这样一般都代表了更高电源瓦数(130W )。因为这会产生两个问题:更高的功率消耗和需要更多的散热。较为均衡的选择是在主频,价格和核数之间做一个平衡。

对于大型企业来说,构建企业云计算平台在技术上已经成熟,在企业内部搭建高可扩展

当存在产生大量中间结果的应用程序 – 输出结果数据与输入数据相当,或者需要较多的网络交换数据时,建议使用绑定的万兆网,而不是单个万兆网口。

性、超大规模、高可用性、成本低廉的私有云平台已经成为未来信息化建设的发展方向。

当计算对内存要求比较高的场景,请记住,Java最多使用10%的内存来管理虚拟机。建议严格配置Hadoop使用的堆大小的限制,从而避免内存交换到磁盘,因为交换会大大影响计算引擎如MapReduce/Spark的性能。

优化内存通道宽度也同样重要。比如,当使用双通道内存时,每台机器都应配置一对DIMM。使用三通道内存时,每个机器都应该具有三倍的DIMM。同样,四通道DIMM应该被分为四组。

5.Hadoop其他组件的考虑

Hadoop远远不止HDFS和MapReduce/Spark,它是一个全面的数据平台。CDH平台包含了很多Hadoop生态圈的其他组件。我们在做群集规划的时候往往还需要考虑HBase,Impala和Solr等。它们都会运行在DataNode上运行,从而保证数据的本地性。

HBase是一个可靠的,列存储数据库,提供一致的,低延迟的随机读/写访问。Cloudera Search通过Solr实现全文检索,Solr是基于Lucene,CDH很好的集成了Solr Cloud和Apache Tika,从而提供更多的搜索功能。Apache Impala则可以直接运行在HDFS和HBase之上,提供交互式的低延迟SQL查询,避免了数据的移动和转换。

由于GC超时的问题,建议的HBase RegionServer的heap size大小一般为16GB,而不是简单的越大越好。为了保证HBase实时查询的SLA,可以通过Cgroups的的方式给HBase分配专门的静态资源。

Impala是内存计算引擎,有时可以用到集群80%以上的内存资源,因此如果要使用Impala,建议每个节点至少有128GB的内存。当然也可以通过Impala的动态资源池来对查询的内存或用户进行限制。

Cloudera Search在做节点规划时比较有趣,你可以先在一个节点安装Solr,然后装载一些文档,建立索引,并以你期望的方式进行查询。然后继续装载,直到索引建立以及查询响应超过了你的预期,这个时候你就需要考虑扩展了。单个节点Solr的这些数据可以给你提供一些规划时的参考,但不包括复制因子因素。

6.总结

选择并采购Hadoop硬件时需要一些基准测试,应用场景测试或者Poc,以充分了解你所在企业的工作负载情况。但Hadoop集群也支持异构的硬件配置,所以如果在不了解工作负载的情况下,建议选择较为均衡的硬件配置。还需要注意一点,Hadoop平台往往都会使用多种组件,资源的使用情况往往都会不一样,专注于多租户的设计包括安全管理,资源隔离和分配,将会是你成功的关键。

标签:云计算 人工智能 大数据 数据分析 数据可视化 物联网

最后编辑于:2017/11/10作者:chenjj

澳门新浦京娱乐场网站 7

该用户很懒,还没有介绍自己。

  • 阅读 chenjj 的其他文章
  • 给 chenjj 发送站内信

上一篇:做数据分析,首先解决这两类数据质量问题

下一篇:双11黑科技揭秘:大数据实时计算如何为你量身定制?

本文由澳门新浦京娱乐场网站发布于服务器,转载请注明出处:澳门新浦京娱乐场网站:大型企业如何搭建私有