首页下载资源大数据CDH 7.16组件原理及操作大全.zip

ZIPCDH 7.16组件原理及操作大全.zip

w7verse39.33MB需要积分:1

资源文件列表:

CDH 7.16组件原理及操作大全.zip 大约有16个文件
  1. Atlas学习记录与实际操作2.docx 8.92MB
  2. Hbase学习记录与实际操作.docx 3.65MB
  3. HDSF学习记录与实际操作.docx 1.64MB
  4. Hive学习记录与实际操作.docx 4.68MB
  5. Hue学习记录与实际操作.docx 3.91MB
  6. Impala学习记录与实际操作.docx 1.47MB
  7. Kafka学习记录与实际操作.docx 4.29MB
  8. Ranger学习记录与实际操作.docx 3.33MB
  9. Solr学习记录与实际操作.docx 4.97MB
  10. Yran学习记录与实际操作.docx 3.53MB
  11. Zookeeper学习记录与实际操作.docx 2.26MB
  12. ~$e学习记录与实际操作.docx 162B
  13. ~$lr学习记录与实际操作.docx 162B
  14. ~$pala学习记录与实际操作.docx 162B
  15. ~$ve学习记录与实际操作.docx 162B
  16. 大数据技术笔记.txt 4.69KB

资源介绍:

大数据组件原理及其操作大全
linux系统概述 1.iso文件:*.iso(镜像文件),相当文件备份。可以打包系统备份,只在c盘操作在其他盘保存。 2.vmmare:装虚拟机的软件 3.liunx系统一切皆命令一切皆文件 4.centrs8就是liunx的镜像文件,也就是.ios文件 5.liunx系统分root用户与普通用户,root用户有最高权限,mm:262737wqxWQX 6./usr/local/java/jdk1.8.0_331java安装路径 Hadoop系统 1.最重要两个组件,hdfs、mapreduce(计算模型、编程模型)、Hadoop基于分布式系统 2.hdfs对应谷歌gfs 3.MR(mapreduce)分布式计算框架(离线式)、MR也称历史数据库 4.storm(流式计算框架)、spark(内存式计算框架) 期末考试 1.文件操作,文件创建,文件删除 /有代码有截图 2.vi编辑器文本编辑,保存退出与执行 3.shell编程、书上原题 4.python执行(设计思路、python代码、Linux下执行python)python为杨辉三角 )) HADOOP hadoop-hdfs、mapreduced(分布式) 测试命令:hdfs dfs -ls / 批处理计算 mapreduce(离线计算)、spark(内存计算)、strom(流式计算) 数据库应用 mysql(关联数据库)、hive(数据仓库)、hbass(分布式数据库:存小文件)、 云计算 iaas基础设施及服务 paas平台设施及服务 saas软件设施及服务 大数据、云计算、物联网的关联* hadoop分布式文件系统(hdfs:使用java实现、分布式的、可横向拓展的文件系统) 主节点master node 从节点slave node 名称节点 name node:负责管理文件系统的命名空间及客户端对文件访问(负责管理) 数据节点 data node:负责处理文件系统客户端的读写请求(正在存储文件) namenode两个重要文件 fsimafe:元数据镜像文件(保存文件系统的目录树) edits:元数据操作日志(针对目录树的修改操作) *使用Javaapi 操作hdfs *启动集群的四个命令 1.cd***/zookeeper-3.4.5/bin/ 2.启动journlnode stardby namenode 待机状态下的namenode:高可用性/实时监控接管nanmenode工作,并随时在namenode接管下继承namenode工作 3.启动hdfs 4.启动yarm *zoookeeper/什么是zookeeper zookeeper对应谷歌的chubby(解决分布式系统一致性问题一个组件)的一个开源实现 zookeeper对应机制--投票机制 为什么使用zookeeper 1.分布式应用需要主控,协调器,控制器来管理物理分布的子进程 2.大部分应用需要开发私有的协调程序,缺乏通用机制 3.协调程序的反复编写浪费, 4.zookeeper:提供通用的分布式锁服务,用以协调分布式应用 GAP:G;一致,A:可用,P:分区容忍性 ACID:事物特征原子性,一致性,隔离性,持久性 *YARN:yet another resource negotiator 出现于Hadoop2.0版本/分布式系统资源管理者 MR:离线计算框架 storm:实时计算框架 spark:内存计算 rasource manager/负责集群资源管理和使用 mysql密码:wqx262737 分布式云计算系统 megastore:分布式存储系统 目标:尽可能达到高可用和高扩展性能 数据模型: 1.实体组集entity groups 2.实体组entity group 3.实体entity meagastore索引 1.局部索引 2.全局索引 Meagastore 事务周期 读--应用逻辑---提交----生效----清除 复制的日志 1.每个副本都有存有更新的数据 数据读取 本地查询----发现位置---追赶---验证----查询数据 数据写入 接受leader---准备---接受---失效---生效 协调者可用性 在每个数据的中心,写操作中会涉及 dapper大规模分布式系统的监控架构 小规模库 1.通用线程 2.控制流 3.rpc代码库 二次抽样技术 第一次抽样:对于抽取概率低于1024分之一就会监控 dapper存储api 1。id 2.块 3.索引 dapper用户界面 1.选择监控对象 2.用户对这些执行模式进行并排并选择查看更多细节 dremel产生背景 1.mapreduce优点:便携 缺点:效率低 2.弥补mapreuduce 两方面的技术支持 1.统一存储平台 2.统一1存储方式 弹性云计算EC2(包括) 1.Amazon机器映像 2.实例 由ami启动可以像传统主机一样提供服务 弹性块存储ebs:快照功能 3.存储模块 地理区域和可用区域 关系数据库服务RDS r:关系 d:数据库 s:服务 *关系数据库都是结构化的 Hbase:主从式结构----集群方式实现 mysql集群方式:share-nothing(不共享任何资源):mysql默认端口号3306 微软云计算azure 论文 1.1研究背景 1.2研究意义 1.3国内外研究背景 新mysql密码;262737wqx
100+评论
captcha