ICode9

精准搜索请尝试: 精确搜索
  • 第二周总结2022-07-09 21:36:47

    从开始知道需要安装Hadoop到现在Hadoop安装成功并可以使用,前前后后花费了好长时间,但是从中也吸取了很多教训, 1.不要永远照抄别人的教程。这一点是我这近两天发现的,比如在所有的网上的教程,基本都是会指导你去安装一个Windows与Linux之间文件传输的工具 起初我也是按照网上的教程,Mob

  • hadoop入门(15):YARN2022-07-09 16:00:11

    YARN YARN官方文档 YARN的介绍     YARN是一个通用的资源管理系统和调度平台     资源管理系统:集群的硬件资源,和程序运行相关,比如内存、CPU等     调度平台:多个程序同时申请计算,资源如何分配,调度的规则/算法。 YARN的架构 上图中我们可以清晰的看到YRAN的三大组件:

  • 大数据介绍2022-07-09 13:37:03

    背景介绍   hadoop: 开源项目,是一个分布式文件系统,有中心节点。批处理系统,不能实时返回      HDFS  +   mapreduce = hadoop        Hbase : hadoop的database    HDFS : 是有中心节点的, 组件:DN(datanode 数据节点)  NN(namenode 负责元数据存储节点)    对于元数据节

  • Hive API2022-07-04 11:02:12

    配置MySQL 只需要在master节点上启动MySQL即可 注意需要创建hive用户,并设置MySQL远程可以访问 • mysql -hlocalhost -uroot -p123456 • GRANT ALL PRIVILEGES ON *.* TO 'hive'@'%' IDENTIFIED BY '123456' • GRANT ALL PRIVILEGES ON *.* TO 'hive'@'localh

  • Hadoop集群配置2022-07-03 14:34:41

    下载 配置 在每个节点上都新建以下文件夹 /home/hadoop/data/namenode /home/hadoop/data/datanode /home/hadoop/temp 配置slave的ip vim /etc/hosts 配置bashrc 设置hadoop配置文件

  • 大数据生态圈组件2022-07-03 14:01:42

    目录HadoopZookeeperHiveFlumeKafkaHBaseSqoopAzkabanOozieMaxwellCanalSparkFlinkHUECDHKettle大数据学习路线 Hadoop   由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。它实现了一

  • 第一周总结2022-07-02 21:03:42

    第一周 应建民哥的要求安装hadoop 安装的步骤是按照网上来的,先配置java环境,这个我早已经配置好,然后下载hadoop    安装hadoop3.3,保存至c盘目录下     下载hadooponwindows-master,将其中的bin 和etc替换到hadoop中,再配置hadoop的环境变量     Path添加hadoop环境     再

  • 第一周总结2022-07-02 20:35:15

    经过一周的数据库实训,感触很深,收获也很大,对自己的缺点也有了很多的认识,回首本学期JAVA学习,重点还是在学习概念等一些常识性的东西,关于类型、变量、接口、输入输出流、分析异常、抛出异常,后期主要是增删改查,界面套用,jsp界面设计。 另外学习了一点 hadoop的知识点  Hadoop介绍Hado

  • 2022/7/2每周总结2022-07-02 20:03:31

    Hadoop介绍Hadoop是一个由Apache基金会开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。 HDFS有高容错性的特点,并且设计用来

  • 假期第一周总结2022-07-02 18:04:16

    第一周过去了,本周全是小学期,上午数据库,下午补修以前没学的小学期,一天打八九个小时的代码,还要同时学王老师的Hadoop,感觉要死了。每天都不想做事,不想写代码,Hadoop技术也没有提高。 总之就是很累,完成了一小部分的hadoop入门,比如配置虚拟机,虚拟机的克隆,jdk的安装,Hadoop的基础知识等等

  • Hive-day13 Hive各种函数分类2022-07-01 22:31:55

    Hive自定义函数UserDefineFunction UDF:一进一出 定义UDF函数要注意下面几点: 继承org.apache.hadoop.hive.ql.exec.UDF 重写evaluate(),这个方法不是由接口定义的,因为它可接受的参数的个数,数据类型都是不确定的。Hive会检查UDF,看能否找到和函数调用相匹配的evaluate()方法

  • hadoop2022-07-01 22:06:02

            搜索 复制

  • hdfs常用shell命令2022-07-01 17:01:38

      1、创建文件夹 hadoop fs -mkdir [-p] ... path 为待创建的目录 -p选项的行为与Unix mkdir -p非常相似,它会沿着路径创建父目录。 hdfs dfs -mkdir /temp   2、查看指定目录下内容 hadoop fs -ls [-h] [-R] [ ...] path 指定目录路径 -h 人性化显示文件size -R 递归查看指定目

  • 基于Hadoop与Spark的大数据开发概论2022-06-30 23:01:36

    Hadoop 什么是Hadoop? ​ Hadoop是一套开源的用于大规模数据集的分布式储存和处理的工具平台。他最早由Yahoo的技术团队根据Google所发布的公开论文思想用Java语言开发,现在则隶属于Apache基金会 Hadoop的核心组成 ​ Hadoop框架主要包括三大部分:分布式文件系统、分布式计算系统、资

  • Hadoop 22022-06-28 22:04:56

    Hadoop核心之MapReduce   上部分提到Hadoop存储大数据的核心模块HDFS,这一部分介绍Hadoop处理大数据部分的核心模块MapReduce。   Apache Foundation对MapReduce的介绍:“Hadoop MapReduce is a software framework for easily writing applications which process vast amounts

  • HDFS 在本地使用java API上传文件到阿里云ECS报错 org.apache.hadoop.hdfs.BlockMissingException: Could not obtain bloc2022-06-28 18:32:03

    HDFS 在本地使用java API上传文件到阿里云ECS报错 org.apache.hadoop.hdfs.BlockMissingException: Could not obtain block org.apache.hadoop.ipc.RemoteException(java.io.IOException): could only be replicated to 0 nodes instead of minReplication (=1) 问题描述 在本地

  • 大数据面试题V3.02022-06-28 11:33:32

    Hadoop基础 介绍下Hadoop 分布式系统架构。开发分布式程序。利用集群的威力进行高速运算和存储。 Hadoop的特点 高可靠性 高效性 高可扩展性 高容错性 低成本 说下Hadoop生态圈组件及其作用 1,HDFS (分布式文件系统) 2,资源管理器(YARN 和 mesos) 3,mapreduce(分布式计算框

  • Hadoop-day07 HDFS的读写流程2022-06-26 16:31:07

    HDFS的读写流程(重点!) 写数据 写数据就是将客户端上的数据上传到HDFS 2.6.1 宏观过程 每一个block块都需要进行机架感知,得到block块以及副本的存储DN的节点,然后DN节点之间组成pipeline,然后客户端将block块拆分成多个packet,每个packet大小为64K,然后进行传输,先传输到pipeline第

  • hadoop集群启动命令汇总2022-06-25 16:35:05

    1. 各个服务组件逐一启动/停止   分别启动/停止HDFS组件   hadoop-daemon.sh start / stop namenode / datanode / secondarynamenode     启动/停止YARN   yarn-daemon.sh start / stop resourcemanager / nodemanager   2. 各个模块分开启动/停止(配置ssh是前提)常用  

  • 50070端口浏览器上删除dfs的文件提示无权限Permission denied,解决方法2022-06-25 16:00:07

       点击上图中的删除按钮,提示: Permission denied: user=dr.who, access=WRITE, inode="/":root:supergroup:drwxr-xr-x,意思是没有删除权限 解决方法: 进入到hadoop目录执行 hadoop-2.9.2/bin/hdfs dfs -chmod -R 777 / 给所有文件赋值最高权限,然后再在浏览器上删除就不会出现无

  • Hadoop-day03 hadoop基本命令2022-06-24 21:06:21

    一、Hadoop环境变量的配置 首先进入linux环境配置的文件 vim /etc/profile 这样就进入配置文件的界面 然后按下英文字母i就可以进入文件的编辑模式,后面输入环境变量的配置: HADOOP_HOME= (hadoop文件的根目录) PATH=.:$HADOOP/bin(Hadoop文件中的bin目录) 输入:HADOOP_HOME=/usr/l

  • hadoop MapReduce运营商案例关于用户基站停留数据统计2022-06-24 20:37:07

    注 如果需要文件和代码的话可评论区留言邮箱,我给你发源代码 本文来自博客园,作者:Arway,转载请注明原文链接:https://www.cnblogs.com/cenjw/p/hadoop-mapReduce-operator-case.html 实验要求 统计每个用户在不同时段中各个基站的停留时间。 1.功能描述 用户的手机,连接到不同的基站

  • [IDEA SCALA] Failed to locate the winutils binary in the hadoop binary path2022-06-22 23:36:57

    运行了一个Scala程序发现报错    发现自己一直没有配置本地hadoop的环境   1.编辑系统环境变量添加HADOOP_HOME(hadoop压缩包的解压路径)   2.接着在Path添加一行   3.配置好之后再测试    4.在 IDEA 中配置 Run Configuration,添加 HADOOP_HOME 变量       还是报错,

  • Hadoop 和 MPP 作为数仓组件的区别2022-06-22 13:35:23

    1,原理对比 MPP方案中的数据通常在节点之间拆分(分片),每个节点仅处理其本地数据。而且,每家都有专门为 MPP 解决方案开发的复杂而成熟的 SQL 优化器。它们都可以在内置语言和围绕这些解决方案的工具集方面进行扩展,支持地理空间分析、数据挖掘的全文搜索。在任务执行过程中,单一的 Execu

  • Flink On YARN2022-06-21 11:00:07

    0. 环境准备 本实验基于以下 8 台测试机器进行: IP hostname 10.4.79.90 hadoop-1 10.4.79.8 hadoop-2 10.4.79.6 hadoop-3 10.4.79.58 hadoop-4 10.4.79.38 hadoop-5 10.4.79.96 hadoop-6 10.4.79.62 hadoop-7 10.4.79.92 hadoop-8 首先确认每个机器都安

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有