ICode9

精准搜索请尝试: 精确搜索
  • Hadoop如何加载第三方包2022-03-18 17:33:14

    报错背景: 本地idea编写Hadoop程序,对nginx日志进行分析,引入nl.bitwalker.useragentutils.UserAgent包解析nginx的浏览器信息获取浏览器系统名称和浏览器名称, 本地测试可以完全ok,然后打包到Hadoop集群运行,报错找不到nl.bitwalker.useragentutils.UserAgent包 原因Hadoop默认不

  • 【Hadoop】安装Hadoop集群(未配置高可用HA)2022-03-18 17:31:10

    Hadoop的集群安装 1.在Master中的解压Hadoop tar -xvf hadoop-2.6.6.tar -C /home/hadoop/ 2.在Hadoop解压路径下创建四个目录 3.配置 hadoop的配置文件(hadoop安装路径下的etc/hadoop) (1)配置core-site.xml sudo vim core-site.xml 在标签中间加入以下配置 <prope

  • Hadoop+Hive2022-03-10 14:05:36

    前言: 在按照自己之前的文档搭建Hadoop和hive时遇到不少的问题,特此记录。 参考博客: Flink1.10集群环境搭建 - 萘汝 - 博客园 (cnblogs.com) CentOS7下构建SQL引擎 - 萘汝 - 博客园 (cnblogs.com) CentOS7下搭建Hadoop分布式集群 Hadooop集群规划 服务器IP hadoop01 hadoop02 had

  • 图解大数据 | 海量数据库查询-Hive与HBase详解2022-03-08 19:02:21

    作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/84 本文地址:http://www.showmeai.tech/article-detail/172 声明:版权所有,转载请联系平台与作者并注明出处 1.大数据与数据库 1) 从Hadoop到数据库 大家知道在计算机领域,关系数据库大量用于数据存储和维护的场景。

  • hadoop入门(12):hdfs的读写流程2022-03-08 18:33:08

    hdfs的写入流程 文件具体上传流程如下: 创建文件: HDFS client向HDFS写数据先调用DistributedFileSystem.create() RPC调用namenode的create()方法,会在HDFS目录树中指定路径,添加新文件;并将操作记录在edits.log中。namenode的create()方法执行完后,返回一个FSDataOutPutStream,他是

  • 1.大数据概述2022-03-08 10:03:33

    1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。         (1).HDFS 分布式文件系统Hadoop分布式文件系统HDFS是针对谷歌分布式文件系统(Google File System,GFS)的开源实现,它是Hadoop两大核心组成部分之一,提供了在廉价服务器集群中进行

  • Hadoop框架高可用配置---HA2022-03-07 14:04:04

    1.高可用集群搭建 2.准备安装环境 tar -zxvf hadoop-3.1.2.tar.gz mv hadoop-3.1.2 /opt/ cd /opt/hadoop-3.1.2/etc/hadoop/ 3.修改集群环境 vim hadoop-env.sh # 直接在文件的最后添加 export JAVA_HOME=/usr/local/java/jdk1.8.0_261 export HDFS_NAMENODE_USE

  • dremio arp BaseTestQuery 类windows 系统问题2022-03-04 22:04:26

    对于开发的dremio arp 扩展,我们很多时候需要进行测试,官方是提供了一个BaseTestQuery的类,可以方便的编写测试但是此类默认会创建hadoop 相关的东西,使用起来还是很费事的,一般我们开发jdbc arp 扩展的时候是不会使用hadoop的所以应该禁用,参考官方修改了一个去掉hadoop的 参考使用 在t

  • Hadoop2022-03-03 20:34:20

      学习视频:https://www.bilibili.com/video/BV1Qp4y1n7EN?p=27 scp(secure copy)安全拷贝 (1)scp定义 scp可以实现服务器与服务器之间的数据拷贝。(from server1 to server2)        (2)基本语法 scp    -r        $pdir/$fname             $user@$host:$pd

  • 2.安装spark和python练习2022-03-03 20:33:27

    一、下载spark 1.检查基础环境hadoop,jdk      2.解压,文件夹重命名、权限           3.配置文件        4.环境变量    5.试运行python代码      二、Python编程练习:英文文本的词频统计 1.准备文档,在百度复制一篇英语文章    在wc.py中编写代码 path='/h

  • Java kerberos hdfs2022-03-03 14:33:53

    hadoop: hdfs: host: hdfs://192.168.0.161:8020 path: /app-logs user: hdfs batch-size: 105267200 #1024*1024*1024 1G batch-rollover-interval: 60000 #1000*60*2 2miniutes kerberos: keytab: C:\ProgramData\MIT\Kerberos5\hdf

  • 大数据Hadoop-Spark集群部署知识总结(一)2022-03-02 20:31:42

    大数据Hadoop-Spark集群部署知识总结 一、启动/关闭 hadoop myhadoop.sh start/stop 分步启动: 第一步:在hadoop102主机上 sbin/start-dfs.sh 第二步:在hadoop103主机上 sbin/start-yarn.sh 分步关闭: 第一步:在hadoop103主机上 sbin/stop-yarn.sh 第二步:在hadoop102主机上 sbin/

  • 大数据概述2022-03-02 01:03:59

    1、列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。 1,HDFS(hadoop分布式文件系统) 是hadoop体系中数据存储管理的基础。他是一个高度容错的系统,能检测和应对硬件故障。 client:切分文件,访问HDFS,与namenode交互,获取文件位置信息,与DataNode交互

  • CRM进入大数据层级里的数据库2022-03-01 20:00:38

    进入hive   1、登陆69服务器   (106.128.37.69 hadoop hadoop)   2、sit进入hive中的卡户人表(进去数据库的层级)(用beeline链接hive:beeline是hive0.11版本引入的新命令行客户端工具)   cd /data/serves/spark-2.4. 4-bin-hadoop2.7/bin/. /beeline ! connect jdbc:hive2: //had

  • 1.大数据概述2022-03-01 19:34:30

    一、列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述 1. HDFS(Hadoop分布式文件系统) Hadoop分布式文件系统是Hadoop项目的两大核心之一,是针对谷歌文件系统(GoogleFileSystem,GFS)的开源实现。 HDFS具有处理超大数据、流式处理、可以运行在廉

  • 1.大数据概述2022-03-01 15:32:33

    1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。 (1)HDFS——分布式文件系统   Hadoop分布式文件系统HDFS是针对谷歌分布式文件系统(Google File System,GFS)的开源实现,它是Hadoop两大核心组成部分之一,提供了在廉价服务器集群中进行大规模

  • 1.大数据概述2022-03-01 14:32:03

    1. 列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。   1.HDFS 分布式文件系统         Hadoop分布式文件系统HDFS是针对谷歌分布式文件系统(Google File System,GFS)的开源实现,它是Hadoop两大核心组成部分之一,提供了在廉价服务器集群

  • 1.大数据概述2022-02-28 23:02:21

      1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。 (1)HDFS分布式文件系统   HDFS可以兼容廉价的硬件设备,利用较低成本的及其实现大流量和大数据量的读写。 (2)MapReduce   MapReduce是分布式并行编程模型,用户大规模数据集的并行计算,

  • 1.大数据概述2022-02-28 23:01:18

    1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。 (1)HDFS分布式文件系统   HDFS可以兼容廉价的硬件设备,利用较低成本的及其实现大流量和大数据量的读写。 (2)MapReduce   MapReduce是分布式并行编程模型,用户大规模数据集的并行计算,让不

  • 大数据概述2022-02-28 19:35:13

    1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。 1.HDFS: HDFS(Hadoop Distributed File System)基于Google发布的GFS论文设计开发,运行在通用硬件上的分布式文件系统。 除具备其它分布式文件系统相同特性外,还有自己的特性: 高容错性:认为

  • 1,大数据概论2022-02-28 19:32:59

    1.大数据概述   1.大数据概述 一.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。 1、HDFS(分布式文件系统)提供分布式数据存储、集中管理功能,为hdaoop生态提供数据基础2、MapReduce(分布式计算框架)输入分片(input split)->map阶段->shuff

  • 1.大数据概述2022-02-28 18:33:16

    一、Hadoop生态中的各个组件及功能    1.HDFS(分布式文件系统) HDFS是Hadoop体系中数据存储管理的基础,是Hadoop抽象文件系统的一种实现。Hadoop抽象文件系统可以与本地系统、Amazon S3 等集成,甚至可以通过Web协议来操作。 2.MAPREDUCE(分布式计算框架) MAPREDUCE是一种给计算模型,用

  • 浅谈企业级数据中台2022-02-28 18:30:00

    近年来,阿里提出了“大中台,小前台”这样的概念,那么,数据中台到底是什么?具体包含哪些内容?跟大数据平台是什么关系?在架构层面是怎么体现的?数据中台跟产品又有什么关系?此博客整理了网上一些观点。 第一是数据技术; 第二是数据资产; 第三和第四都是数据服务. 所谓数据中台,即实现数据

  • maven无法下载jar解决2022-02-28 18:03:56

    第一步,把飘红的jar拷贝出来然后删除本地库的那个jar包所在文件夹,也就是jar包对应的版本 第二步,用终端mvn命令把jar打进本地仓库 mvn install:install-file -Dfile=复制拷贝出来的jar包的全路径 -DgroupId=jar包的groupId -DartifactId=jar包的artifactId -Dversion=jar包版本 -

  • 大数据概述2022-02-28 16:02:21

    1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。 1、NameNode:是hdfs的主服务器,管理文件系统的目录树以及对集群中存储文件的访问,保存有metadate,不断读取记录集群中dataNode主机状况和工作状态。 2、SecondaryNameNode:NameNode的冷备,负

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有