ICode9

精准搜索请尝试: 精确搜索
  • 零基础学习大数据怎么学?2021-02-18 16:32:41

    零基础学习大数据怎么学? 【导语】如今大数据发展得可谓是如日中天,各行各业对于大数据的需求也是与日俱增,越来越多的决策、建议、规划和报告,都要依靠大数据的支撑,学习大数据成了不少人提升或转行的机会,那么零基础学习大数据怎么学呢? 1、学习大数据我们就要认识大数据 大数据

  • hadoop 2.6 yarn Records实现分析2021-02-18 15:33:54

      转自: https://blog.csdn.net/houzhizhen/article/details/51372058   Records在Yarn中原代码中主要用于RPC通訊,如以下语句生成一个新应用程序的請求,GetNewApplicationRequest request =        Records.newRecord(GetNewApplicationRequest.class); Records⾥的代码非

  • Hadoop云网盘实现-大数据作业2021-02-17 22:29:19

    这是一个大数据作业完成过程的记录,基础仅有一个Ubuntu系统,学习过程中借鉴了很多博主的相关介绍,在这里作一下总结,也记录一下自己学习过程中遇到的坑和解决方案。希望对其他做类似工作的人有所帮助。 目录 (一)前期环境准备 一、项目环境 二、安装Ubuntu18.04 三、安装Hadoop2.1

  • MapReduce统计单词在各文件出现次数2021-02-16 22:30:51

    分布式计算MapReduce编程Ⅰ 实验目的: 1、理解集群分布式计算原理 2、熟悉MR程序中Mapper、Reducer函数的编写 实现倒排索引效果,统计每个单词在不同文件中的出现次数 实验要求 有三个文件a.txt,b.txt,c.txt 每个文件的内容为若干行单词,单词之间以空格分开编写程序实现单词的倒

  • MR自定义OutputFormat2021-02-16 17:58:11

    自定义OutputFormat使用场景: 控制文件最终的输出路径和格式。比如:一个MR程序要求根据不同的结果将数据输出到不同的目录中。 需求 过滤输入的log日志,包含百度的网站输出到 baidu.log,不包含baidu的网站输出到 other.log。 代码实现 1.自定义MyOutputFormat类,继承FileOutputFor

  • 《Hadoop技术内幕》深入解析YARN架构设计与实现原理 PDF2021-02-15 22:32:42

    《Hadoop技术内幕》--- 深入解析YARN架构设计与实现原理 链接: https://pan.baidu.com/s/1vhJ4ETMwDztkR10tx90-Vg 提取码: bdje

  • 大数据(一)2021-02-15 10:05:44

    什么是大数据? 一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合。 大数据的特点: 1. 多样(Variety) 2. 大量(Volume) 3. 高速(Velocity) 4. 低价值密度(Value) 5. 真实性(Veracity) 大数据处理的框架、架构、系统有: Hadoop生态、clickhouse、kafka、

  • maven添加本地jar包2021-02-14 18:01:56

    maven添加本地jar包 文章目录 一、怎么添加jar到本地仓库呢? 步骤: 1.cmd命令进入该jar包所在路径 2.执行命令: mvn install:install-file -Dfile=lucene-queryparser-4.6.1.jar -DgroupId=org.apache.lucene -DartifactId=lucene-queryparser -Dversion=4.6.1 -Dp

  • Hadoop学习篇(一)2021-02-14 15:29:24

    Hadoop学习篇(一) 本文档适用于Hadoop开发学习者使用 Hadoop简介:Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统( Distributed File

  • Hadoop进入安全模式源码分析2021-02-13 23:03:15

    Hadoop进入安全模式有三个条件具体源码如下 private boolean needEnter() { // TODO-ZH DataNode汇报block状态为complete状态数量 return (threshold != 0 && blockSafe < blockThreshold) || // TODO-ZH 默认存活DataNode节点小于 datanodeT

  • 大数据处理思路---java2021-02-13 22:00:37

    package org; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; im

  • Hadoop RPC简介2021-02-13 16:34:29

    导入依赖 <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>2.7.7</version> </dependency> 编写Hadoop RPC协议 public

  • Spark学习之路 (二)Spark2.3 HA集群的分布式安装2021-02-12 20:33:59

    《2021年最新版大数据面试题全面开启更新》 欢迎关注github《大数据成神之路》 目录 一、下载Spark安装包 1、从官网下载 2、从微软的镜像站下载 3、从清华的镜像站下载 二、安装基础 三、Spark安装过程  1、上传并解压缩 2、为安装包创建一个软连接 3、进入spark/conf修改配置

  • 大数据--大数据科普及Hadoop介绍2021-02-12 20:02:35

    目录 一:大数据科普 1.1大数据特点: 1.2大数据到来引起的思维变化 1.3.大数据技术的不同层次及其功能 1.4.大数据计算模式及其代表产品 1.5 云计算服务模式 二:大数据处理架构hadoop 2.1 hadoop的特点 2.2hadoop应用现状 2.3hadoop项目结构 2.4 hadoop的三种安装方式 2.5.hadoop集

  • Hadoop生态圈2021-02-12 17:32:20

    1)Hadoop历史 雏形开始于2002年的Apache的Nutch,Nutch是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎 所需的全部工具。包括全文搜索和Web爬虫。 随后在2003年Google发表了一篇技术学术论文谷歌文件系统(GFS)。GFS也就是google File System,google公司 为了存储海量搜

  • hive和hadoop版本对应关系2021-02-12 14:03:11

    hive和hadoop版本对应关系 http://hive.apache.org/downloads.html

  • Hadoop面试题2021-02-11 15:04:34

    以下面试题主要整理自尚硅谷相关文档 1. 集群的最主要瓶颈 磁盘IO 2. Hadoop运行模式 包括单机模式、伪分布式模式、完全分布式模式。 单机模式(standalone) 单机模式是Hadoop的默认模式。这种模式在一台单机上运行,没有分布式文件系统,而是直接读写本地操作系统的文件系统。当首次解

  • hadoop fs ,hadoop dfs 和 hdfs dfs的区别以及HDFS的shell操作2021-02-11 14:31:51

    hadoop fs ,hadoop dfs 和 hdfs dfs的区别 1、hadoop fs: 该命令可以作用于hadoop的所有子系统 2、hadoop dfs: 专门针对HDFS分布式文件系统 3、hdfs dfs: 专门针对HDFS分布式文件系统,使用hadoop dfs时内部会被转为hdfs dfs命令 常用命令: 1、-help:输出这个命令参数 2、-ls: 显

  • hadoop面试题2021-02-11 13:00:04

    1. 集群的最主要瓶颈 磁盘IO 2. Hadoop运行模式 包括单机模式、伪分布式模式、完全分布式模式。 单机模式(standalone) 单机模式是Hadoop的默认模式。这种模式在一台单机上运行,没有分布式文件系统,而是直接读写本地操作系统的文件系统。当首次解压Hadoop的源码包时,Hadoop无法了

  • Hadoop3.x版本 单机模式安装2021-02-10 12:01:34

    安装环境 VMware 虚拟机 15.5系统镜像 centos7.8hadoop 3.2.2 安装步骤 1、关闭防火墙 2、安装JDK1.8 3、设置环境变量 vi /ect/profile # JDK1.8 自己的目录 JAVA_HOME=/opt/jdk1.8.0_191 CLASSPATH=$JAVA_HOME/lib/ PATH=$PATH:$JAVA_HOME/bin export PATH JAVA_HOME CLAS

  • 20-Hive常见报错处理2021-02-10 11:33:36

    Hive 运行过程异常信息有时不能完全显示在终端上,此时可以用 Hive Debug 模 式进行调试 hive --hiveconf hive.root.logger=INFO,console 1、表不存在 FAILED: SemanticException [Error 10001]: Line 101:19 Table not found ODS_CDR_PSTN_D 报错分析:Table not found 很明显表

  • 深度树匹配模型(TDM)2021-02-10 10:03:25

    深度树匹配模型(TDM) 算法介绍 Tree-based Deep Match(TDM)是由阿里妈妈精准定向广告算法团队自主研发,基于深度学习上的大规模(千万级+)推荐系统算法框架。在大规模推荐系统的实践中,基于商品的协同过滤算法(Item-CF)是应用较为广泛的,而受到图像检索的启发,基于内积模型的向量检索算法也崭

  • 【史上最全】Hadoop 核心 - HDFS 分布式文件系统详解(上万字建议收藏)2021-02-08 20:36:05

    1. HDFS概述 Hadoop 分布式系统框架中,首要的基础功能就是文件系统,在 Hadoop 中使用 FileSystem 这个抽象类来表示我们的文件系统,这个抽象类下面有很多子实现类,究竟使用哪一种,需要看我们具体的实现类,在我们实际工作中,用到的最多的就是HDFS(分布式文件系统)以及LocalFileSystem(本地

  • 大数据学习踩坑之 HADOOP_HOME and hadoop.home.dir are unset.2021-02-08 13:03:03

    问题描述: java.io.FileNotFoundException: HADOOP_HOME and hadoop.home.dir are unset. at org.apache.hadoop.util.Shell.checkHadoopHomeInner(Shell.java:448) at org.apache.hadoop.util.Shell.checkHadoopHome(Shell.java:419) at org.apache.hadoop.util.Shell.<cli

  • Hadoop学习笔记-HDFS常用API2021-02-07 23:58:28

    HDFS-API Maven依赖 <dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version>3.3.0</version> </dependency> <d

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有