Hadoop

零基础学习大数据怎么学?2021-02-18 16:32:41

零基础学习大数据怎么学? 【导语】如今大数据发展得可谓是如日中天，各行各业对于大数据的需求也是与日俱增，越来越多的决策、建议、规划和报告，都要依靠大数据的支撑，学习大数据成了不少人提升或转行的机会，那么零基础学习大数据怎么学呢? 1、学习大数据我们就要认识大数据大数据
hadoop 2.6 yarn Records实现分析2021-02-18 15:33:54

转自： https://blog.csdn.net/houzhizhen/article/details/51372058 Records在Yarn中原代码中主要用于RPC通訊，如以下语句生成一个新应用程序的請求，GetNewApplicationRequest request = Records.newRecord(GetNewApplicationRequest.class); Records⾥的代码非
Hadoop云网盘实现-大数据作业2021-02-17 22:29:19

这是一个大数据作业完成过程的记录，基础仅有一个Ubuntu系统，学习过程中借鉴了很多博主的相关介绍，在这里作一下总结，也记录一下自己学习过程中遇到的坑和解决方案。希望对其他做类似工作的人有所帮助。目录（一）前期环境准备一、项目环境二、安装Ubuntu18.04 三、安装Hadoop2.1
MapReduce统计单词在各文件出现次数2021-02-16 22:30:51

分布式计算MapReduce编程Ⅰ 实验目的： 1、理解集群分布式计算原理 2、熟悉MR程序中Mapper、Reducer函数的编写实现倒排索引效果，统计每个单词在不同文件中的出现次数实验要求有三个文件a.txt，b.txt，c.txt 每个文件的内容为若干行单词，单词之间以空格分开编写程序实现单词的倒
MR自定义OutputFormat2021-02-16 17:58:11

自定义OutputFormat使用场景：控制文件最终的输出路径和格式。比如：一个MR程序要求根据不同的结果将数据输出到不同的目录中。需求过滤输入的log日志，包含百度的网站输出到 baidu.log，不包含baidu的网站输出到 other.log。代码实现 1.自定义MyOutputFormat类，继承FileOutputFor
《Hadoop技术内幕》深入解析YARN架构设计与实现原理 PDF2021-02-15 22:32:42

《Hadoop技术内幕》--- 深入解析YARN架构设计与实现原理链接: https://pan.baidu.com/s/1vhJ4ETMwDztkR10tx90-Vg 提取码: bdje
大数据（一）2021-02-15 10:05:44

什么是大数据？一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合。大数据的特点： 1. 多样（Variety） 2. 大量（Volume） 3. 高速（Velocity） 4. 低价值密度（Value） 5. 真实性（Veracity）大数据处理的框架、架构、系统有： Hadoop生态、clickhouse、kafka、
maven添加本地jar包2021-02-14 18:01:56

maven添加本地jar包文章目录一、怎么添加jar到本地仓库呢？步骤： 1.cmd命令进入该jar包所在路径 2.执行命令： mvn install:install-file -Dfile=lucene-queryparser-4.6.1.jar -DgroupId=org.apache.lucene -DartifactId=lucene-queryparser -Dversion=4.6.1 -Dp
Hadoop学习篇(一)2021-02-14 15:29:24

Hadoop学习篇(一) 本文档适用于Hadoop开发学习者使用 Hadoop简介：Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统（ Distributed File
Hadoop进入安全模式源码分析2021-02-13 23:03:15

Hadoop进入安全模式有三个条件具体源码如下 private boolean needEnter() { // TODO-ZH DataNode汇报block状态为complete状态数量 return (threshold != 0 && blockSafe < blockThreshold) || // TODO-ZH 默认存活DataNode节点小于 datanodeT
大数据处理思路---java2021-02-13 22:00:37

package org; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; im
Hadoop RPC简介2021-02-13 16:34:29

导入依赖 <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>2.7.7</version> </dependency> 编写Hadoop RPC协议 public
Spark学习之路（二）Spark2.3 HA集群的分布式安装2021-02-12 20:33:59

《2021年最新版大数据面试题全面开启更新》欢迎关注github《大数据成神之路》目录一、下载Spark安装包 1、从官网下载 2、从微软的镜像站下载 3、从清华的镜像站下载二、安装基础三、Spark安装过程 1、上传并解压缩 2、为安装包创建一个软连接 3、进入spark/conf修改配置
大数据--大数据科普及Hadoop介绍2021-02-12 20:02:35

目录一：大数据科普 1.1大数据特点： 1.2大数据到来引起的思维变化 1.3.大数据技术的不同层次及其功能 1.4.大数据计算模式及其代表产品 1.5 云计算服务模式二：大数据处理架构hadoop 2.1 hadoop的特点 2.2hadoop应用现状 2.3hadoop项目结构 2.4 hadoop的三种安装方式 2.5.hadoop集
Hadoop生态圈2021-02-12 17:32:20

1）Hadoop历史雏形开始于2002年的Apache的Nutch，Nutch是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。随后在2003年Google发表了一篇技术学术论文谷歌文件系统（GFS）。GFS也就是google File System，google公司为了存储海量搜
hive和hadoop版本对应关系2021-02-12 14:03:11

hive和hadoop版本对应关系 http://hive.apache.org/downloads.html
Hadoop面试题2021-02-11 15:04:34

以下面试题主要整理自尚硅谷相关文档 1. 集群的最主要瓶颈磁盘IO 2. Hadoop运行模式包括单机模式、伪分布式模式、完全分布式模式。单机模式（standalone）单机模式是Hadoop的默认模式。这种模式在一台单机上运行，没有分布式文件系统，而是直接读写本地操作系统的文件系统。当首次解
hadoop fs ，hadoop dfs 和 hdfs dfs的区别以及HDFS的shell操作2021-02-11 14:31:51

hadoop fs ，hadoop dfs 和 hdfs dfs的区别 1、hadoop fs：该命令可以作用于hadoop的所有子系统 2、hadoop dfs：专门针对HDFS分布式文件系统 3、hdfs dfs：专门针对HDFS分布式文件系统，使用hadoop dfs时内部会被转为hdfs dfs命令常用命令： 1、-help：输出这个命令参数 2、-ls: 显
hadoop面试题2021-02-11 13:00:04

1. 集群的最主要瓶颈磁盘IO 2. Hadoop运行模式包括单机模式、伪分布式模式、完全分布式模式。单机模式（standalone）单机模式是Hadoop的默认模式。这种模式在一台单机上运行，没有分布式文件系统，而是直接读写本地操作系统的文件系统。当首次解压Hadoop的源码包时，Hadoop无法了
Hadoop3.x版本单机模式安装2021-02-10 12:01:34

安装环境 VMware 虚拟机 15.5系统镜像 centos7.8hadoop 3.2.2 安装步骤 1、关闭防火墙 2、安装JDK1.8 3、设置环境变量 vi /ect/profile # JDK1.8 自己的目录 JAVA_HOME=/opt/jdk1.8.0_191 CLASSPATH=$JAVA_HOME/lib/ PATH=$PATH:$JAVA_HOME/bin export PATH JAVA_HOME CLAS
20-Hive常见报错处理2021-02-10 11:33:36

Hive 运行过程异常信息有时不能完全显示在终端上，此时可以用 Hive Debug 模式进行调试 hive --hiveconf hive.root.logger=INFO,console 1、表不存在 FAILED: SemanticException [Error 10001]: Line 101:19 Table not found ODS_CDR_PSTN_D 报错分析：Table not found 很明显表
深度树匹配模型(TDM)2021-02-10 10:03:25

深度树匹配模型(TDM) 算法介绍 Tree-based Deep Match（TDM）是由阿里妈妈精准定向广告算法团队自主研发，基于深度学习上的大规模（千万级+）推荐系统算法框架。在大规模推荐系统的实践中，基于商品的协同过滤算法（Item-CF）是应用较为广泛的，而受到图像检索的启发，基于内积模型的向量检索算法也崭
【史上最全】Hadoop 核心 - HDFS 分布式文件系统详解(上万字建议收藏)2021-02-08 20:36:05

1. HDFS概述 Hadoop 分布式系统框架中，首要的基础功能就是文件系统，在 Hadoop 中使用 FileSystem 这个抽象类来表示我们的文件系统，这个抽象类下面有很多子实现类，究竟使用哪一种，需要看我们具体的实现类，在我们实际工作中，用到的最多的就是HDFS(分布式文件系统)以及LocalFileSystem(本地
大数据学习踩坑之 HADOOP_HOME and hadoop.home.dir are unset.2021-02-08 13:03:03

问题描述： java.io.FileNotFoundException: HADOOP_HOME and hadoop.home.dir are unset. at org.apache.hadoop.util.Shell.checkHadoopHomeInner(Shell.java:448) at org.apache.hadoop.util.Shell.checkHadoopHome(Shell.java:419) at org.apache.hadoop.util.Shell.<cli
Hadoop学习笔记-HDFS常用API2021-02-07 23:58:28

HDFS-API Maven依赖 <dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version>3.3.0</version> </dependency> <d

首页 < > 尾页

ICode9

零基础学习大数据怎么学?2021-02-18 16:32:41

hadoop 2.6 yarn Records实现分析2021-02-18 15:33:54

Hadoop云网盘实现-大数据作业2021-02-17 22:29:19

MapReduce统计单词在各文件出现次数2021-02-16 22:30:51

MR自定义OutputFormat2021-02-16 17:58:11

《Hadoop技术内幕》深入解析YARN架构设计与实现原理 PDF2021-02-15 22:32:42

大数据（一）2021-02-15 10:05:44

maven添加本地jar包2021-02-14 18:01:56

Hadoop学习篇(一)2021-02-14 15:29:24

Hadoop进入安全模式源码分析2021-02-13 23:03:15

大数据处理思路---java2021-02-13 22:00:37

Hadoop RPC简介2021-02-13 16:34:29

Spark学习之路 （二）Spark2.3 HA集群的分布式安装2021-02-12 20:33:59

大数据--大数据科普及Hadoop介绍2021-02-12 20:02:35

Hadoop生态圈2021-02-12 17:32:20

hive和hadoop版本对应关系2021-02-12 14:03:11

Hadoop面试题2021-02-11 15:04:34

hadoop fs ，hadoop dfs 和 hdfs dfs的区别以及HDFS的shell操作2021-02-11 14:31:51

hadoop面试题2021-02-11 13:00:04

Hadoop3.x版本 单机模式安装2021-02-10 12:01:34

20-Hive常见报错处理2021-02-10 11:33:36

深度树匹配模型(TDM)2021-02-10 10:03:25

【史上最全】Hadoop 核心 - HDFS 分布式文件系统详解(上万字建议收藏)2021-02-08 20:36:05

大数据学习踩坑之 HADOOP_HOME and hadoop.home.dir are unset.2021-02-08 13:03:03

Hadoop学习笔记-HDFS常用API2021-02-07 23:58:28

Spark学习之路（二）Spark2.3 HA集群的分布式安装2021-02-12 20:33:59

Hadoop3.x版本单机模式安装2021-02-10 12:01:34