ICode9

精准搜索请尝试: 精确搜索
  • hive存储格式2022-06-07 20:02:53

    格式类型 Hive支持的存储数据的格式主要有:TEXTFILE 文本格式文件(行式存储)、 SEQUENCEFILE 二进制序列化文件(行式存储)、ORC(列式存储)、PARQUET(列式存储)等。 hive的存储格式通常是:textfile 、 sequencefile 、 rcfile 、 orc 、自定义 set hive.default.fileformat=TextFile; 默认

  • A9 【大数据笔记】- Spark Shell2021-12-21 11:30:46

    一.基础环境: 本文默认了你已经有了hadoop+Spark环境,且有一台linux客户机,配置好了各种环境变量,可执行Spark命令的。 以上环境有没完成的,自行去百度完成。 二.Spark Shell 交互 1.准备一个分析文件 word_test.txt(内容随意,我放的是英文诗),上传到hdfs,/tmp/hubg/目录下 hadoop fs -put

  • Prometheus监控实战系列九:主机监控2021-11-30 21:30:37

    前面我们介绍了Prometheus的基础概念,包括数据格式 、PromQL语法等,本节我们将讲解如何通过Prometheus实现主机的监控 。 Prometheus使用各种Exporter来监控资源。Exporter可以看成是监控的agent端,它负责收集对应资源的指标,并提供接口给到Prometheus读取。不同资源的监控对应不同

  • IO - 文件的读写2021-10-14 23:00:37

    package test; import java.io.BufferedReader; import java.io.File; import java.io.FileReader; import java.io.IOException; import java.io.PrintWriter; import java.util.ArrayList; import java.util.Arrays; import java.util.TreeSet; public class TextFile ext

  • RDD编程2021-07-11 18:52:26

    RDD编程 1.RDD编程概述—-整个spark的核心 2.pari RDD 3.共享变量【重要】 4.数据读写 5.WordCount程序解析 1.RDD编程概述 1.RDD创建, 01.Spark采用textFile()方法从文件系统中加载数据创建RDD 该方法把文件的URI作为参数,这个URI可以是: 001.本文件系统的地址; 002.或者是分布式文

  • 大数据001——数仓搭建相关2021-06-12 14:58:38

    一。这里用的是hadoop生态的hive进行存储,首先说hive的表大致分为内部表和外部表,又分为分区表(PARQUET)和桶表。 hive文件存储格式包括以下几类: 1、TEXTFILE 2、SEQUENCEFILE 3、RCFILE 4、ORCFILE(0.11以后出现) 5、PARQUET 总结:相比TEXTFILE和SEQUENCEFILE,RCFILE由于列式存储方

  • pyspark读取数据2021-04-09 18:33:51

    本地文件系统的数据读写 因为Spark采用了惰性机制,在执行转换操作的时候,即使输入了错误的语句,spark-shell也不会马上报错(假设word.txt不存在) 从文件中读取数据创建RDD ll /root/spark-2.4.3-bin-hadoop2.7/word.txt-rw-r--r--. 1 root root 45 Apr 9 13:34 /root/spark-2.4.3-bin-

  • hive添加txt文件转oec表2021-01-16 19:01:30

    1.数据格式 1 2 x2 2 x3 2 x4 2 x 2.创建表 创建TEXTFILE格式的表 CREATE TABLE test_txt(id int,num int,txt string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n' STORED AS TEXTFILE; 指定分隔符为\tROW FORMAT DELIMITED FIELDS TE

  • spark RDD textFile算子 分区数量详解2020-11-25 00:00:23

    进入textFile原码 发现 分区数量调用 hadoopFile中的TextInputFormat类,传入参数Key为LongWritable即偏移量,value为Text, 由此得知是通过这个类来读取 继续进入TextInputFormat类中 发现有个是否可以切分的判断,可以知道 一些不可拆分的文件由此过滤掉,可以切片拆分的文件继

  • 官网阅读——走近Spark之QuickStart2020-06-16 19:10:33

    首先,官网表明了Spark2.0之后,RDD被DataSet替代了,虽然Spark2.0仍然支持RDD的接口,但是官方强烈推荐使用DataSet。 安全 Spark的安全机制默认是被关闭的,所以有可能会受到攻击,但实际生产过程中,Spark集群更多的是搭建在公司内网中,不对外暴露,个人认为不开启安全机制并不影响。 Spark Shel

  • Spark文档阅读之二:Programming Guides - Quick Start2020-06-15 20:06:46

    Quick Start: https://spark.apache.org/docs/latest/quick-start.html   在Spark 2.0之前,Spark的编程接口为RDD (Resilient Distributed Dataset)。而在2.0之后,RDDs被Dataset替代。Dataset很像RDD,但是有更多优化。RDD仍然支持,不过强烈建议切换到Dataset,以获得更好的性能。 RDD

  • Spark深入解析(六):SparkCore之Spark代码编写WordCount2020-04-26 21:37:56

    学习目标WordCount思路WordCount代码实现 WordCount思路 准备数据 将数据放在以下目录中 1.txt Hello World Hello Scala 2.txt Hello Spark 图解分析 说明: 1、本地读取两个文件 2、两个文件内的数据 3、将文件内的数据进行扁平化 4、将相同单词进行分组 5、

  • Python+Spark2.0+hadoop学习笔记——pyspark基础2020-03-31 10:57:58

    在历经千辛万苦后,终于把所有的东西都配置好了。 下面开始介绍pyspark的一些基础内容,以字数统计为例。 1)在本地运行pyspark程序 读取本地文件 textFile=sc.textFile("file:/usr/local/spark/README.md") textFile.count() 读取HDFS文件 textFile=sc.textFile('hdfs://master:9000/u

  • 寒假记录52020-02-05 13:04:39

    今天完成了实验任务三,主要学习了其中的Spark读取文件系统的数据。 在 spark-shell 中读取HDFS 系统文件“/user/hadoop/test.txt”(如果该文件不存在,请先创建),然后,统计出文件的行数; scala>val textFile=sc.textFile("hdfs://localhost:9000/user/hadoop/test.txt") scala>textFil

  • Spark开发实例(编程实践)2019-06-15 20:47:51

    本节将介绍如何实际动手进行 RDD 的转换与操作,以及如何编写、编译、打包和运行 Spark 应用程序。 启动 Spark Shell Spark 的交互式脚本是一种学习 API 的简单途径,也是分析数据集交互的有力工具。Spark 包含多种运行模式,可使用单机模式,也可以使用分布式模式。为简单起见,本节采

  • [大数据之Spark]——快速入门2019-05-19 22:53:56

    为了良好的阅读下面的文档,最好是结合实际的练习。首先需要下载spark,然后安装hdfs,可以下载任意版本的hdfs。 Spark Shell 交互 基本操作 Spark Shell提供给用户一个简单的学习API的方式 以及 快速分析数据的工具。在shell中,既可以使用scala(运行在java虚拟机,因此可以使用java库

  • Spark4-RDD使用2019-05-06 17:54:37

    如何创建RDD 1.创建方式 1.parallelizing an existing collection in your driver program 通过并行化存在的一个集合,将集合转换成RDD 2.referencing a dataset in an external storage system, such as a shared filesystem, HDFS, HBase, or any data source offering

  • 快速开始使用spark2019-04-20 16:39:41

    1、版本说明 在spark2.0版本以前,spakr编程接口是RDD(Resilient Distributed Dataset,弹性分布式数据集),spark2.0版本即以上,RDD被Dataset取代,Dataset比RDD更为强大,在底层得到了许多优化了。当然2.0+版本仍然支持RDD,但官方建议使用Dataset。 2、安全 spark的安全模式默认是关闭的,这

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有