ICode9

精准搜索请尝试: 精确搜索
  • flink-format_小练习2022-07-31 13:01:31

    2、format 1、json json格式表结构按照字段名和类型进行映射 增加依赖 <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-json</artifactId> <version>1.15.0</version> </dependency> 读取json格式的数据 -- source 表 C

  • Flink-core小总结2022-07-29 01:01:56

    Flink-core小总结 1. 实时计算和离线计算 1.1 离线计算 离线计算的处理数据是固定的 离线计算是有延时的,T+1 离线计算是数据处理完输出结果,只是输出最终结果 离线计算相对可以处理复杂的计算 1.2 实时计算 实时计算是实时的处理数据,数据从流入到计算出结果延迟低 实时计算是输

  • 开源项目丨Taier1.2版本发布,新增工作流、租户绑定简化等多项功能2022-07-27 10:04:48

    2022年7月26日,Taier1.2版本正式发布! 本次版本发布更新功能: 新增工作流 新增OceanBase SQL 新增Flink jar任务 数据同步、实时采集支持脏数据管理 Hive UDF 控制台UI升级 租户绑定简化 新版本的使用文档已在社区中推送,大家可以随时下载查阅,欢迎大家体验新版本功能

  • Flink整合kafka的练习-统计卡口通过的车辆数量(及提交到集群中的问题)2022-07-27 01:00:14

    练习-统计卡口通过的车辆数量(及提交到集群中的问题) 统计卡口查流量 1、统计最近15分分钟的车流量 2、每隔5分钟统计一次 3、使用事件时间 4、数据源使用kafka 5、将统计好的结果保存到mysql中 1、创建kafka生产者生产几条数据 #创建一个Topic kafka-topics.sh --create --zookeep

  • Flink -time(处理时间,事件时间,水位线)2022-07-24 23:01:31

    Flink -time(处理时间,事件时间,水位线) 1. flink基石 2. Time 3. 统计时间 package com.wt.flink.core import org.apache.flink.streaming.api.scala._ import org.apache.flink.streaming.api.windowing.assigners.SlidingProcessingTimeWindows import org.apache.flink.strea

  • Flink-任务需要申请的资源和并行度有关,和task的数量没有关系2022-07-24 20:03:36

    Flink-任务需要申请的资源和并行度有关,和task的数量没有关系 1. 非Flink的需要5个task,如下: 但是在Flink中采用共享模式 在代码中设置并行度为2 package com.wt.flink.core import org.apache.flink.streaming.api.scala._ object Demo3Parallelism { def main(args: Array[S

  • Flink Window&Time 原理2022-07-24 19:32:38

    Flink 中可以使用一套 API 完成对有界数据集以及无界数据的统一处理,而无界数据集的处理一般会伴随着对某些固定时间间隔的数据聚合处理。比如:每五分钟统计一次系统活跃用户、每十秒更新热搜榜单等等 这些需求在 Flink 中都由 Window 提供支持,Window 本质上就是借助状态后端缓存着

  • Flink on yarn (三种模式)-调节集群的核数和内存方法2022-07-24 17:01:25

    FLINK on YARN 将flink的任务提交到yarn上运行 1、可以先关闭flink的独立集群 stop-cluster.sh 2、配置HADOOP_CLASSPATH vim /etc/profile # 增加 export HADOOP_CLASSPATH=`hadoop classpath` source /etc/profile 3、启动hadoop start-all.sh 提交任务到yarn上运行 1

  • FLink集群搭建并提交一个简单的任务2022-07-24 16:02:47

    FLink集群搭建 独立集群 独立集群不需要依赖任何框架,独立运行 1、上传解压配置环境变量 tar -xvf flink-1.15.0-bin-scala_2.12.tgz vim /etc/profile 2、修改配置文件 vim conf/flink-conf.yaml jobmanager.rpc.address: master jobmanager.bind-host: 0.0.0.0 taskmanager

  • Flink-java(api)2022-07-23 23:36:02

    Flink-java(api) 1. Map package com.wt.flink.tf import org.apache.flink.api.common.functions.MapFunction import org.apache.flink.streaming.api.scala._ object Demo1Map { def main(args: Array[String]): Unit = { //创建flink环境 val env: StreamExecution

  • Flink 题目2022-07-23 23:34:27

    Flink 题目 从MySql中读取数据,通过Flink处理之后在存储到MySql中 package com.wt.flink.homework import org.apache.flink.streaming.api.functions.source.SourceFunction import org.apache.flink.configuration.Configuration import org.apache.flink.streaming.api.scala.

  • Flink APIs(数据来源,数据流向)2022-07-23 23:33:06

    Flink APIs 1. flink apis 2. Flink版的WordCount package com.wt.flink.core import org.apache.flink.streaming.api.scala._ object Demo1WordCount { def main(args: Array[String]): Unit = { /** * 1.创建flink的环境 * */ val env: StreamExecu

  • Filnk简介2022-07-23 23:04:28

    Filnk简介 1. flink和spark的区别 2. 流处理和批处理 3. 无界流和有界流 4. 流处理和批处理 流处理 批处理 5. 离线计算和实时计算的区别 6. 实时计算面临的挑战 1.数据处理唯一性(如何保证数据只处理一次?至少一次?最多一次?) 2.数据处理的及时性(采集的实时数据量太大的

  • Flink-窗口函数(Window)2022-07-19 23:06:35

    1.Window概念 streaming 流式计算是一种被设计用于处理无限数据集的数据处理引擎,而无限数据集是指一种不断增长的本质上无限的数据集,而 window 是一种切割无限数据为有限块进行处理的手段。 Window 是无限数据流处理的核心,Window 将一个无限的 stream 拆分成有限大小的”buckets”

  • Record has Long.MIN_VALUE timestamp (= no timestamp marker). Is the time characteristic set to 2022-07-19 22:34:05

     问题: Caused by: java.lang.RuntimeException: Record has Long.MIN_VALUE timestamp (= no timestamp marker). Is the time characteristic set to 'ProcessingTime', or did you forget to call 'DataStream.assignTimestampsAndWatermarks(...)'?   E

  • Flink流计算窗口中获得窗口的开始、结束、最大时间戳2022-07-16 09:07:34

      基于Flink进行流计算时,如要需要得到每个窗口的开始、结束、最大时间戳,可以通过TimeWindow对象的如下方法获得: /** * Gets the starting timestamp of the window. This is the first timestamp that belongs to this * window. * * @return The starting timestamp of this wi

  • Flink 资源管理详解2022-07-15 18:32:31

    大家好,我是小寒~ 在 Flink 中提交作业到 Flink 集群后, Flink 集群是如何为作业分配资源,以及如何管理集群资源的呢?今天我们就来聊一聊 Flink 资源管理相关的内容。 2022 大数据学习路线图 原文链接 资源管理 资源抽象 Flink 涉及的资源分为两级:集群资源和Flink自身资源。 集群

  • Flink WaterMark原理简述2022-07-04 19:01:42

    1.Flink中Time概念 我们知道在分布式环境中 Time 是一个很重要的概念,在 Flink 中 Time 可以分为三种Event-Time,Processing-Time 以及 Ingestion-Time,三者的关系我们可以从下图中得知: Event-Time 表示事件发生的时间 Processing-Time 则表示处理消息的时间 Ingestion-Time

  • 练习 : Flink sink to ElasticSearch2022-07-01 21:03:21

      ElasticSearch package test; import bean.Stu; import org.apache.flink.api.common.functions.RuntimeContext; import org.apache.flink.streaming.api.datastream.DataStreamSource; import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;

  • Flink 物理分区2022-07-01 19:03:01

      分区是要将数据进行重新分布,传递到不同的流分区。keyBy 操作实际是一种按照hashCode 值进行重新分区的操作,这也是一种逻辑分区(按照散列值随机分开)。简单的说,分区就是slot 任务,重分区就是分配任务到不同的slot。   系统默认也有分区,比如:我们编写的程序可能对多个处理任务

  • 练习 : Flink sink to file2022-07-01 19:02:24

        package test; import bean.Stu; import org.apache.flink.api.common.serialization.SimpleStringEncoder; import org.apache.flink.core.fs.Path; import org.apache.flink.streaming.api.datastream.DataStreamSource; import org.apache.flink.streaming.api.envir

  • 练习 : Flink 自定义 sink to hbase2022-07-01 18:34:14

        hbase 1 package sink; 2 3 import org.apache.flink.configuration.Configuration; 4 import org.apache.flink.streaming.api.functions.sink.RichSinkFunction; 5 import org.apache.flink.streaming.api.functions.sink.SinkFunction; 6 import org.apa

  • Flink-Sink(Kafka、Redis、ES、JDBC)2022-07-01 15:05:52

    Flink 没有类似于 spark 中 foreach 方法,让用户进行迭代的操作。虽有对外的输出操作都要利用 Sink 完成。最后通过类似如下方式完成整个任务最终输出操作。 stream.addSink(new MySink(xxxx)) 官方提供了一部分的框架的 sink。除此以外,需要用户自定义实现 sink。   5.0 File

  • Flink SQL Hbase Demo2022-06-29 10:03:51

    依赖pom <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-connector-hbase-2.2_2.11</artifactId> <version>1.12.1</version> </dependency>

  • Flink 全量窗口聚合函数2022-06-29 07:00:13

    与增量聚合函数不同,全窗口函数需要先收集窗口中的数据,并在内部缓存起来,等到窗口要输出结果的时候再取出数据进行计算。很明显,这就是典型的批处理思路了——先攒数据,等一批都到齐了再正式启动处理流程。这样做毫无疑问是低效的:因为窗口全部的计算任务都积压在了要输出结果的那一瞬

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有