ICode9

精准搜索请尝试: 精确搜索
  • Spark 源码系列 - DAGScheduler -> runJob2022-05-29 11:03:29

    目录结论DAGScheduler -> runJobDAGScheduler -> submitJob 结论 DAGScheduler -> runJob def runJob[T, U]( val waiter = submitJob(rdd, func, partitions, callSite, resultHandler, properties) DAGScheduler -> submitJob 将this, 新生成的jobid, 分区数 生成对象 JobWa

  • 关于 ORA-00937不是单组分组函数的解决办法2022-03-10 10:02:19

    在项目中遇到了ora-00937 的问题,找了半天原来是聚合函数没有和group by 语句一起使用的原因, select 列表项中除了包含聚合函数外,还包含了表的某些列,那么你将必须使用group by语句,否则语法通不过。   如 以下语法是编译不通过的 select j.d_jobid,count(p.d_lineid) as "num" ,j.b

  • 前端axios绝对路径进行PUT请求2022-02-24 18:02:19

    对应文件引入 axios import axios from 'axios' JS代码 return axios.put(process.env.VUE_APP_QUARTZ_API + '/monitor/job/changeStatus', { jobId : row.jobId, status : row.status }, { headers:

  • Spark源码——Job全流程以及DAGScheduler的Stage划分2021-12-14 22:07:03

    (图片来源:北风网) 进去RDD,随便点击一个action操作,比如foreach操作 /** * Applies a function f to all elements of this RDD. */ def foreach(f: T => Unit): Unit = withScope { val cleanF = sc.clean(f) sc.runJob(this, (iter: Iterator[T]) => iter

  • SpringBoot整合quartz实现多个定时任务管理2021-09-26 18:03:55

    1.添加pom依赖 <dependency> <groupId>org.quartz-scheduler</groupId> <artifactId>quartz</artifactId> <version>2.3.0</version> <!-- quartz默认使用c3p0连接池,如果项目使用的不是则需要排除依赖包 --> <exclusions>

  • jenkins循环取参数执行构建命令2021-09-07 14:33:52

    接上一篇,curl命令可以远程执行job了,但是我们每次执行的job数量特别多,肯定要把job名做成参数然后循环取值,不停的执行 实现: #!/usr/bin/env groovy properties(         [parameters(                 [string(defaultValue: "", description: "微服务名", name: "job

  • flink实战-实时计算平台通过api停止流任务2021-06-12 13:30:45

    参考: https://blog.csdn.net/zhangjun5965/article/details/106820591 文章目录 背景案例详解 命令行停止api实现 背景 随着flink在流计算领域越来越火,很多公司基于flink搭建了自己的实时计算平台,用户可以在实时平台通过jar或者sql的方式来开发、上线、下线、运维flink任务,避免

  • (六)整合 QuartJob ,实现定时器实时管理2021-06-05 14:52:00

    整合 QuartJob ,实现定时器实时管理 1、QuartJob简介 1.1 核心API 2、SpringBoot整合QuartJob 2.1 项目结构 2.2 定时器配置 2.3 定时器管理工具 2.4 定时器执行和日志 3、定时器服务封装 3.1 定时器初始化 3.2 添加定时器 3.3 立即执行一次定时器 3.4 更新定时器 3.5 停止定时

  • xxl-job的适用场景2021-04-17 18:03:14

    前言 最近在设计一个项目,项目里面涉及到了任务创建和任务运行,这个就让我想到做一个单独的执行器服务。按照以往的经验,项目里的数据量也不会很高,那么任务的创建运行实际上单台机器就能应付,好像也没必要硬上分布式执行器吧。但是呢,虽然以往的经验如此,万一这个项目就“运气”好的爆表

  • spark--job和DAGScheduler源码2019-10-27 15:55:27

       一个job对应一个action操作,action执行会有先后顺序; 每个job执行会先构建一个DAG路径,一个job会含有多个stage,主要逻辑在DAGScheduler。 spark提交job的源码见(SparkContext.scala的runJob方法): def runJob[T, U: ClassTag]( rdd: RDD[T], func: (TaskContext, Iter

  • 前端黑魔法:webworker动态化,无需JS文件创建worker2019-09-19 09:04:50

    前言 前几天,我和一位知乎网友讨论这个问题的时候,觉得这非常有意思,所以写了这篇文章作为记录 本文的思路和项目代码来源于知友 @simon3000,我加以修饰以更符合理解的需求。   本文所用代码已经得到当事人授权,请看: 非常感谢他的理解和鼓励   作者初始代码地址  (

  • EXCEL、CSV、JSON数据进行地图发布2019-08-29 14:53:16

    --------------------------# -*- coding: utf-8 -*- # --------------------------------------------------------------------------- # FeatureServicize.py # Created on: 2016-11-12 09:11:52.00000 # Creater: # Usage: FeatureServicize <jobId> <fileType&

  • Spark-SubmitTask2019-08-06 22:57:11

    1.Rdd rdd中 reduce、fold、aggregate 这些ShuffleTask  还有collect、count这些finalTask 都会调用 sparkContext.runJob def reduce(f: (T, T) => T): T = withScope {   val cleanF = sc.clean(f)   val reducePartition: Iterator[T] => Option[T] = iter => {     i

  • 爬取招聘网站符合关键字的网址2019-06-30 21:53:38

    爬取华为招聘网站符合关键字的网址 # -*- coding:utf-8 -*- import requests import re from http.cookiejar import CookieJar import json from bs4 import BeautifulSoup from urllib import request,parse from http import cookiejar s = requests.session() urlall = [

  • sed 多条件匹配和qstat信息提取2019-03-23 09:43:11

    Linux环境下如果我们执行过多,qstat命令查看任务时就会比较混乱,下面是我的习惯做法: qstat|grep "[1-9]\+"|cut -d ' ' -f2|xargs -I {} echo 'qstat -j {}'|sh|sed -n '/cwd\|job_name/p'|le qstat命令获取全部运行任务 grep筛选出jobid,也可以根据特定的任务名筛选 cut命令以空

  • job任务执行流程与分区机制2019-03-19 12:40:34

    job任务执行流程    1.run job阶段        ①收集整个job的环境信息(比如通过conf设定的参数,还有mapperClass,reducerClass,以及输出kv类型)        ②会计算当前job的切片数量(切片不同等切块,用FileSplit:path  start length)        ③检测环境信息的合法性,以及

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有