加强公司门户网站建设,漳州正规网站建设费用,seo人员的相关薪资,网站风格规划目录
一、DataX-Web 介绍
1.1 DataX-Web 是什么
1.2 DataX-Web 架构
二、DataX-Web 安装部署
2.1 环境要求
2.2 安装
2.3 部署
2.4 数据库初始化
2.5 配置
2.6 启动服务
2.6.1 一键启动所有服务
2.6.2 一键取消所有服务
2.7 查看服务#xff08;注意#xff01…目录
一、DataX-Web 介绍
1.1 DataX-Web 是什么
1.2 DataX-Web 架构
二、DataX-Web 安装部署
2.1 环境要求
2.2 安装
2.3 部署
2.4 数据库初始化
2.5 配置
2.6 启动服务
2.6.1 一键启动所有服务
2.6.2 一键取消所有服务
2.7 查看服务注意注意
2.8 访问 Web UI
2.9 运行日志
三、DataX-Web 任务部署
3.1 创建项目
3.2 执行器管理
3.3 创建数据源
3.3.1 mysql 数据源
3.3.2 hive 数据源
3.4 创建任务模板
3.5 任务创建
3.5.1 构建 reader
3.5.2 构建 writer
3.5.3 设置字段映射
3.5.4 构建
四、DataX-Web 任务管理 一、DataX-Web 介绍
1.1 DataX-Web 是什么
项目地址https://github.com/WeiYe-Jing/datax-web datax-web 是一个在 DataX 之上开发的分布式数据同步工具提供简单易用的操作界面降低用户使用 DataX 的学习成本缩短任务配置时间避免配置过程中出错。用户可以通过页面选择数据源即可创建数据同步任务。支持 RDBMS、Hive、HBase、ClickHouse、MongoDB 等数据源。RDBMS 数据源可以批量创建数据同步任务支持实时查看数据同步进度及日志并提供终止同步功能集成并二次开发 xxl-job可根据时间、自增主键增量同步数据。 任务“执行器”支持集群部署支持执行器多节点路由策略选择支持超时控制、失败重试、失败告警、任务依赖执行器CPU、内存、负载的监控等等。
1.2 DataX-Web 架构 二、DataX-Web 安装部署
2.1 环境要求
环境要求操作系统mac、Windows、LinuxJavaJava8jdk 的版本建议在 1.8.201 以上Python Python (2.x) (支持 Python3 需要修改替换 datax/bin 下面的三个 python 文件替换文件在doc/datax-web/datax-python3 下) 必选主要用于调度执行底层 DataX 的启动脚本默认的方式是以 Java 子进程方式执行 DataX用户可以选择以 Python 方式来做自定义的改造 MySQLMySQL 5.7MavenApache Maven 3.6.1编译安装包需要可选DataXDataX 3
对应的基础环境可以查看这篇文章安装大数据 DataX 详细安装教程-CSDN博客
2.2 安装 直接将安装包下载下来下载地址https://pan.baidu.com/s/13yoqhGpD00I82K4lOYtQhg提取码cpsk解压安装到指定的路径即可
(base) [roothadoop03 ~]# ls
datax-web-2.1.2.tar.gz
(base) [roothadoop03 ~]# tar -zxvf datax-web-2.1.2.tar.gz -C /usr/local/2.3 部署 执行一键安装脚本进入解压后的目录找到 bin 目录下面的 install.sh 文件如果选择交互式的安装则直接执行
(base) [roothadoop03 ~]# cd /usr/local/datax-web-2.1.2/
(base) [roothadoop03 /usr/local/datax-web-2.1.2]# ./bin/install.sh 在交互模式下对各个模块的 package 压缩包的解压以及 configure 配置脚本的调用都会请求用户确认可根据提示查看是否安装成功如果没有安装成功可以重复尝试 如果不想使用交互模式跳过确认过程则执行以下命令安装
./bin/install.sh --force
2.4 数据库初始化
如果你的本地服务上安装有 mysql 命令在执行安装脚本的过程中则会出现以下提醒
Scan out mysql command, so begin to initalize the database
Do you want to initalize database with sql: [{INSTALL_PATH}/bin/db/datax-web.sql]? (Y/N)y
Please input the db host(default: 127.0.0.1):
Please input the db port(default: 3306):
Please input the db username(default: root):
Please input the db password(default: ):
Please input the db name(default: exchangis) 按照提示输入数据库地址端口号用户名密码以及数据库名称大部分情况下即可快速完成初始化。 如果本地服务上并没有安装 mysql 命令我这台服务器没有安装 mysql则可以取用目录下 /bin/db/datax-web.sql脚本去手动执行完成后修改相关配置文件 (base) [roothadoop03 /usr/local/datax-web-2.1.2]# vim modules/datax-admin/conf/bootstrap.properties
#Database
DB_HOST192.168.170.136
DB_PORT3306
DB_USERNAMEroot
DB_PASSWORDxxx
DB_DATABASEdataxweb
按照具体情况配置对应的值即可。
2.5 配置 安装完成之后在项目目录下 /modules/datax-execute/bin/env.properties 指定PYTHON_PATH 的路径即 DataX 的 python 脚本路径
(base) [roothadoop03 /usr/local/datax-web-2.1.2]# vim modules/datax-executor/bin/env.properties
······
## PYTHON脚本执行位置
#PYTHON_PATH/home/hadoop/install/datax/bin/datax.py
PYTHON_PATH/usr/local/datax/bin/datax.py2.6 启动服务
2.6.1 一键启动所有服务
./bin/start-all.sh
中途可能发生部分模块启动失败或者卡住可以退出重复执行如果需要改变某一模块服务端口号则
vi ./modules/{module_name}/bin/env.properties找到 SERVER_PORT 配置项改变它的值即可。 当然也可以单一地启动某一模块服务
./bin/start.sh -m {module_name}2.6.2 一键取消所有服务
./bin/stop-all.sh当然也可以单一地停止某一模块服务
./bin/stop.sh -m {module_name}
2.7 查看服务注意注意 在 Linux 环境下使用 JPS 命令查看是否出现 DataXAdminApplication 和DataXExecutorApplication 进程如果存在这表示项目运行成功 如果项目启动失败请检查启动日志modules/datax-admin/bin/console.out 或者modules/datax-executor/bin/console.out Tips: 脚本使用的都是 bash 指令集如若使用 sh 调用脚本可能会有未知的错误。
2.8 访问 Web UI 部署完成后在浏览器中输入 http://ip:port/index.html 就可以访问对应的主界面ip 为 datax-admin 部署所在服务器 ipport 为 datax-admin 指定的运行端口 9527输入用户名 admin 密码 123456 就可以直接访问系统 如果你登录不进去显示账号密码错误可以先去数据库看看是否有 dataxweb 数据库生成如果没有则需要我们手动把 datax_web.sql 导入 dataxweb 数据库中先创建 dataxweb 数据库再进入此数据库最后导入 datax_web.sql 文件 即可
(base) [roothadoop03 /usr/local/datax-web-2.1.2/bin/db]# pwd
/usr/local/datax-web-2.1.2/bin/db
(base) [roothadoop03 /usr/local/datax-web-2.1.2/bin/db]# ls
datax_web.sql
2.9 运行日志 部署完成之后在 modules/对应的项目/data/applogs 下(用户也可以自己指定日志修改application.yml 中的 logpath 地址即可)用户可以根据此日志跟踪项目实际启动情况
如果执行器启动比 admin 快执行器会连接失败日志报拒绝连接的错误 解决办法是是先启动 admin再启动 executor30 秒之后会重连如果成功请忽略这个异常。
(base) [roothadoop03 /usr/local/datax-web-2.1.2/bin]# ./start.sh -m datax-admin# 30s 后再启动
(base) [roothadoop03 /usr/local/datax-web-2.1.2/bin]# ./start.sh -m datax-executor三、DataX-Web 任务部署
3.1 创建项目 3.2 执行器管理
在这里会列举所有在线的 Executor 列表 3.3 创建数据源
3.3.1 mysql 数据源 3.3.2 hive 数据源 datax-web 是通过 ThriftServer 连接到 Hive 的。因此需要保证 Hive 的 hiveserver2 服务是开启的状态。 3.4 创建任务模板 3.5 任务创建
3.5.1 构建 reader 3.5.2 构建 writer 3.5.3 设置字段映射 3.5.4 构建 四、DataX-Web 任务管理