加入收藏 | 设为首页 | 会员中心 | 我要投稿 唐山站长网 (https://www.0315zz.com.cn/)- 数据安全、数据开发、文字识别、图像处理、媒体智能!
当前位置: 首页 > 站长资讯 > 动态 > 正文

什么是 ETL ?ETL 的常见技术方案是什么?

发布时间:2021-02-22 15:35:42 所属栏目:动态 来源:互联网
导读:嗯,怎么理解 ETL 这个东西呢?直接上一个网上搜到的招聘信息看一下: 职位名称:ETL工程师 职位职责: 负责ETL系统研发和对外支持工作; 设计科学的数据抽

嗯,怎么理解 ETL 这个东西呢?直接上一个网上搜到的招聘信息看一下:

  • 职位名称:ETL工程师
  • 职位职责:
  • 负责ETL系统研发和对外支持工作;
  • 设计科学的数据抽取、转换、加载的工作流程,保证数据及时、正确地抽取到数仓中;
  • 负责安排ETL工程流程的调度和成功执行;
  • 协调数据建模建立风控模型、对数据进行挖掘、优化及统计。
  • 职位要求:
  • 熟练掌握数仓方法论,理解维度建模;
  • 熟悉hadoop,hive,hbase,spark,flume等工作原理;熟悉kettle,informatica,sqoop等工作;
  • 精通hive语法,熟练SQL优化,熟悉python/shell等一种脚本语言;掌握mysql,oracle,sqlserver等数据库;
  • 有互联网大数据平台数据开发经验优先。

看上面的要求,有几个点可以关注一下:

数仓的理论

  • 计算引擎:Hadoop、Spark、hive
  • 数据同步:Flume、Sqoop、Kettle
  • 存储引擎:Mysql、Oracle、Hbase等存储平台

我们大致分析一下这些内容。首先说数仓的理论,这个在前面的博客也都有提到,很重要,从理论上指导了怎么来进行数据处理。存储引擎也就不提了。这两者不太算是 ETL 的范畴。

那就聊一下计算引擎和数据同步的工具。我们可以大致理解 ETL 的主要工作就是利用这些工具来对数据进行处理。下面举几个栗子来说明 ETL 的场景:

  1. Nginx 的日志可以通过 Flume 抽取到 HDFS 上。
  2. Mysql 的数据可以通过 Sqoop 抽取到 hive 中,同样 hive 的数据也可以通过 Sqoop 抽取到 Mysql 中。
  3. HDFS 上的一些数据不规整,有很多垃圾信息,可以用 Hadoop 或者 Spark 进行处理并重新存入 HDFS 中。
  4. hive 的表也可以通过 hive 再做一些计算生成新的 hive 表。

这些都算是 ETL,其中 1 和 2 都比较典型,它们把数据从一个存储引擎转移到另一个存储引擎,在转移的过程中做了一定的转换操作。3 和 4 也同样是 ETL 只是它们更侧重的是数据的加工。



(编辑:唐山站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读