狠狠躁日日躁夜夜躁A片无码,中文字幕在线亚洲二区,最近更新中文字幕在线,四虎影视国产精品亚洲精品,男人扒开添女人下部免费视频

訂閱
糾錯
加入自媒體

基于Spark的數據分析實踐

2019-06-19 09:55
EAWorld
關注

對RegisterDataFrameAsTable的分析

通過單個 regiserDataFrameAsTable 項進行分析,SparkSQL 并不是把source 的數據立即計算把數據放到內存,而是每次執(zhí)行 source 時只是生成了一個 Logical Plan,只有遇到需要提交的算子(Action),SparkSQL 才會觸發(fā)前面所依賴的的 plan 執(zhí)行。

總結

這是一個開發(fā)框架,不是一個成熟的產品,也不是一種架構。他只是基于 SparkSQL 整合了大多數的外部系統(tǒng),能通過 XML 的模板配置完成數據開發(fā)。面向的是理解數據業(yè)務但不了解 Spark 的數據開發(fā)人員。整個框架完成了大多數的外部系統(tǒng)對接,開發(fā)者只需要使用 type 獲得數據,完成數據開發(fā)后通過 target 回寫到目標系統(tǒng)中。整個過程基本無須程序開發(fā),除非當前的 SQL 函數無法滿足使用的情況下,需要自行開發(fā)一下特定的 UDF。因此本框架在對 SparkSQL 做了二次開發(fā)基礎上,大大簡化了 Spark 的開發(fā),可降低了開發(fā)者使用難度。

精選提問:

問1:和Fink平臺有什么優(yōu)勢么?

答:Flink 應該對標 Spark Streaming 的解決方案,是另一種可選流數據引擎。Flink 也采用了 Scala 語言,內部原理和操作數據方式頗有相似之處,是 SparkStreaming 之外流數據處理一種選型。基于 SparkSQL Flow 的架構主要側重批量數據分析,非實時 ETL 方面。

問2:這些應該是源數據庫吧,請問目標數據庫支持哪些?

答:目前的實現目標數據基本支持所有的源。

問3:你們產品是軟件開發(fā)平臺,spark和你們開發(fā)平臺啥關系?

答:普元針對部分成熟場景提供了一些開發(fā)平臺和工具,也在參與了一些大數據項目建設。對于大規(guī)模數據的數據報表,數據質量分析也需要適應大數據的技術場景,Spark 作為Hadoop 內比較成熟的解決方案,因此作為主要的選型工具。在參與部分項目實施過程中,通過對一些開發(fā)中的痛點針對性的提取了應用框架。

問4:對于ETL中存在的merge、update的數據匹配、整合處理,Spark SQL Flow有沒有好的解決方法?

答:merge 和 update 在數據開發(fā)過程不可避免,往往對數據庫造成較大壓力。大數據場景下不建議逐條對數據做 update 操作,更好的辦法是在數據處理階段通過 join 把結果集在寫入目標前準備好,統(tǒng)一一次性寫入到目標數據庫。查詢操作通過換庫使用新庫,這中操作一般適合數據量比較大,數據更新頻率較低的情況。如果目標庫是 HBase 或者其他 MPP 類基于列式的數據庫,適當的可以更新。但是當每天有 60% 以上的數據都需要更新時,建議還是一次性生成新表。

問5: blink和flink 應該如何選?

答:blink 是阿里巴巴在 flink 基礎上做了部分場景優(yōu)化(只是部分社區(qū)有介紹,并不明確)并且開源,但是考慮到國內這些機構開源往往是沒有持久動力的。要看采用 Blink 是否用了比較關鍵的特性。也有消息說 Blink 和 Flink 會合并,畢竟阿里 Dubbo 前期自己發(fā)展,后期還是捐給了 Apache,因此兩者合并也是有可能。建議選型 Flink。

問6:etl 同步數據中主要用哪些工具?

答:這個要區(qū)分場景。傳統(tǒng)數據庫之間,可采用日志同步,也有部分成熟的工具;

傳統(tǒng)數據庫和Hadoop 生態(tài)內(HBase,HIVE) 同步可使用 apache sqoop。 SparkSQL Flow 可以作為數據同步的另一種方案,可用在實時性不高的場景。SparkSQL Flow 更側重大數據工具,偏向數據分析和非實時 ETL。

<上一頁  1  2  3  4  
聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號