本文來自于2018年09月19日在 Adobe Systems Inc 舉行的Apache Spark Meetup。
即將發布的 Apache Spark 2.4 版本是 2.x 系列的第五個版本。 本文對Apache Spark 2.4 的主要功能和增強功能進行了概述。
新的調度模型(Barrier Scheduling),使用戶能夠將分布式深度學習訓練恰當地嵌入到 Spark 的 stage 中,以簡化分布式訓練工作流程。 添加了35個高階函數,用于在 Spark SQL 中操作數組/map。 新增一個新的基于 Databricks 的 spark-avro 模塊的原生 AVRO 數據源。 PySpark 還為教學和可調試性的所有操作引入了熱切的評估模式(eager evaluation mode)。 Spark on K8S 支持 PySpark 和 R ,支持客戶端模式(client-mode)。 Structured Streaming 的各種增強功能。 例如,連續處理(continuous processing)中的有狀態操作符。 內置數據源的各種性能改進。 例如,Parquet 嵌套模式修剪(schema pruning)。 支持 Scala 2.12。點擊 示說網 ,即可下載此PPT。
總結
以上所述是小編給大家介紹的2018即將推出的Apache Spark 2.4都有哪些新功能,希望對大家有所幫助,如果大家有任何疑問請給我留言,小編會及時回復大家的。在此也非常感謝大家對錯新站長站網站的支持!
新聞熱點
疑難解答