商业数据学家80%的时间都花在查找、清洗和准备数据上,生产率低下的主要原因在于数据准备工作的双重性:快速访问、合并和聚合存储在企业数据湖中的大数据;探索和可视化数据中具有复杂依赖关系的Python数据包中的数据和统计信息
大数据大多是非结构化的,常常存储在具有企业管理和安全限制的生产环境中。快速访问数据需要昂贵的分布式系统,这些系统由IT集中管理,与其他数据科学家和分析师共享。
Spark是用于分布式数据湖中处理数据的行业黄金标准。但要以经济高效的方式使用Spark集群,甚至允许多租户,就很难满足单个需求和依赖关系。分布式数据基础架构的行业趋势是临时集群,这使得数据科学家更加难以部署和管理他们的Jupyter Notebook环境。
数据学家们使用Spark实现了csv文件并从云存储控制台下载了它们,将其本地开发环境与生产数据湖中的数据联系起来。
Sparkmagic是一个通过Livy REST API与Jupyter Notebook中的远程Spark群集进行交互工作的项目。它提供了一组Jupyter Notebook单元魔术和内核,可将Jupyter变成用于远程集群的集成Spark环境。
SparkMagic能够以多种语言运行Spark代码;提供可视化的SQL查询;轻松访问Spark应用程序日志和信息;针对任何远程Spark集群自动创建带有SparkContext和HiveContext的SparkSession;将Spark查询的输出捕获为本地Pandas数据框架,以轻松与其他Python库进行交互(例如matplotlib);发送本地文件或Pandas数据帧到远程集群。
SparkMagic真正有用之处在于实现本地Notebook和远程群集之间无缝传递数据。使用Pandas在Jupyter Notebook中聚合远程集群中的大数据以在本地工作的能力对于数据探索非常有帮助。另一个有用的功能是能够使用魔术来采样远程Spark DataFrame。
但正如你所见,这种短暂的PySpark集群模式有一大诟病:使用Python软件包引导EMR集群,且这个问题不会随着部署生产工作负载而消失。
快将自己的生产力从数据准备的低效率中拯救出来吧,用80%中节省出来的时间去创造更多价值。
大数据的应用在未来时代的应用会越来越广泛,而相应人才的需求也会越来越旺盛,就业前景也非常广阔。腾科教育的提供华为认证HCIE-Bigdata为你的前程分忧,为未来生活保障。