机器学习和数据挖掘是个非常难的领域,所以在这个领域有数据科学家这么一个职位。“数据科学家”在2009年由Natahn Yau首次提出,其概念是采用科学方法、运用数据挖掘工具寻找新的数据洞察的工程师。数据科学家是指能采用科学方法、运用数据挖掘工具对复杂多量的数字、符号、文字、网址、音频或视频等信息进行数字化重现与认识,并能寻找新的数据洞察的工程师或专家(不同于统计学家或分析师)。一个优秀的数据科学家需要具备的素质有:懂数据采集、懂数学算法、懂数学软件、懂数据分析、懂预测分析、懂市场应用、懂决策分析等。

传统典型的应用(如推荐系统)的一个数据流过程,需要经历使用hadoop做ETL,用impala/drill等做数据探索,使用tableau做报表,使用R语言或者mahout做高级分析,最后形成一个数据产品,如下图所示:

这个过程非常复杂,对技能要求非常高,需要懂一系列复杂的系统和工具。Databricks创新的将这些统一到了一起。通过一个统一的平台,将整个ETL、探索、高级分析、报表、数据产品都统一到平台上。

做到这一点核心用到一个notebooks这种工具。Notebooks是提供一个交互式的工作区,数据科学家可以使用R,python,Scala,SQL等各种语言直接在工作区输入,结果直接图形化的展现在下面,如下面一个例子:移动设备的地理分布。

Notebook有ipthon(http://ipython.org/),zeppline(http://zeppelin-project.org/)等,都非常有特点。

©著作权归作者所有:来自51CTO博客作者mob604756ec296f的原创作品,如需转载,请注明出处,否则将追究法律责任

更多相关文章

  1. PDO连接数据库实例
  2. 微软大数据领域优势分析
  3. 大数据三种典型云服务模式
  4. Kafka源码系列之副本同步机制及isr列表更新
  5. 欧洲云计算巨头OVH数据中心失火!为什么Web 3.0需要IPFS!
  6. Hive高级优化 | 面试及调优必读
  7. 大数据仓库-kudu
  8. 成为大数据高手的活法-晚上复盘
  9. 带聚光灯的Excel数据查询,简单到没朋友

随机推荐

  1. 使用adb从android手机拉取文件到电脑
  2. android 取得屏幕宽度
  3. android 输入法界面显示的开关
  4. Pro Android学习笔记(七二):HTTP服务(6):HttpUR
  5. 封装底部dialog弹窗 adapter T类型的适配
  6. Android棉花糖“不能播放这个视频”错误
  7. android vold.fstab的生成过程
  8. Android开源 - Luban(鲁班)可能是最接近
  9. 如何通过HttpURLConnection得到http 302
  10. 想在android中使用node.js和socket.io发