到目前来说,大数据方面的流程应该是越来约清楚了,虽然说技术上的实现我还是一窍不通,但是,毕竟一个整体的流程出来了,虽然说感觉一些实现还是很复杂,特别是一些算法,数据模型感觉还是有点不理解,但是相信自己,一步一步的来,不要着急,总有一天会学到真正的知识,其实就是这样,一天一天的,我们也在进步,这就让我很欣慰,总的来说,没有虚度这样的时光。
下面还是说说我理解的大数据架构的流程吧
源数据,经过数据清洗入库
分布式存储一个框架,经过strom,批式处理和spark流式处理
模型算法处理,生成应用模型
服务读取模型字段,返回给web浏览器展示
数据源-》数据层-》能力层-》应用层
数据源-》数据整合-》数据存储-》数据计算-》数据分析-》平台服务-》应用层
这样,一条流水线就出来了,虽然说主要的工作都是在华科那里,但是作为一个项目的技术方面,我们应该多去考虑这个项目技术分配,难度,那里会是重点,那里我们需要考虑的多一点,哪里需要考虑的细一点。
总体来说,我个人感觉是,项目总体流程是有了,但是我们没有项目经验,我们也不确定华科是否具备这样的能力,就目前来说,我重点要考虑的可能是中间层的定义,就是数据处理的结果是怎么定义的,我们要对于目前有用,对未来也有用的数据,这才是关键,我们的项目关键是什么,路网的数据能够做什么
1.地理空间的网格化
2.出行路线和路网数据
3.热力图
4.重点地区分析
5.城市概述
有时间多想想表结构吧,表出来了,接下来就好说了。