BigData解决方案

  大数据与AI解决方案

1  大数据分析解决方案:

1.1  方案描述:

在亚马逊云科技上构建完整的大数据分析体系,可以采用HIVE+Spark+HDFS的架构使用EC2自建或采用由亚马逊云科技提供的ElasticMapReduce(EMR)+SimpleStorageService+RedShift架构来完成大数据分析的目标。对于HIVE与Spark的自建架构,博思云为不推荐使用,自建架构是为初级的云计算服务使用方式,抛弃了很多云上的优势。对此,博思云为建议客户采用AmazonService完成整个大数据架构。在基于亚马逊云科技的大数据方案中,我们采用了亚马逊云科技提供的EMR服务,EMR服务可以简单理解为托管的Hadoop集群,其中包含了MapReduce与HDFS等运算存储集群。基于EMR,我们帮助客户加工与处理结构化与非结构化业务数据、按照客户的需求,分析与开发出数据业务特征处理算法,对结构化与非结构化的数据进行清洗(去重、去残缺、去错误、一致性检查)、脱敏(条目混淆、加密)、数据格式转换(字段类型调整、表数据拆分/合并、数据粒度转换)等。最终将已完成转换的有效数据以适合于数据仓库加载的格式(例如:CSV)导出并转存在S3存储中,并通过加载工具将有效数据集导入至Redshift数据仓库,作为后续企业BI、AI等业务的数据来源。对于安全与资源管理方面,博思除采用IAM之外,还会集成一套自有资源与权限管理系统,可实现单点登陆SSO,日志审计等方式确保账户与访问,安全避免资源使用混淆、资源盗用等风险。

1.2  应用场景:

对于所有希望新建大数据分析平台的用户来说,云是原生的适合于大数据分析的。大数据分析的使用场景中,每次运算都需要大量的计算资源,但是在分析完成后资源将处于闲置状态,我们的大数据方案基于亚马逊云科技,使用托管的EMR服务运算分析,随时可以启动/删除集群,最大程度的节省了使用成本。对于希望上云的客户而言,无论在本地使用的是怎样的架构方案,博思都将帮助客户完成整体的结构改造与迁移,更好的适应云,节省大量的基础环境与软件维护工作,使客户能将更多的精力集中在业务相关的数据分析中。

1.3  方案优势:

基于亚马逊云科技的大数据方案里,采用托管的EMR与S3存储、RedShift服务等,能够节省大量的基础环境搭建与维护工作,同时无需担心软件与硬件的性能能力,所有的服务都以自动伸缩式集群的方案提供极其巨大的负载能力,以保证能够满足用户所有的性能需求。基于亚马逊云科技,所有的计算资源与存储资源都可以即开即用,避免了一切不必要的资源闲置与浪费,能够最大程度的节省成本费用,除此之外,博思云自研出一套对EMR+S3的安全与资源管理系统,可以实现统一身份认证,日志审计,资源与权限分配,以及集成CD/CI的能力。

2  人工智能解决方案:

2.1  方案描述:

在AI解决方案里,采用了博思成熟的大数据分析方案作为数据处理模块,提供AI运算所需的数据源,采用EMR对基础数据做清洗、转换、脱敏等,并最终存储在DataLake数据存储模块中;为了更好的控制AI运算资源,博思设计了DockerCluster模块,使用K8S搭建Docker集群,为每一个用户动态提供一个基础的Docker环境,Docker环境里使用Jupyter来编辑运算脚本,用户数据存储则由数据存储模块提供;配合用户的科学计算,博思设计了AICluster模块,其中使用TensorFlow集群提供基础的科学计算环境,供DockerCluster模块调用,用户数据与运算结果则存储在数据存储模块中。整个AI方案中,所有的持久化实践存储都使用数据存储模块,对于数据处理与AI计算模块提供S3等静态存储供EMR与TenorFlow存储静态的结果数据,对于DockerCluster则提供了EBS、NFS、EFS等多种存储配合使用存放用户的自定义数据;在K8S环境下,为每一个用户划分一块单独的存储空间并持续保留,在每一次用户新登录时,自动载入用户原有的数据。由此形成一套完整的、多用户的、可弹性伸缩,并最大程度节省运算资源的AI环境。为了更好配合企业的用户管理与安全审计,博思将整体的AI环境置于内部网络,采用堡垒机监控审计所有的出入访问,使用LDAP等多种方式尽可能集成企业已有的用户体系,便于企业用户管理。并集成开源CI/CD软件,让企业在安全,资源与权限管理等都能有最好的解决方案。

2.2  应用场景:

人工智能概念早在多年前就被提出,但是一直无法落地与发展,是因为软硬件环境无法达到要求。现如今,云计算提供了强大且平价的计算能力,大数据分析在云计算上提供了海量的精准数据,至此AI的所有条件都已经备齐。博思云为则提供了基于亚马逊云科技的最为流行且高效的AI计算平台解决方案,适合所有希望在云上使用AI的场景与客户。

2.3  方案优势:

博思拥有强大的技术实力,集成并整合了LDAP与GitLab等为企业提供更好的用户管理与代码集成管理。结合K8S与Docker技术,自主开发构建基于TensorFlow与Jupyter的自动化AI计算平台,并以Docker作为最小粒度自动伸缩容量、动态提供运算资源。相比传统的AI解决方案中使用VM虚机或者物理机,容器能够更加快速的动态提供服务,并以更加细粒度的资源配置提供服务;并使用EBS、NFS、EFS等作为Docker用户存储源,以Jupyter多用户模式,独立分割存储所有用户的数据,并且借助S3近乎无穷的存储容量以及99.999999999%可靠性提供最佳的数据湖。