科米讯大数据

服务创造价值、存在造就未来

当前位置:首页>产品服务>科米讯大数据

大数据实验室建设方案

发布时间:2022-03-12
浏览次数:3712人次
产品服务详情

一、 背景

1.1 大数据行业背景和发展趋势


近年来,大数据受到我国政府的高度重视和大力支持。2015年8月31日,国务院印发《促进大数据发展行动纲要》(国发〔2015〕50号),标志着将大数据纳入国家战略层面。根据前瞻产业研究院《2014—2018年中国大数据产业发展前景与投资战略规划分析报告前瞻》中的数据显示,大数据产业在2012年的市场规模已经达到4.5亿元,经过估算,2014年将会迅速增加到15亿元,2015年更是达到100亿元的产业规模,大数据市场在未来几年将继续以超过100%的年均复合增长率增长,2016年千亿级的大数据产业将会成为最有竞争活力的新型产业之一。
在传统的数据分析与商业数据挖掘中,人们通常遵循二八原则。也就是任务20%的用户提供了80%的价值,因此利用优势资源用户对于少数用户的服务。随着互联网的发展,越来越多的低价值用户进入到商业体系中,这部分用户成为商业企业竞争的目标。比如电商行业,大量顾客都是传统意义上的低价值客户,数据表明对于这部分用户价值的挖掘可以改变二八原则,甚至可达到价值的几乎均匀分布。并且由于计算机技术的发展,对于大数据的分析也成为了可能。
大数据本质上是庞杂数据的集合,其主要特征是信息容量巨大、数据类型繁多、存取速度快、应用价值高。如何从数量巨大、来源分散、格式多样的数据中提取有用的信息,发现新的知识,创造新的价值,成为新一代信息技术革命面临的重大课题。大数据在全球经济竞争和科技发展中占有举足轻重的地位。因此,高职院校必须紧跟当前科技的发展步伐,进行大数据检测与收集、大数据存储与处理等方面人才的培养,以技能型人才的需求为导向,大力培养大数据应用技术专业技能型人才,满足支撑社会经济发展的大数据岗位所急需的紧缺性人才需求。


1.2 大数据教学平台实验室建设的必要性

院校开设数据科学与大数据技术专业,符合当今社会经济发展对专业技能型人才的需要。院校应当按照大数据专业的建设规划,从人才培养模式、人才培养方案、课程体系、实习实训体系、技能评估能力、教学监控管理、教学资源建设、师资队伍等方面采取有效措施,加快建设步伐,努力提高数据科学与大数据技术专业的办学水准。
大数据相关专业是以计算机为基础,以挖掘、分析为主,以搭建、工具使用为辅,紧密面向行业应用的一门综合性学科。其方向有数据科学与大数据技术、概率论与数理统计、数据挖掘与数据分析、数据运维与开发、算法与数据结构、计算机网络、并行计算等多个专业方向,因此该专业对于实验室具有较高的专业要求。实验室不仅要提供基础的开发环境,还需提供大数据的环境搭建方法、挖掘算法、分析知识、数据存储、运算环境以及用于实验的大数据生命周期类真实案例。这些实验素材的准备均需专业的大数据实验室作为支撑。
目前,在我国高校的专业设置上与平台搭建、数据挖掘、大数据开发、大数据分析、数据存储实验相关的学科专业包括:计算机科学与技术、信息管理与信息系统、数理统计、金融、经管、医疗、人文地理、城乡规划、贸易、生物信息以及公共卫生等。这些专业的学生需要从原理、技术与应用等不同的角度掌握大数据平台搭建的方法与原理、挖掘的算法与技巧、分析的理论与分析知识、存储的工具与要求。学生要很好地掌握这些课程,除了课堂学习,通过实验来加深理解和提高实际应用操作能力也是主要途径。调查表明,大数据的环境搭建方法、挖掘算法、分析知识、数据存储、运算环境以及用于实验的大数据生命周期类真实案例都无法在我国高校现有的实验室中完成。因此,建设专门的基于云模式的智慧教育大数据实验室就显得非常重要。


二、 大数据教学平台实验室设计理念及目标

2.1 实验室设计理念

基于云模式的智慧教育大数据实验室的设计全面落实“产、学、用、研、监、评”一体化的思想和模式,从教学、实践、使用、科研、监控、评估等多方面注重专业人才和特色人才的培养。学生可以通过在实验室的学习熟练掌握大数据的基础知识,通过掌握的知识在大数据课程实验中进行动手实践,更好的完成专业课程学习及人才岗位对接实训。
本实验室建设方案融合数据挖掘与大数据分析专业教学、实训、案例实战等各层次实践教学,能够从面向大数据分析、大数据运维、大数据开发、大数据建模、大数据可视化、数据处理与分析、模型建立与优化等行业需求和促进学生职业发展的角度规划和建设基于云模式的智慧教育大数据实验室,真正在产业、学校及实际项目中相互配合,发挥优势,形成生产、学习、实践、运用、监控、评估的系统运作模式,从而建设大数据特色专业。
利用虚拟化教学资源,搭建实训平台和实战平台,将理论学习、实践教学和大数据搭建、数据挖掘、存储、建模、分析、优化、可视化、挖掘、分析实战融为一体,从易到难、循序渐进,逐步提升学生的学习技能和实践水平,提高“学”的质量和成效。定制专业化技能评估与教学监控功能,将学生的学习情况、专业喜好、适用岗位形成报告模版。秉承着“精准、先进、创新”的原则,实时监控学生操作,分析学习情况,评估学生知识水平,从而减轻学校及教师的压力。首先,依据监控实况教师进行精准化教学,免去非必要的讲解,节省了教师们大量的时间。其次,分析评估报告,把握学生学习动向,带有专业方向地进行指导教学。最后,推送功能将大数据公司需求模版与评估报告相匹配,若匹配度高度吻合,将直接进行推送,减轻学校为学生们的就业负担。
利用大数据分析主流软件框架,搭建与业界主要用户一致的实验环境,将理论课程中学到的平台搭建方法、数据挖掘算法、数据分析知识、数据存储工具运用到实际的大数据分析案例实验中,提升学生的动手操作和项目实践能力。使得学生所学与企业项目人才需求无缝衔接,与教师的教学工作紧密配合。


2.2 大数据教学平台实验室建设目标与特色

2.2.1 实验室建设目标

大数据指的是所涉及的数据量规模巨大到无法利用目前主流软件工具,在合理时间内达到采集、管理、处理、并整理成为帮助企业经营决策更积极目的的数据信息。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。因此智慧教育大数据实验室重点培养学生对于平台的搭建、数据的挖掘、存储与数据的分析能力。由此可见,大数据教学过程中包含平台搭建、数据获取、数据处理、模型建立、数据分析、模型优化、可视化等部分的内容。学生首先要平台搭建的方法与技巧,其次掌握数据挖掘的基本理论与算法,接着要掌握大数据处理的框架与平台,进而掌握针对大数据的数据分析方法,最后选择适用的数据库进行数据存储管理。因此本实验室建设主要内容包括平台搭建安装、数据挖掘、数据存储、模型建立与优化、数据分析与可视化实验。同时,还包括了基础语言类和基础系统类等基础类实验内容,为学生在学习大数据之前做好基础知识铺垫。
平台搭建安装实验是开始学习大数据的引入课程。通过对基本环境的部署和配置文件的修改,掌握接下来对数据进行挖掘与分析的原理。通过该类实验使得学生能够完成对于大数据分析平台的安装与搭建工作并具有Zookeeper、Hadoop及其一系列组件的运行维护能力。
数据挖掘部分的实验包括基本实验与算法实验两部分。基本实验用于给学生建立起数据挖掘的基本概念,展示常用的数据挖掘算法。以典型的应用数据为例,展示常用算法的分析效果。算法实验为学生提供编程框架,针对重要的数据挖掘算法进行实现。该部分实验以R语言、Python、SAS为开发环境,学生通过本实验室将掌握数据挖掘主要算法的实现方法。
大数据分析实验包括基本的大数据分析平台与算法实验以及典型实战数据分析实验两部分。大数据分析平台与算法实验包括平台配置与典型算法设计两大类,通过该类实验使得学生能够完成对于大数据分析平台的配置与初始化工作并具有基本MapReduce算法开发能力。典型实战数据分析实验,让学生利用真实的行业数据,完成大数据挖掘与分析,掌握数据挖掘与大数据分析的一般流程。
数据存储部分的实验提供了目前世界上三大主流数据库知识来学习。具体实验内容包括了数据库的安装、数据库的使用、数据库的维护调优以及数据库的二次开发。该部分实验包含MySQL数据库、SQL Server、Oracle数据库等相关知识内容,学生通过本实验室将掌握数据存储的操作方法。
基础类实验包括基本语言实验与基础系统实验两部分。基本语言类实验用于给学生在学习大数据语言之前奠定基础,该部分实验以JAVA、C++为主要内容。基础系统类实验使学生了解系统的管理与配置。该部分实验以Linux为学习系统,学生通过本实验室将理解基础语言与基础系统的使用方法。


2.2.2 实验室特色

1、 大数据环境搭建与大数据算法实现相结合
大数据算法作为最新的算法分析技术具有完全不同的设计思路,算法开发过程对初次接触该部分内容的本科生而言有较大的难度,一方面是算法思想的新颖性,另一方面则是算法实现对于程序开发的能力要求较高。因此为了实验的顺利完成,需要给学生一个入门的过程,本实验室通过环境搭建以及基础性实验的过渡来实现的。本实验对于学生的要求是框架性的,学生可以在此基础上进行创新,此种模式可以用来激发和培养学生的创新意识和创新能力。
2、 多梯度、层次式的步骤式实验
为了照顾和覆盖一些能力和兴趣存在着明显差别的学生群体,在设置特色实验的具体实验内容时,提供层次性、阶段性的开发目标,不同学生可以根据自己的能力差别选择合适的开发任务难度,而且在实验过程中,学生也可以根据进度调整相应的实验难度,以避免学生不能完成实验的情况,充分维护和提高学生参与该特色实验的兴趣和信心。最后,实验步骤是分解式的步骤,即一个实验步骤包含多个知识点,每个知识点即为一个子步骤,每个知识点具有一个考核点,考核点与实验内容具有相关性,实验步骤同时具有综合测验功能,综合检测在完成所有知识点考核之后才出现,每个实验具有综合检测题库,使学生意识到每一个实验的侧重点所在之处。
3、 智能评估用户的能力水平
为了能够方便地了解到每一名学生的学习水平,打造出一套先进、高端的技能评估系统。可设定采集时间段,以一个班级或者个人为单位进行能力评估报告数据采集,内容数据可选为综合统计、实验平台统计、在线考试统计。综合统计内容包括,该用户在平台上的总在线时长、操作虚拟机的总操作时长,以饼状图展示各个不同功能模块的实操时间体系占比;统计实训平台的内容包括,该用户完成的实验数量、操作虚拟机的总时长,以柱状图展示实操时间最多的模块TOP5,以饼状图展示该学生所操作的不同实验体系的占比;在线考试内容包括,参加考试次数、答题平均正确率、初级难度试题正确率、中级难度试题正确率、高级难度试题正确率,以饼状图展示出该学生的试题难度分布;最后,可将采集到的学生学习数据形成能力评估报告进行下载,也可将该报告推送给合作企业。目的是方便教师去了解每一名学生的学习状况及喜好的专业方向,更好的帮助学生就业。
4、 高端、主流的教学监控管理
为了减轻教师的授课负担,研发出一套教学监控管理系统。首先,管理员在后台可以一次性布置全部的教学计划,随后学生通过在前端查看,即可了解到每一天的课程安排。其次,具有课程考核全局开关功能,打开全局考核后,进行所有实验时都必须完成实验当中设定的每一步考核才能查看下一步。接着,系统可自动检测到是否有学生正在进行实验,当有学生进行实验时可自动检测哪些学生在上哪些课程,并可设定当前正在进行实验的班级和实验,进行实验状态分析(也可以手动设置分析目标)。查看分析结果时可查看分析目标实验、目标模块、目标班级,也可以重新设定分析目标,还可查看班级实验进度,实验步骤综合检测信息,实验总结信息。最后,可以查看学生的实验报告,支持预览和批阅等功能。此功能大大的减轻教师的负担,同时也为教师了解班级整体的学习状况提供的有力的支持。


三、 大数据教学平台实验室建设方案

大数据实验平台是由北京红亚科技研发而成,红亚科技作为专业的高校实验室建设方案提供商,结合相关知名高校及科研机构的教学及科研成果,提供了一套完整的高校数据挖掘与大数据分析的实验室解决方案。该实验室方案按照基础知识、平台搭建、数据挖掘、数据存储、模型建立与优化、数据分析与可视化实验来搭建。通过典型的算法展示、算法实现结合大数据分析的应用场景与案例对学生进行数据分析方面的综合训练,从而实现专业实验教学的由点及面、理论到应用、涵盖原理验证/综合应用/自主设计及创新的多层次实验体系。


3.1 基础环境建设

实验室基础环境建设主要是支撑实验室教学运行的基本环境配套建设,包括学生实验用桌椅、教学用投影音响器材、实验室空调系统、综合布线系统、安防监控系统及实验室装修系统等。通过这些基础支撑环境的建设,才能保证实验室的正常教学。
综合基础环境建设的各项内容,针对实验室的空间环境及现代实验教学的发展趋势,例如:一个实验班级60个学生可分为6个实验组,每组可安排10个学生同时进行实验,这样可安排60个学生同时进行大数据相关的实验课程。基于云模式的智慧教育大数据实验室整体环境平面设计如图所示:




如图所示,学生教学实验室采用岛状模式,突破传统的布局,节省了大部分的空间。室内的温度和采光都设计的十分合理。总而言之,为老师和学生打造了一个安静,适宜的教学环境。效果如图所示:



3.1.1 IT环境建设

IT环境建设包括实验终端个人电脑和存储规划建设。
学生实验终端计算机一方面可以采用普通终端PC机,组合成实验室局域网,支撑学生进行实验,另一方面随着云计算技术的发展,学生计算机可以采用虚拟桌面云终端的设计方式,通过采用专用云资源服务器及存云调度设备进行设计,利用服务器虚拟化的方法来对终端进行支撑,用户通过部署在实验平台的客户端进行实验操作,所有应用、数据统一存放在后台服务器,虚拟桌面云终端不存放任何数据,可进行统一管理,包括分发系统、更新软件、远程监控、审计等操作。虚拟桌面云平台也通过虚拟化平台的管理工具管理,大大降低维护人员的重复工作量。


3.1.2 网络环境建设

大数据实验平台设备提供资源管理和调度系统功能,由管理控制设备、资源调度设备以及多台计算节点设备,云资源接入设备以及网络安全设备等组成;;其中,云资源接入设备将用户和存储连接起来,是用户之间以及用户与资源之间的通信设备。用户通过统一资源调度平台调用其中的所有资源,教师可以对平台进行统一管理,包括用户组织管理、实验平台管理、云资源管理、教学监控管理、教学计划管理、在线考试管理、能力评估管理等;学生可以通过平台进行各类数据采集、清洗、建模等全生命周期实验演示与操作。
实验平台的建设采用B/S架构,全中文管理界面,且集成数据库及应用管理系统。用户可通过浏览器进行访问,且支持内网与外网同时访问。学生实验终端和教师管理终端采用终端PC机的方式,组合成实验室局域网,支撑学生进行平台搭建安装、数据挖掘、数据存储、模型建立与优化、数据分析部分与可视化实验,;此外平台提供11套不同行业的真实数据库为学生完成不同类型的实验做支撑。教师管理终端通过实验室教学管理系统对学生终端进行统一管理;学生端可以通过大数据实训平台进行平台搭建安装、数据挖掘、数据存储、模型建立与优化、数据分析部分与可视化实验,实验室网络拓扑图如下所示:



图 数据挖掘与大数据分析实验室网络拓扑结构


3.2 实验平台功能

大数据实验平台的建设采用B/S架构,用户通过浏览器进行访问,且支持内网与外网同时访问。平台的管理功能是针对前端系统设置的对应的管理功能,便于教学过程中对前端系统的自定义管理。后台管理包括12项功能,包括:用户组织、注册信息、职业路径、项目路径、邮件系统、实验内容、算法集、云平台、数据集、资源监控、教学管理、在线考试管理功能。


3.2.1 用户组织管理功能

用户组织管理功能包括:用户管理、角色管理、组织结构管理等功能。其中用户管理显示平台用户的信息列表,包含用户ID、学号、姓名、角色、所属组织、最后登录时间,管理端可对平台用户信息进行编辑与删除(批量删除),也可以下载平台的批量导入模版,按照需求填入信息,进行批量导入,并包含根据组织专业班级或姓名等信息进行用户模糊筛选,便于管理平台用户;角色管理显示平台现有角色,用户可编辑新的角色并赋予角色权限;组织结构管理显示平台现有的组织机构,管理端可以也可根据层级分步添加组织、学院、系别、专业、班级,对同级别下的机构进行排序。

用户管理功能界面



角色管理功能界面



组织管理功能界面

3.2.2 注册信息管理功能

注册信息管理功能包括注册申请管理和注册审核记录两大功能。其中,注册申请管理处有一个注册审核开关,开关处于开启状态时,系统注册用户都需要后台进行(批量)通过或(批量)拒绝的操作,审核通过之后才可以登录系统平台;注册审核记录显示后台对前台申请用户的操作结果的一个记录,每页固定显示20条操作记录,不可调节。

注册申请管理功能界面


3.2.3 职业路径管理功能

职业路径规划是红亚科技通过企业多年来与不同行业企业合作,调研近千家合作企业对大数据技术人才需求,得出岗位群划分、岗位技术要求,根据这些需求制作的职业路径规划。职业路径管理列表显示平台对现有的部分职位一些学习路径规划。管理端可以对其进行删除、复制、再编辑、新增等操作,复制职业路径是在原有基础上进行修改且职业路径名称必须修改,职业路径再编辑是指对原有职业路径内容进行完善,可在课程管理界面添加职业路径对应模块、实验,完成之后点击保存即可。

职业路径管理列表展示界面


职业路径添加基本信息界面


3.2.4 项目路径管理功能

项目案例是综合平台技能知识点与实际项目案例结合制作完成。项目路径管理是管理包含项目的(批量)新增、(批量)删除、再编辑等操作。项目包含基本信息和课程管理两大模块,基本信息包括项目路径名称、路径简介、项目编号与项目图片;课程管理包含路径模块、章节、实验、考核知识点的编辑。通过前期学习大数据的基本概念和技术,大数据的背景、发展及关键技术,掌握Hadoop大数据平台搭建与基本应用,内容会涉及Linux、HDFS、MapReduce、YARN、Hive、HBase、Sqoop、Kafka、Spark等,最终完成学习大数据处理与项目开发,包括交互式数据处理、协同过滤推荐系统、销售数据分析系统等


项目路径管理界面图



编辑基本信息界面图


编辑课程管理界面图


3.2.5 邮件系统配置管理功能

邮件系统配置是为了减轻管理端的任务负担,配置好邮件系统之后,学生在忘记登陆密码之后可以通过邮件找回密码。




3.2.6 实验内容管理功能


实验平台管理功能包含:实验管理、体系管理等功能。其中,用户可在实验管理功能中查看全部课程,并可对课程进行增、搜索、修改、删除管理;新增实验和已有实验涉及到的内容有实验基本信息,实验文档和虚拟机配置等。体管理是针对课程体系,可对实验体系、分类、模块、实验进行增加、修改和删除等管理。通过此功能,用户可以自己设置一些新的课件,以满足学校自定义需求。


体系管理列表界面图

实验管理列表界面图



3.2.7 算法集管理功能

算法集管理功能包含算法及管理与学科分类管理两大功能。算法集管理提供新增、删除再编辑等功能,新增算法时需要添加算法名称、配图、简介、所属学科、序号、算法内容,也可加入数据集,对算法再编辑时会显示原来版本算法。学科分类管理是指算法所属分类。大数据平台提供一些算法,学生可以在前台使用关键词进行搜索,完成搜索之后可以进行下载来使用。教师或管理端可以进行算法的修改、删除,也可以上传自己设计的算法,目前支持markdown在线编辑,也可以添加算法的一些附件,支持docx格式。本功能提供的一些算法,学生可以在此基础上进行修改,在平台上进行试验测试算法的优劣。


算法管理界面图


学科管理界面图


3.2.8 云平台管理功能

云平台管理功能包含对虚拟机镜像与容器镜像的管理。虚拟机和容器都可以提供虚拟操作环境,对比虚拟机来说,容器更加轻量级,是以容器可以满足需求都可以替代虚拟机。用户可以上传自己的虚拟机镜像,也可以对平台的镜像进行再编辑。红亚综合各方面因素,不断更新虚拟操作环境,带给用户更好体验。


虚拟机镜像管理界面图



容器镜像管理界面图


3.2.9 数据集管理功能

数据集管理功能提供本平台所有的数据,学生可以进行查看与实验,可以对学生能力进行考核,例如,教师给定一份数据让学生进行预测实验,学生需设计算法进行清洗与预测等, 考察学生个人主动学习能力。


数据集管理界面图



3.2.10 资源监控管理功能

云资源管理功能是为用户提供虚拟化管理功能,包括资源监控中心和虚拟机资源管理。用户可以在此查看版本信息、用户数量、实验数量,资源监控及用户虚拟机监控。同时后台资源监控中心可查看平台的用户数量、实验数量、职业路径数量、项目路径数量、算法集数量、数据集数量、用户分布、活跃用户等数据;实时的CPU、内存、硬盘、实例的使用情况和该时刻学生实验进行的状态;可对虚拟机进行监控所处的实验环境、创建位置、用户姓名、创建时间时间以及开启和关闭的状态。该功能的实现可便捷精准的反应出学生的问题所在,可对实验平台进行实时状态的查看,又同时提高了老师的教学质量和效率。




内容资源统计界面图



虚拟化资源管理界面图



3.2.11 教学管理功能

教学管理功能主要帮助教师针对不同学习程度的同学制定相应的教学计划,该功能与教学监控功能相辅相成;教师通过对学生的学习的监控和数据采集和分析,根据真实数据制定相应的教学计划,对于教学根据针对性和定制化。
教师可通过管理后台选择教学计划管理功能,对教学计划列表的计划名称、计划简介、关联班级、关联任务进行增加和修改;其中简介可展示一些开课信息、作业安排等内容。教学计划内的具体任务安排可通过任务列表功能进行编辑,对实验平台内具体到每一个数据类型的实验项目进行选择增加,任务列表完成后对需要参加可课程安排的学生进行选择确认。该功能从对不同学生进行不同类型的针对性的课业安排的训练,达到了精准化个性化教学的目的。

教学计划列表界面图



强制模式管理界面图



课程考核管理界面图



实验报告列表界面图



3.2.12 在线考试管理功能

在线考试管理功能支持教师组织校内考试使用,主要以选择题为主,包括考试进度,题目信息,倒计时,题目导航等功能,系统自带1000道大数据分析题目,后台支持用户批量导入考题。
在线考试管理功能包含考场管理、试卷管理、考题管理和成绩管理四个方面。教师通过考场管理功能可对考试班级进行新增以及管理考试名称、试卷、开始时间、考场排序和考试的简单说明等信息;同时可对进行本次考试的考生进行管理。考场和考生设定好之后对考试试卷以及相应的考题进行增删和修改。考试过程中或者结束后,教师可对本次考试成绩进行查看。


试题管理列表界面图



试卷管理列表界面图



考场管理列表界面图



成绩管理列表界面图



3.3 实验平台体系规划

实验平台可从功能模块、业务职位需求和难易程度上来进行体系的规划分类。按功能模块可以分为Hadoop类、Spark类、R语言、SAS语言、Python语言、基础类等类型;按业务需求可分为大数据架构师、大数据挖掘工程师、算法工程师、大数据产品经理、大数据分析师、大数据统计师、运维工程师、大数据仓库工程师、研发工程师、大数据编程师、大数据售前工程师、大数据售后工程师等方向;按难易程度可以分为基础类、安装类、挖掘类、分析类、存储类、综合案例等类型。


3.4 大数据实验课程内容

大数据实验类型包含实操实验、阅读实验和视频实验三大类型,实操实验类型是在实操虚拟机环境下依据实验指导书完成的实验;阅读实验是仅需阅读与系统答题即可;视频实验是不需要实操环境,仅靠学生阅读比较难以理解的内容,红亚与本方面专家合作制作的;三种实验类型结合授课,便于学生突破知识难点,更好的掌握知识技能。大数据实验内容包含Hadoop安装、Hive应用、Hbase数据库、Hadoop项目案例、Pig语言、Spark基础实验、Spark流式计算、Spark sql、机器学习spark mllib、spark案例、R语言基础编程、R语言统计与建模、R语言数据挖掘、R语言数据分析综合应用、SAS基础编程、R语言统计与建模、R语言数据挖掘、R语言数据分析综合应用、python语言基础、python可视化、python算法、python数据分析与挖掘实战、Java语言基础、C++、Excel数据处理、Excel高级编程、Mysql、Sql Server、Oracle、Linux基础、Mapreduce编程、pig语言、kafka、flume、mahout、ELK、Impla等实验模块。实验课程项目包括目的和原理,实验步骤,综合测验,实验操作,实验报告,虚拟机列表提供配套的操作教材,配套数据集,配套的算法代码等内容。这些内容的交叉组合可以实现针对不同专业与不同层次学生的实验课程设计。实验内容有十大课程体系60个模块共计600多个实验项目,采用实验管理系统,能够提供一个完整的、一体化的实验教学环境,从而打造出全方位的专业大数据教学平台实验室。




3.4.1 编程基础类实验

编程基础包含Python基础、R语言基础、Scala基础和Java基础四大模块共计82个实验项目。Python基础模块首先从Python的安装开始,随后介绍了Python的基础知识和基本概念,包括列表、元组、字符串、字典以及各种语句;然后循序渐进地介绍了一些相对高级的主题,包括抽象、异常、魔法方法、属性、迭代器,同时介绍了Python程序测试、打包、发布等知识,从而发挥出Python的强大功能。R语言基础模块涵盖了R语言的社区和环境介绍;R语言的各种数据结构(单模式/多模式数据结构,日期、时间和因子);包括各种常用函数、实用函数和应用函数在内的R语言函数。Scala基础模块详细介绍Scala的一些基础知识,并和Java中的相关概念进行了参照,介绍在Scala中如何进行并发编程,方便读者快速上手Scala。Java基础让初学者能达到熟悉Java语言并灵活运用的程度。针对每一个所讲解的知识点都进行了深入分析,并使用生动形象的情境化举例,将原本复杂的、难于理解的知识点和问题进行简化,针对每个知识点,精心设计了相应的问题,让学习者不但能掌握和理解这些知识点,并且还可以清楚地知道在实际工作中如何去运用。

模块

章节

 实验

Python基础

Python基础

Python开发环境搭建

Python基本数据类型

Python变量

Python基本输入输出

Python模块

Python运算符与表达式

Python选择结构与循环结构

Python序列操作

Python列表常用方法

Python元组

Python列表解析式与生成器表达式

Python字符编码

Python字符串基本操作

Python字符串格式化

Python字符串方法

Python正则表达式与re模块

Python字典创建与使用

Python字典方法

Python集合创建与使用

Python集合常用运算

Python文件基本概念

Python打开与关闭文件

Python文件对象基本方法

Python数据序列化与反序列化

Python文件与文件夹基本操作

Python函数的定义和调用

Python函数参数

Python变量作用域

Python函数返回值

Python函数嵌套定义、闭包、装饰器

Python类的定义和使用

Python构造方法与析构方法

Python成员访问权限

Python继承

Python异常概念与常见表现形式

Python常见异常处理结构

Pythonraise语句

R语言基础

R语言基础

R语言开发环境搭建

对象与属性

向量

矩阵和数组

列表

数据框

构建子集

lapply函数

apply函数

mapply函数

split函数

tapply函数

排序

Scala基础

Scala基础

Scala开发环境搭建

Scala控制结构和函数

Scala数组相关操作

Scala映射与元组

Scala类与对象

Scala包管理

Scala继承

Scala文件和正则表达式

Scala特性

Scala操作符

Scala高阶函数

Scala集合

Scala模式匹配和样例类

Scala注解

Scala类型参数

Scala高级类型

Scala隐式转换和隐式参数

Java基础

Java基础

Java开发环境搭建

Java的类与对象

Java标识符、关键字与运算符

Java基本数据类型

Java流程控制

Java继承与多态

Java抽象与接口

Java内部类

Java异常处理

Java集合类

Java基础类库

Java泛型

Java的输入与输出

Java多线程

Java数据库操作






3.4.2 数学基础类实验

一谈到大数据技术,很多人首先想到的是数学,因为数字在数学体系中稳固的位置,而大数据技术也和数学紧紧地结合在一起。数学基础共计信息论、线性代数、概率论与数理统计、数值计算和最优化方法五大模块31个实验项目。信息论包含熵、联合熵、条件熵、相对熵、互信息、最大熵模型;线性代数包含标量、向量、张量、范数、矩阵、特征分解、几种常用距离计算;概率论与数理统计包含随机变量、概率分布、贝叶斯公式、期望、方差、协方差、常见分布函数、最大似然估计;数值计算包含数值计算概述、上溢和下溢、计算复杂性与NP问题;最优化方法包含最优化理论概述、最优化问题的数学描述、凸集与凸集分离方法、梯度下降算法、共轭梯度法、启发式优化方法、牛顿法和拟牛顿法。

信息论

信息论

联合熵

条件熵

相对熵

互信息

最大熵模型

线性代数

线性代数

标量

向量

张量

范数

矩阵

特征分解

几种常用距离计算

概率论与数理统计

概率论与数理统计

随机变量

概率分布

贝叶斯公式

期望

方差

协方差

常见分布函数

最大似然估计

数值计算

数值计算

数值计算概述

上溢和下溢

计算复杂性与NP问题

最优化方法

最优化方法

最优化理论概述

最优化问题的数学描述

凸集与凸集分离方法

梯度下降算法

共轭梯度法

启发式优化方法

牛顿法和拟牛顿法





3.4.3 Linux基础类实验

Linux系统是开源软件,其可靠性得到肯定,是当今举世瞩目、发展最快、应用最广的主流软件之一。在服务器平台、嵌入式系统和云计算系统所运行的操作系统中,Linux占很大比重。各国政府对Linux的开发和应用给予很大关注,全球软件业和厂商都以极大热情和资金投入Linux的开发。现在学习和应用Linux成为众多计算机用户和学生的首选。Linux基础实验包含Linux系统概述、字符操作环境、Linux文件系统、进程管理、常用命令介绍、用户管理、系统监控与备份、软件包管理、管理网络服务共计九个章节32个实验。


Linux基础

Linux系统概述

Linux简介

Linux应用领域

Linux优势

字符操作环境

使用Shell

字符编辑器VI

Linux文件系统

Linux文件

ext3文件系统

安装和卸载文件系统

进程管理

Linux进程概述

进程控制命令

常用命令介绍

目录操作

文件操作

磁盘操作

文本编辑

帮助命令

用户管理

Linux用户账户概述

管理用户和群组

命令行配置

用户管理器配置

系统监控与备份

显示系统进程

查看硬件信息

查看日志文件

备份与恢复

软件包管理

RPM概述

RPM的使用

检查软件包签名

软件包管理工具

管理网络服务

守护进程服务

网络配置文件

配置FTP服务

配置邮件服务器

Apache服务器






3.4.4 数据库基础类实验

数据库已是当今信息社会须臾不可脱离的重要工具,数据库的教学也就成为计算机科学与技术专业的一门必修课程。数据库基础类实验包含excel、mysql、oracle、mongodb、redis+memcache和sqlLite共计六大模块55个实验。

Excel

Excle

Excel函数与公式

Excel数据统计与汇总

VBA程序基础

VBA数据类型

VBA流程控制

VBA综合应用

mysql

Mysql

MySQL简介与安装

MySQL创建连接

MySQL操作数据库

MySQL操作数据表

MySQL操作数据

MySQL条件限定与正则表达式

MySQL表的连接

MySQL排序、分组与过滤

MySQL结果合并

MySQL函数

MySQL导入与导出

oracle

Oracle

Oracle简介与安装

Oracle数据类型

Oracle数据表管理

Oracle基本查询

Oracle单行函数

Oracle分组函数

Oracle多表查询

OraclePLSQL

mongodb

MongoDB

MongoDB简介与安装

MongoDB创建连接

MongoDB操作数据库

MongoDB操作集合

MongoDB操作文档

MongoDB条件操作符与正则表达式

MongoDBLimitSkip方法

MongoDB排序与聚合

redis+memcache

Redis

Redis简介、安装与配置

Redis命令

Redis

Redis数据类型

Redis基数统计

Redis服务器与连接

memcached简介与安装

memcached连接

memcached存储

memcached查找

memcached统计

sqlLite

SQLite

sqlLite简介与安装

sqlLite创建连接

sqlLite操作数据库

sqlLite操作数据表

sqlLite操作数据

sqlLite条件限定与通配符

sqlLite表的连接

sqlLite排序、分组与过滤

sqlLite结果合并

sqlLiteExplain细节描述

sqlLite函数





3.4.5 Spark数据处理类实验

Spark 最早的一部分用户来自加州伯克利分校的其他研究小组,其中比较著名的有 Mobile Millennium。作为机器学习领域的研究项目,他们利用 Spark 来监控并预测旧金山湾区的交通拥堵情况。仅仅过了短短的一段时间,许多外部机构也开始使用 Spark。如今,有超过50个机构将自己添加到了使用 Spark 的机构列表页面。在 Spark 社区如火如荼的社区活动 Spark Meetups和 Spark 峰会中,许多机构也向大家积极分享他们特有的Spark应用场景。Spark数据处理类实验包含Spark基础、数据读取与存储、Spark程序结构、Spark流式计算、Spark SQL、Spark与机器学习、GraphX、11个案例分析共计八大模块82个实验项目。

Spark基础

Spark简介

Spark介绍

Spark体系架构

Spark的安装与配置

Spark运行模式

Spark生态系统BDAS

Spark核心概念

RDD弹性分布式数据集

RDD的依赖关系

RDD共享变量

Spark优化

RDD编程

创建RDD

转化操作

行动操作

惰性求值

传递参数

持久化

Pair RDD的创建

Pair RDD的转化操作

Pair RDD的行动操作

数据分区

数据读取与存储

文件系统

Amazon S3的读取与存储

HDFS中的读取与存储

数据库

Cassandra

Elasticsearch

HBase

Java JDBC连接

文件格式

文本文件的读取与存储

JSON文件的读取与存储

CSVTSV文件的读取与存储

序列文件的读取与存储

对象文件的读取与存储

Hadoop的输入输出读写

压缩文件的读取与存储

Spark程序结构

Spark程序结构

Spark架构设计

Spark算子分类

Spark核心组件

Spark程序执行基本流程

Spark流式计算

Spark流式计算

Spark Streaming介绍

Spark Streaming架构

Spark Streaming部署

Spark Steaming编程

Spark streaming性能调优

FlumeKafkaSpark Streamng结合使用

Spark SQL

Spark SQL

Spark SQL介绍

Spark SQL架构

DataFrame

Spark SQLShell

Spark SQLUDF使用

Hive UDF

JDBC操作MySQL

Spark SQL性能调优

网站日志分析实例

Spark与机器学习

Spark Mllib

特征提取和转化

降维操作

协同过滤算法原理及使用

FP-growth算法及使用

Spark机器学习的优势和潜力

Spark MLlib的数据类型

线性回归算法原理与使用

逻辑回归算法的原理及使用

支持向量计算法原理与使用

朴素贝叶斯算法原理与使用

决策树算法原理与使用

随机森林算法原理与使用

K-Means算法原理与使用

GraphX

GraphX

GraphX简介

Graphx常用数据结构

GraphX图算法

GraphX属性图

GraphX图操作符

GraphX Pregel API

PageRank算法实战

案例分析

案例分析

网络日志分析

电商广告案例

实时路况案例

黑名单案例

性别预测案例

年龄预测案例

垃圾邮件案例

图片分类案例

电影推荐案例

推荐系统案例

金融数据分析案例




3.4.6 Python数据处理类实验

Python是当今炙手可热的数据分析工具,是一种面向对象的解释型计算机程序设计语言,拥有丰富和强大的库,已经成为继Java、C++之后的第三大语言。其特点是简单易学、免费开源、高级语言、可移植性强、面向对象,具有可扩展性、可嵌入性、丰富的库、规范的代码等。 Python数据处理类实验包含Python基础知识、Python爬虫、使用pandas进行数据处理、可视化技术与matplotlib、Python相关算法和模型调优与实战共计六大模块110个实验项目。

Python基础知识

Python基础简介

Python语言概述

为何学习Python语言

Python主要应用领域

Python开发环境搭建

初识Python

Python基本数据类型

Python变量

Python基本输入输出

Python模块

Python运算符与表达式

Python选择与循环结构

Python猜数字游戏

列表与元组

Python序列操作

Python列表常用方法

Python元组

Python列表解析式与生成器表达式

字符串与正则表达式

Python字符编码

Python字符串基本操作

Python字符串格式化

Python字符串方法

Python正则表达式与re模块

字典

Python字典创建与使用

Python字典方法

集合

Python集合创建与使用

Python集合常用运算

文件操作

Python文件基本概念

Python打开与关闭文件

Python文件对象基本方法

Python数据序列化与反序列化

Python文件与文件夹基本操作

函数5

Python函数的定义和调用

Python函数参数

Python变量作用域

Python函数返回值

Python函数嵌套定义、闭包、装饰器

面向对象

Python类的定义和使用

Python构造方法与析构方法

Python成员访问权限

Python继承

异常处理结构

Python异常概念与常见表现形式

Python常见异常处理结构

Pythonraise语句

Python 爬虫

爬虫初识

爬虫简介

爬虫应用场景

爬虫基本工作原理

网络请求基础

TCP/IP协议

HTTP请求格式

HTTP常用请求头

响应状态码

浏览器发送HTTP请求的过程

cookiesession

使用Python发送网络请求

Requests模块介绍

使用Requests发送post请求

使用Requests发送get请求

使用Requests发送带Header请求

使用Requests发送带参数请求

Python爬虫实战

XPATH介绍及节点选择

LXML介绍及使用

对抗反爬虫措施

网站数据爬取实验

IP代理数据爬取

使用pandas进行数据处理

基础概念

SeriesDataFrame简介

DataFrame常用属性方法

数据访问

读写文件

数据清洗

缺失值处理

重复值处理

异常值处理

数据集成

使用键参数的DataFrame合并

轴向连接

数据变换

利用函数或映射进行数据转换

替换值

重命名轴索引

离散化和面元

可视化技术与matplotlib

可视化与Matplotlib

绘制折线图

绘制散点图

绘制饼状图

绘制柱状图

绘图区域分割

结合pandas进行数据可视化

Python相关算法

分类与预测

Logistic回归分析

决策树

K近邻分类算法

人工神经网络

支持向量机

随机森林

常用聚类分析算法

K-Means聚类算法

系统聚类算法

DBSCAN聚类算法

关联规则算法

Apriori算法简介

Apriori算法应用

协同过滤算法

基于用户的协同过滤算法

基于物品的协同过滤算法

时间序列数据分析

时间序列预处理

平稳时间序列分析

非平稳时间序列分析

Python主要时序模式算法

离群点检测方法

离群点检测概述

基于密度的离群点检测方法

基于聚类的离群点检测方法

基于距离的离群点检测方法

数据降维

数据降维概述

常用降维方法简介

模型调优与实战

模型评估与调优

模型评估和调优的意义

评估指标

模型调优建议与注意事项

数据分析与挖掘实战

电子商务的智能推荐

财政收入分析

电商产品评价分析

电力窃漏识别分析

电器使用情况分析





3.4.7 Hadoop平台类实验

学习不错分析技术并利用现有工具包使分析应用更加强大、准确和高效!Hadoop数据分析使用Hadoop生态系统设计和构建大数据系统将架构、设计及实现信息恰当地融为一体。Hadoop平台类实验包含Hadoop基础、分布式存储HDFS、MapReduce编程模型、数据仓库Hive、数据库HBase、Pig语言、ZooKeeper、Kafka、Flume、Mahout、Storm、ELK、Impala、8个项目案例共计十四大模块84个实验项目。

Hadoop基础

Hadoop初识简介

Hadoop介绍

Hadoop体系架构

Hadoop软件安装及配置

单节点伪分布式安装

分布式存储HDFS

分布式存储HDFS

HDFS安装

HDFS的相关概念

HDFS文件存储机制

HDFS的数据存储管理

HDFS的数据读写过程

MapReduce编程模型

MapReduce编程模型

MapReduce简介

MapReduce架构

MapReduce接口类

MapReduce代码编程

MapReduce经典案例—WordCount

分布式资源调度系统YARN的安装

MapReduceYARN命令

Hadoop数据仓库Hive

Hadoop数据仓库Hive

Hive简介

HiveDDL

HiveDML

Hive UDFV1.0

Hive数据清洗项目

Hive统计UV项目

Hadoop数据库Hbase

Hadoop数据库Hbase

HBase简介

HBaseshell应用v2.0

使用Hive操作HBase

HBaseJavaAPI应用

HBase学生选课案例

HBase微博案例

Pig语言

Pig语言

Pig简介

Pig的安装与运行

命令行交互工具Grunt

Pig数据模型

Pig Latin基础知识

Pig Latin关系操作

Pig Latin高级应用

ZooKeeper

ZooKeeper

Zookeeper简介

Zookeeper工作原理

Zookeeper安装与配置

Zookeeper基本操作实例

集群管理

共享锁

队列管理

Kafka

Kafka

Kafka简介

Kafka工作原理

Kafka安装与配置

生产者消费者实例

Flume

Flume

Flume简介

Flume架构与工作原理

Flume安装与配置

案例:Avro

案例:Spool

案例:Exec

案例:Syslogtcp

Mahout

Mahout

Mahout简介

推荐算法

聚类算法

分类算法

使用Mahout构建职位推荐案例

Storm

Storm

Storm简介

Storm架构与运行原理

Storm安装与配置

Storm入门实例

Storm日志分析实战

ELK

ELK

ELK简介

安装与配置Elasticsearch

安装与配置Logstash

安装与配置Kibana

处理JSON格式Nginx日志

处理Nginx日志

处理Apache日志

处理Twitterdingyue

纽约交通事故数据分析

美国联邦选举委员竞选捐款数据分析

Impala

Impala

impala简介

数据库语句

impala table操作

Hadoop项目案例

Hadoop项目案例

QQ好友推荐算法

RageRank算法

Tf-Idf算法

数据关联案例

ETL案例

PV UV统计案例

用户流失和新增案例

Hadoop总结





3.4.8 SAS数据分析类实验

SAS引导大数据时代的发展,产品线覆盖了数据分析的各个方面,包括高性能分析、可视化分析和云计算等诸多新领域。SAS数据分析类实验包含SAS基础简介、SAS数据导入导出、条件判断和循环语句、SAS数据可视化、SAS统计与建模、SAS数据挖掘和SAS数据分析综合应用共计七大模块36个实验项目。

SAS基础简介

SAS基础简介

SAS概述

为何学习SAS

SAS主要应用领域

SAS的特点及模块组成

SAS软件基本介绍

SAS编程基础——逻辑库与数据集

SAS数据导入导出

SAS数据导入导出

读数据和生成数据集

写数据

导入数据

导出数据

条件判断和循环语句

条件判断和循环语句

SAS语句的基本组成

条件判断语句

循环语句

SAS数据可视化

SAS数据可视化

图形绘制

条形图

饼图

散点图

箱形图

使用图形界面绘图

图形编辑

SAS统计与建模

SAS统计与建模

描述性统计

置信区间和假设检验

线性回归模型

广义线性回归模型

方差分析

SAS数据挖掘

SAS数据挖掘

主成分分析

因子分析

聚类分析

判别分析

相关分析

生存分析

SAS数据分析综合应用

SAS数据分析综合应用

建立营销响应模型

预测股票价格

建立信用评分模型

预测门店销售额

人口教育情况分析





3.4.9 深度学习类实验

深度学习是机器学习的一个分支,它能够使计算机通过层次概念来学习经验和理解世界。因为计算机能够从经验中获取知识,所以不需要人类来形式化地定义计算机需要的所有知识。层次概念允许计算机通过构造简单的概念来学习复杂的概念,而这些分层的图结构将具有很深的层次。 深度学习类实验包含神经网络、训练技巧和TensorFlow实战三大模块共计30个实验项目。

经网络

神经网络

人工神经网络介绍

激活函数与线性不可分

优化算法

参数初始化

超参数设计

前馈神经网络

网络结构

线性回归训练

神经网络训练

卷积神经网络

卷积基本概念

卷积核

卷积层其他参数

池化层

SOFTMAX函数与交叉熵

经典CNN网络

卷积神经网络的应用场景

循环神经网络

隐马尔可夫模型

RNNBPTT算法

LSTM算法

循环神经网络的应用场景

训练技巧

训练技巧

过拟合与欠拟合

防止过拟合方法

梯度消失

学习率和自适应学习率调整

TensorFlow实战

CNN实战

CNN数字识别系统实战

CNN花卉识别系统实战

CNN语音识别实战

CNN图片分类实战

RNN实战

RNN数字识别系统实战

RNN花卉识别系统实战

聊天机器人实战





3.4.10 机器学习类实验

机器学习(MachineLearning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。机器学习类实验包含机器学习基础知识、TensorFlow的基础操作和机器学习算法三大模块共计30个实验。

机器学习基础知识

机器学习基础知识

机器学习介绍

常用机器学习模型

线性回归模型

逻辑回归模型

损失函数

梯度下降

TensorFlow的基础操作

TensorFlow的基础操作

TensorFlow的安装

TensorFlow基础知识

计算图

建立回归模型

多项式回归实验

模型的保存与加载

模型参数可视化

机器学习算法

聚类算法

K-Means算法

有趣模式

层次聚类

密度聚类

聚类评估

分类方法

朴素贝叶斯

决策树归纳

随机森林

支持向量机SVM

遗传算法

关联分析

频繁模式

Apiriori算法

相关性分析

稀有模式和负模式

用户画像

标签

画像的方法

用户画像的使用





3.4.11 R语言数据处理类实验

R语言是一套完整的数据处理、计算和制图软件系统。其功能包括:数据存储和处理系统、数组运算工具(其向量、矩阵运算方面功能尤其强大)、完整连贯的统计分析工具、优秀的统计制图功能、简便而强大的编程语言,可操纵数据的输入和输出,可实现分支、循环,用户可自定义功能。 R语言数据处理类实验包含R语言基础、数据准备、R语言数据处理、R语言数据分析、R语言数可视化和R语言数据分析综合应用共计六大模块79个实验项目。

R语言基础

R语言简介

R语言概述与主要应用领域

为何学习R语言

R语言开发环境搭建

R语言数据结构

R语言数据类型

R语言数据结构的概念

Array数组和factor因子功能的使用

List列表和DataFrame数据框功能的运用

R语言程序结构

R语言向量化计算

对象改值

就地改值

逻辑值取双子集

缺失信息

R的记号体系

值的选取

发牌和洗牌实例

S类系统

S3系统简介与属性

泛型函数

方法

类、S3与调试

数据准备

R语言数据挖掘

数据挖掘简介

数据挖掘常见问题

数据挖掘流程

分类预测基本流程

R语言数据预处理

R语言决策树分类方法

R语言高级分类方法

R语言聚类分析与关联分析

智能推荐

时间序列

离群点检测

网页数据抓取

HTML数据抓取

JSON数据抓取

使用Google分析网页结构

R语言数据处理

R语言数据处理

R语言数据处理导入

导入参数匹配和R语言数据导出

重复值处理

缺失值处理

空格值处理和字段抽取

记录抽取和随机抽样

记录合并

字段匹配

简单计算和数据标准化

数据分组

日期格式处理

日期抽取

虚拟变量

R语言统计与建模

R语言常用概率分布和渐进性

R语言置信区间和假设实验

R语言单元线性回归模型

R语言多元线性回归模型

R语言广义线性回归模型

R语言数据分析

R语言数据分析

基本统计

对比分析

分组分析

分布分析

交叉分析

结构分析

相关分析

简单线性回归分析

多重线性回归分析

RFM分析

矩阵分析

R语言数可视化

R语言数据可视化

饼图

散点图

折线图

柱形图

直方图

箱线图

树形图

热力地图+地图

R语言数据分析综合应用

R语言数据分析综合应用

建立销售响应模型

预测销售额

水质评估

财政收入分析预测模型

骑车数据可视化分析

房价指数的分析与预测

电商评论情感分析

航空公司价值分析

游戏玩家付费行为预测

用户留存分析实战





3.4.12 大数据案例类实验

大数据正在改变我们的世界。互联网发展以及移动通信市场和相关技术的迅速扩张也已创建大量的数据包括结构化数据和非结构化数据。数据可用性和数据应用对商业和更广泛的社会领域带来了巨大影响。有效使用大数据有助于公司更精准地对重要信息进行分析很终提高运营效率、减少成本、降低风险、加快创新、增加收入。本平台详细介绍了大数据策略的规划和执行配以7个不同行业里不计其数的现实案例加以阐述。

大数据案例

数据分析生命周期概

数据分析概述

发现

数据准备

模型规划

模型建立

沟通与实施

数据采集

数据采集的原理

数据采集的实验步骤

数据清洗

数据清洗的原理

数据清洗的实验步骤

可视化工具

可视化工具:python

可视化工具:Echart

可视化工具:NodeBox

可视化工具:Inkscape

可视化工具:Open Layers

可视化工具:Leaflet

数据建模

数据与实验环境介绍

数据分析方法与过程

模型评估与优化

数据与实验环境介绍

数据分析方法与过程

出租车数据分析

数据与实验环境介绍

数据分析方法与过程

音乐分类

数据与实验环境介绍

数据分析方法与过程

知识图谱制作

数据与实验环境介绍

数据分析方法与过程

电影评论情感分析

数据与实验环境介绍

数据分析方法与过程

金融数据分析

数据与实验环境介绍

数据分析方法与过程

大型商场销售额预测

数据与实验环境介绍

数据分析方法与过程

NBA篮球比赛结果分析预测

数据与实验环境介绍

数据分析方法与过程





四、 数据安全保障科研箱

数据安全保障科研箱,是一台集成了四种处理器的实验箱,包括A8处理器、M4处理器、Z32处理器、FPGA编程板,可通过编程实现如下功能:密码机的条用与算法应用、安全应用系统设计、逻辑加密卡等功能。




4.1 科研箱项目列表

实验体系

实验内容

科研项目列表

项目一:嵌入式系统开发环境

项目二 :密算法与实现

项目三:12684液晶屏串行实验

项目四:SLE4428逻辑加密卡实验

项目五:SM3码杂凑算法程序设计

项目六:Web

项目七:M4FPGA通信实验




五、 大数据教学平台实验室建设优势

5.1 方案优势

大数据教学平台实验解决方案全面落实“产、学、用、监、评”一体化的思想和模式,从生产、教学、使用、监控、评估多方面注重专业人才和特色人才的培养。能够从大数据产业需求和发展的角度规划和建设智慧教育大数据实验室,真正在产业、学校及实际项目中相互配合,发挥优势,形成生产、学习、实践运用的系统运作模式。
实验室解决方案一方面能够提升学生的动手能力和实际运用能力,按照从理论学习到项目实践的方式增强学生大数据分析的能力与经验;另一方面还可以为教师提供良好的数据分析教学环境,提高学校教师工程化实践项目实施和管理经验。

5.2 技术优势

实验平台采用业内先进的云计算虚拟化技术,通过云计算虚拟化调度和管理实验室的存储与计算资源。学生实验所需的开发与操作环境均以虚拟化的方式提供,让学生进行大数据分析相关的开发与数据分析工作。实验平台可为每个学生分配独立的实验环境,并提供简单可用的开发环境与真实有效的数据资源。实验平台对计算复杂的大数据分析提供统一的Hadoop计算环境,并用可对环境中的学生资源进行有效管理。
平台采用了如下关键技术:
·  WebTerm技术
使用Web浏览器接入远程桌面,无需其它软件。
实验与课程在流程上结合得更紧密。
·  AutoDeploying技术
方便实验。通过CF卡上的网络安装程序,完成本地资源规划与软件部署,实现无人值守。
·   SelfRecover技术
借助虚拟化与自部署技术,在系统出现严重故障时,智能恢复。
·  SmartStatistics技术
实时读取数据库,智能分析与统计客户端操作,可视化展示分析结果,便于分析管理。
·  BottomMonitor技术
实时记录行为数据,并冗余备份,统计所有行为并在违规操作或危险时发出警告。


六、 校企合作人才培养

中共中央政治局2017年12月8日下午就实施国家大数据战略进行第二次集体学习,中共中央总书记习近平在主持学习时强调,要发挥我国制度优势和市场优势,面向国家重大需求,面向国民经济发展主战场,全面实施促进大数据发展行动,完善大数据发展政策环境。要坚持数据开放、市场主导,以数据为纽带促进产学研深度融合,形成数据驱动型创新体系和发展模式,培育造就一批大数据领军企业,打造多层次、多类型的大数据人才队伍。
“面对巨大的大数据人才缺口,需要产学研深度融合,企业也需要积极参与共同解决。2018年2月教育部6部门联合印发《职业学校校企合作促进办法》,对职业学校进行校企合作的合作形式、促进措施及监督办法作出了规定,职业学校和企业可以结合实际在人才培养、技术创新、就业创业、社会服务、文化传承等方面方面开展合作,在促进办法里提出,鼓励校企合作设置专业、联合开发课程、共同建设实训基地、就业机制、协助学生创新创业等。因此,建设一个专业,培育国家急需人才,校企合作是最佳模式,符合国家政策,符合市场需求,符合人才培养新模式。

6.1 红亚校企合作

校企合作是一个系统工程,涉及到各个层面,习总书记在十九大报告中指出的“完善职业教育和培训体系,深化产教融合、校企合作”。红亚科技把握机遇、 紧跟国家政策和时代步伐,积极探索“产教融合、工学结合、知行合一”的校企共建的育人机制,提出了校企合作的“12345”模式:
(1)一个导向
“以就业为导向”;
(2)两个依托
依托学校资源和企业技术,联合培养人才;
(3)三位一体
构建学校、企业、行业三位一体的合作平台;
(4)四个定制
根据行业需求,瞄准就业,定制专业化的课程体系;结合企业技术人员优势,给学校定制师资;根据每名学生的特点,定制培养方案;针对每位学生的专长和能力,定制化就业方向;
(5)五方互动
构建学生、教师、学校、企业、行业五方互动机制。

校企合作的12345运作模式


通过与院校合作共建大数据专业,红亚参与到合作院校的专业建设、人才培养、课程改革、教学方法创新、实训室建设、师资建设与提升、招生宣传、实习就业、运营管理等服务(见图),以快速提高人才培养质量,打造真正好招生好就业的特色品牌专业,助力于学校快速亮出品牌、亮出特色。


图  校企共建内容


6.2 人才培养方案建设

教育的精髓在于“就业导向、以人为本、因材施教”,校企共建专业人才培养方案应根据学生的特点及高等教育的目标对当前就业岗位进行任务进行分解,针对任务转换为职业能力,职业能力转为学习领域,并确认人才培训方案。


6.2.1 就业岗位分析

红亚科技通过企业多年来与不同行业企业合作,调研近千家合作企业对大数据人才需求,得出岗位群划分、岗位技术要求,如下表所示:

就业方向及岗位

数据分析类

数据预测分析

企业数据管理

数据安全研究

系统研发类

ETL研发

数据仓库研究

数据科学研究

应用开发类

Hadoop开发

可视化工具开发

信息架构开发

OLAP开发



6.2.2 专业课程规划

校企合作,即要充分利用企业的行业背景、学校多年的办学经验,从深处着手,不仅仅是职业技能上的要求,还有对行业的认知,对个人基本素养、职业素养上均提出了较高的要求,同时要求理论结合实际,对学生的动手能力有较高要求。课程规划如下
1.公共基础必修课程
(1)政治理论课
(2)通识文化课
2.专业基础必修课程
高等数学、线性代数、概率论与数理统计、离散数学、计算机科学概论、数据结构与算法、大学物理、大学物理实验、C 语言程序设计、电路与电子技术、数字逻辑与数字电路、数据库原理及应用、面向对象分析与设计、Linux 基础、计算机组成原理、软件工程、计算机网络原理。
3.专业模块课程(限制选修课,每个学生限选一个模块)
(1)数据挖掘
(2)大数据工程
(3)软件工程
4.专业任意选修课程 每个学生限选四门
5.公共选修课程(每生要选四门不同系列的课程,学分修够8学分)
全校自由选课,学期末或者学期初开始选择,课程对应不同学分,学生只要选上这门课程并获得学分,最终累积学分大于等于8分即可。


6.3 师资建设

6.3.1 师资队伍建设理念

校企共建的教师队伍建设旨在将教师队伍建设成为“理论+实践技能”的双师型师资队伍,既能满足学校的理论课程授课,又能满足技能实践、项目实训的要求。同时配套以业绩和能力为导向、科学合理的教师考核制度,用以激励教师的主观能动性。将本院校教师打造成具备良好理论基础,丰富的实践经验的高素质教师。

6.3.2 师资队伍建设办法

师资队伍建设是教学质量提升的核心,是学校办学实力的关键要素,红亚科技致力于帮助学校建设一支“重技能,重实践”的教师队伍,培养一批教学骨干,成为专业发展的中坚力量。学校专职教师与企业兼职教师协作,推进专业整体理实一体化教学,学校教师充分发挥在教学理论、教学经验丰富的优势,结合向企业外聘教师的新方法、新技术、新技能、生产流程等经验,寒暑期至企业顶岗实践,引入企业师资交流学习,通过校企双方不断深入的合作,进而构建出具有特色的双师型教师队伍。
1) 开展双师素质型教师队伍建设
学校派遣教师每年利用固定时间,进入企业开展顶岗实践,顶岗实践教师深入企业各个部门进行实践,对业务操作过程中的知识点,以及相关岗位人员所需掌握的技能进行了详细的了解,理论结合实际。同时,企业派遣具有丰富工作经验、职业技能的项目经理、工程师进入学校,增强沟通和交流,打造双师素质型教师培养模式。
2) 派遣进入红亚科技开展师资培训
派遣专业教师每年利用寒暑期时间,参与企业组织的职业教育高职教师培训,参训期间教师可以学习企业先进的管理理念、教学方法与技巧、同时了解红亚科技针对本科院校的信息化管理平台的使用方法,了解行业最新的发展趋势、不同岗位的技能要求、了解最前沿的技术,提升老师的理论结合实际的能力。
3) 推行教师职业技能认证
红亚科技利用自身的行业资源优势和认证培训经验,为大数据及相关专业教师提供系统培训,为教师全方位的提升技能。将合作院校教师提升成为学历教授能力和生产实践能力相结合的理论实践一体化人才。


6.4 实习就业平台建设

6.4.1 学生实习

理论结合实际,重实践、重动手是创新改革大数据专业教育的特色,实习环节是红亚科技公司设置大数据相关专业的重点及特色,参加顶岗实习的学生在工作期间有正式的工作岗位,要像正式员工一样承担一线的岗位职责,这是顶岗实习的重要特点。顶岗实习过程中,学生不仅接受学校教师的指导,而且还要接受企业文化的熏陶和企业委派的具有实践技能和经验的技师指导,与此同时,企业与学校保持密切联系,反馈学生顶岗实习情况。通过工作实践锻炼,有助于学生的快速成长和增强实际独立工作能力;有助于学生树立起竞争意识和吃苦耐劳精神。通过顶岗实习使学生所学的理论知识和生产实际相结合,有助于学生认识职业岗位,促进学生就业。


6.4.2 就业服务

教育规划纲要颁布实施近5年来,全国职业教育工作会议召开,《国务院关于加快发展现代职业教育的决定》出台以来,职业教育发展新的理念不断深化, “职业教育是国民教育体系和人力资源开发的重要组成部分,是广大青年打开通往成功成才大门的重要途径”,习总书记的这一重要指示,既描述了职业教育独特的地位和作用,也对职业教育就业服务体系建设提出了新的要求:“以服务为宗旨,以就业为导向,抓就业过程,搭建长效的就业服务跟踪体系”是红亚科技公司围绕高职院校打造就业服务体系的核心理念,就业服务内容:
①在校期间开设职业素养及就业相关课程,为学生就业安置提前准备;
②为学生提供一对一的职业规划,制定学习及就业方案;
③邀请企业相关负责人、工程师、就业明星返校交流;
④安排学生在不同学习阶段到企业参观、观摩学习工作流程;
⑤根据学生兴趣、技术能力划分就业方向,组织IT岗位专场招聘会;
⑥根据学生学习情况,实习反馈,有组织、有层次、有区别的提供不同岗位给每位学生,做到人人皆可获得适合自己心仪岗位的机会;
⑦建立长效的就业跟踪机制,采用“线上就业服务信息化平台+就业老师安置就业+学生教师远程指导”的形式协助学生度过就业前期的困难阶段,建立以月度为单位的就业跟踪回访机制,持续2-3年为学生提供就业服务,使学生能够度过初入职场前三年的困惑期。


6.5 学院品牌建设

6.5.1 专业品牌运营理念

多元化的院校教育是打破传统的单一办学体制、给教育注入新鲜血液的有效途径;红亚科技将牵线搭桥,不定期组织安排学院师生参加行业高峰论坛、大数据行业交流会、院校教育成果交流、学习心得体会,互通有无,知识共享,共同进步。使高校各个学科在人事管理机制、招生、专业设置、培养目标、办学特色等多方面,都更加适应市场经济,在教育中引入市场机制,面向市场服务社会,依靠质量求发展,应是院校得以持续发展的关键,因此,敏锐地感应市场经济的短期变化和中长期变化,以市场需求为准则设置学科专业,这是院校教育在市场化进程中的最重要的收获之一。


6.5.2 专业品牌运营内容

①针对高校办学现状开展深入调研,制定品牌报告;
②成立专家委员会,制定高校建设顶层设计方案;
③制定高校品牌、学科品牌、专业品牌形象提升方案;
④协助校方完成机制创新、体制创新工作;
⑤协助校方完成招生、教学、就业形象提升工作;
⑥协助校方完成科技成果、教学成果转化;
⑦协助校方完成课题基金申报


6.6 校园文化建设

6.6.1 校园文化建设理念

校园文化是学校发展的精髓和灵魂,是学校办学理念与综合实力的反映,也是突显学校办学特色和理念,提升学校竞争力和品牌的利器。立足学校实情,通过整合地域、学校、传统等文化资源,围绕校园文化与品牌建设的校园文化体系,全方位建设学校特色品牌文化。

6.6.2 校园文化建设内容

①视觉性校园文化景观建设
以学校的校名、校训、校旗、校徽等标志性事物和校园建筑、景观、布局等为主体,形成学校标准色等视觉形象系统,根据校企合作专业的特点和特色加以放大,制作特色门牌、迎宾墙、文化长廊等,以学院VI为前提,为学院将其应用于胸卡、门贴、画廊、名片、信封、贺卡、PPT模板制作文化产品等。用视觉传达给教师、给学生。
②校园文化活动
协助学校组织、策划校园文化活动,以活动为载体,构建校园文化系列主题,举办校园文化艺术节、读书节、达人秀、十佳歌手等活动,培养学生的校园文化理念。同时,还可以开展校园文化讲坛、沙龙等活动,从校园文化的主流价值去引导师生共同成长。丰富的校园文化活动给学生提供一个展现自我、超越自我的舞台,使学生学会探索与开拓,在继承与发展中健康成长、成才。


七、 技术服务

多年来,公司秉承“用户至上、伴随保障、全程服务、追求完美”服务理念,为用户全面优质高效服务。我们为用户提供的不仅仅是单一的产品,更注重于从用户的实际情况及未来发展需求出发,提供一整套完美的解决方案。
北京红亚华宇科技有限公司拥有一支专业的技术服务队伍,包括有多年实际工作经验的资深系统工程师、软件研发人员、测试工程师、售前技术人员、售后实施及维护人员,他们能够深入了解用户需求,以最佳方案真诚为用户提供优秀服务。除依靠自身的技术力量以外,北京红亚华宇科技有限公司还通过与上海交大及其它合作伙伴亲密合作,不断加强自身能力建设,有效保证客户项目顺利进行。


7.1 售前技术服务

项目实施前,公司售前技术人员会根据用户需求提供一套系统建设方案,并在与用户分析现有的技术环境及长期建设目标的基础上,为用户设计出最佳解决方案。
此外,根据用户的具体情况,售前技术人员必要时可搭建演示环境,提供北京红亚华宇科技有限公司相关解决方案产品的演示,以便用户更深了解项目建设情况;同时,售前技术人员还为用户提供相关的技术咨询和方案设计,为用户提供新建系统与已有系统的整合方案,保护用户已有的投资。售前技术人员作为用户项目团队的一个重要组成部分,其掌握的用户信息将一直共享到项目的最终实施,以保障项目的成功。


7.2 技术培训

针对本文的解决方案,我们将在建设项目移交给用户运行前对最终用户进行相关的技术培训,此外,每次的系统升级或者根据用户的要求,我们将提供不定期的技术培训服务。该类技术培训主要分为以下两部分:
(1) 操作用户培训:针对系统日常运行操作进行集中培训,对于实训平台而言,培训对象主要是授课老师,内容为日常实验教学操作步骤等。
(2) 系统管理用户培训:针对系统日常管理、维护、安装进行培训,对于实训平台而言,培训对象为实验室技术管理人员,内容为系统常见技术问题处理方式等。


7.3 售后技术服务

北京红亚华宇科技有限公司组建了一支专业的售后技术服务队伍,这支队伍包括网络工程师、大数据工程师、系统工程师等,他们负责进行用户项目的现场实施,同时接受用户系统日常运行过程中的技术咨询和维护服务。北京红亚华宇科技有限公司的售后服务可以做到:
(1) 协助计划
在项目实施之前,售后(售前)技术服务人员向用户提供项目实施的前提条件,包含网络环境要求、软硬件要求等。
对于用户购买的硬件和软件,在设备到达安装现场之后,售后技术人员将协助用户进行设备的安装、调试及验收。
(2) 现场服务
根据用户需求及合同规定的时间,售后技术人员将在用户现场进行项目实施,包含软硬件设备的安装、调试及验收,帮助用户顺利掌握系统,尽量减少项目实施周期,实现系统的无缝交接。
对由于硬件质量问题造成的硬件损坏,如在保修期内或与我方兼有相关的技术服务合同的,北京红亚华宇科技有限公司将提供现场服务,维修更换相应的硬件。对有效合同内的软件故障,用户应将故障现象及出错信息通过电邮、信件或传真等通知我们,我方根据故障等级做出不同时间级别的相应,并给予解答。不能远程解决问题时,我方将派技术人员到达用户现场进行实地解决。
(3)热线支持
北京红亚华宇科技有限公司提供全天热线技术支持,包括电子邮件、电话、传真等方式(每周 7 天、每天 24 小时)。全天热线技术支持体系,可使我们的用户最短时间内,快捷方便的得到北京红亚华宇科技有限公司的技术咨询及服务。


八、 公司简介

8.1 公司概况

北京红亚华宇科技有限公司成立于2012年,位于高校云集的中关村核心区域。主要从事大数据领域的成果转化、技术开发和咨询服务,致力于成为国内高等院校大数据实验室解决方案专业的供应商。
公司的主要成员均在教育领域耕耘多年,既有丰富的实验教学经验,又有丰厚的技术开发经验。不仅能够为客户提供高质量的产品,还能在了解客户需求的前提下提供顾问式服务。我们可以为用户提供大数据实验室建设的规划、方案设计、系统建设、培训维护等服务;同时,也为学校提供师资培养、教材建设。
迄今为止,公司的前身承担了国家级项目(包括973、863、国家自然科学基金、国家发改委)超过20余项、省部级项目(北京市、军队、国家各相关部委)超过100余项,各种企事业单位的横向课题超过500项,积累的各类标准提案数十个,已获批准的专利超过50余项。

8.2 我们的用户

上海交大、四川大学、厦门大学、吉首大学、吉林师范、华南农业、上海工程技术应用大学、新余学院、徐州工学院、河南农业、北方工业大学、劳动关系学院、安徽理工大学、大连理工大学、北京科技大学、广州工业大学、湖北中医药大学、北京警察学院、吉林建筑大学、上海商学院、曲阜师范大学,重庆交通大学


8.3 典型案例

8.3.1 上海交大

2015年上海交大利用自己的科研成果大数据实验平台系统建设了大数据教学实验室。




8.3.2 四川大学

2016年四川大学开设了配套大数据教学的实验室,采用的是我司的大数据实验平台系统。




8.3.3 厦门大学

厦门大学大数据教学实验室建设于2016年,采用的是我司的大数据实验平台系统。




8.3.4 吉首大学

吉首大学大数据教学实验室建设于2016年,其大数据教学实验平台采用的是我司的大数据教学实验系统。




8.3.5 吉林师范大学

2016年,我司为吉林师范大学的数值模拟省级重点实验室的建设提供大数据实验教学系统。



上一篇:没有了!

下一篇:没有了!

在线咨询

点击这里给我发消息 售前咨询专员

点击这里给我发消息 售后技术支持

在线咨询

在线留言

24小时免费咨询

请输入您的联系电话,座机请加区号

在线留言

微信扫一扫

微信联系
返回顶部