大数据实验室建设方案-科米讯大数据-翎科智慧科技-打造综合的云计算业务平台,为各行各业提供解决方案及技术服务

一、背景

1.1 大数据行业背景和发展趋势

近年来，大数据受到我国政府的高度重视和大力支持。2015年8月31日，国务院印发《促进大数据发展行动纲要》（国发〔2015〕50号），标志着将大数据纳入国家战略层面。根据前瞻产业研究院《2014—2018年中国大数据产业发展前景与投资战略规划分析报告前瞻》中的数据显示，大数据产业在2012年的市场规模已经达到4.5亿元，经过估算，2014年将会迅速增加到15亿元，2015年更是达到100亿元的产业规模，大数据市场在未来几年将继续以超过100%的年均复合增长率增长，2016年千亿级的大数据产业将会成为最有竞争活力的新型产业之一。
在传统的数据分析与商业数据挖掘中，人们通常遵循二八原则。也就是任务20%的用户提供了80%的价值，因此利用优势资源用户对于少数用户的服务。随着互联网的发展，越来越多的低价值用户进入到商业体系中，这部分用户成为商业企业竞争的目标。比如电商行业，大量顾客都是传统意义上的低价值客户，数据表明对于这部分用户价值的挖掘可以改变二八原则，甚至可达到价值的几乎均匀分布。并且由于计算机技术的发展，对于大数据的分析也成为了可能。
大数据本质上是庞杂数据的集合，其主要特征是信息容量巨大、数据类型繁多、存取速度快、应用价值高。如何从数量巨大、来源分散、格式多样的数据中提取有用的信息，发现新的知识，创造新的价值，成为新一代信息技术革命面临的重大课题。大数据在全球经济竞争和科技发展中占有举足轻重的地位。因此，高职院校必须紧跟当前科技的发展步伐，进行大数据检测与收集、大数据存储与处理等方面人才的培养，以技能型人才的需求为导向，大力培养大数据应用技术专业技能型人才，满足支撑社会经济发展的大数据岗位所急需的紧缺性人才需求。

1.2 大数据教学平台实验室建设的必要性

院校开设数据科学与大数据技术专业，符合当今社会经济发展对专业技能型人才的需要。院校应当按照大数据专业的建设规划，从人才培养模式、人才培养方案、课程体系、实习实训体系、技能评估能力、教学监控管理、教学资源建设、师资队伍等方面采取有效措施，加快建设步伐，努力提高数据科学与大数据技术专业的办学水准。
大数据相关专业是以计算机为基础，以挖掘、分析为主，以搭建、工具使用为辅，紧密面向行业应用的一门综合性学科。其方向有数据科学与大数据技术、概率论与数理统计、数据挖掘与数据分析、数据运维与开发、算法与数据结构、计算机网络、并行计算等多个专业方向，因此该专业对于实验室具有较高的专业要求。实验室不仅要提供基础的开发环境，还需提供大数据的环境搭建方法、挖掘算法、分析知识、数据存储、运算环境以及用于实验的大数据生命周期类真实案例。这些实验素材的准备均需专业的大数据实验室作为支撑。
目前，在我国高校的专业设置上与平台搭建、数据挖掘、大数据开发、大数据分析、数据存储实验相关的学科专业包括：计算机科学与技术、信息管理与信息系统、数理统计、金融、经管、医疗、人文地理、城乡规划、贸易、生物信息以及公共卫生等。这些专业的学生需要从原理、技术与应用等不同的角度掌握大数据平台搭建的方法与原理、挖掘的算法与技巧、分析的理论与分析知识、存储的工具与要求。学生要很好地掌握这些课程，除了课堂学习，通过实验来加深理解和提高实际应用操作能力也是主要途径。调查表明，大数据的环境搭建方法、挖掘算法、分析知识、数据存储、运算环境以及用于实验的大数据生命周期类真实案例都无法在我国高校现有的实验室中完成。因此，建设专门的基于云模式的智慧教育大数据实验室就显得非常重要。

二、大数据教学平台实验室设计理念及目标

2.1 实验室设计理念

基于云模式的智慧教育大数据实验室的设计全面落实“产、学、用、研、监、评”一体化的思想和模式，从教学、实践、使用、科研、监控、评估等多方面注重专业人才和特色人才的培养。学生可以通过在实验室的学习熟练掌握大数据的基础知识,通过掌握的知识在大数据课程实验中进行动手实践，更好的完成专业课程学习及人才岗位对接实训。
本实验室建设方案融合数据挖掘与大数据分析专业教学、实训、案例实战等各层次实践教学，能够从面向大数据分析、大数据运维、大数据开发、大数据建模、大数据可视化、数据处理与分析、模型建立与优化等行业需求和促进学生职业发展的角度规划和建设基于云模式的智慧教育大数据实验室，真正在产业、学校及实际项目中相互配合，发挥优势，形成生产、学习、实践、运用、监控、评估的系统运作模式，从而建设大数据特色专业。
利用虚拟化教学资源，搭建实训平台和实战平台，将理论学习、实践教学和大数据搭建、数据挖掘、存储、建模、分析、优化、可视化、挖掘、分析实战融为一体，从易到难、循序渐进，逐步提升学生的学习技能和实践水平，提高“学”的质量和成效。定制专业化技能评估与教学监控功能，将学生的学习情况、专业喜好、适用岗位形成报告模版。秉承着“精准、先进、创新”的原则，实时监控学生操作，分析学习情况，评估学生知识水平，从而减轻学校及教师的压力。首先，依据监控实况教师进行精准化教学，免去非必要的讲解，节省了教师们大量的时间。其次，分析评估报告，把握学生学习动向，带有专业方向地进行指导教学。最后，推送功能将大数据公司需求模版与评估报告相匹配，若匹配度高度吻合，将直接进行推送，减轻学校为学生们的就业负担。
利用大数据分析主流软件框架，搭建与业界主要用户一致的实验环境，将理论课程中学到的平台搭建方法、数据挖掘算法、数据分析知识、数据存储工具运用到实际的大数据分析案例实验中，提升学生的动手操作和项目实践能力。使得学生所学与企业项目人才需求无缝衔接，与教师的教学工作紧密配合。

2.2 大数据教学平台实验室建设目标与特色

2.2.1 实验室建设目标

大数据指的是所涉及的数据量规模巨大到无法利用目前主流软件工具，在合理时间内达到采集、管理、处理、并整理成为帮助企业经营决策更积极目的的数据信息。大数据技术的战略意义不在于掌握庞大的数据信息，而在于对这些含有意义的数据进行专业化处理。换言之，如果把大数据比作一种产业，那么这种产业实现盈利的关键，在于提高对数据的“加工能力”，通过“加工”实现数据的“增值”。因此智慧教育大数据实验室重点培养学生对于平台的搭建、数据的挖掘、存储与数据的分析能力。由此可见，大数据教学过程中包含平台搭建、数据获取、数据处理、模型建立、数据分析、模型优化、可视化等部分的内容。学生首先要平台搭建的方法与技巧，其次掌握数据挖掘的基本理论与算法，接着要掌握大数据处理的框架与平台，进而掌握针对大数据的数据分析方法，最后选择适用的数据库进行数据存储管理。因此本实验室建设主要内容包括平台搭建安装、数据挖掘、数据存储、模型建立与优化、数据分析与可视化实验。同时，还包括了基础语言类和基础系统类等基础类实验内容，为学生在学习大数据之前做好基础知识铺垫。
平台搭建安装实验是开始学习大数据的引入课程。通过对基本环境的部署和配置文件的修改，掌握接下来对数据进行挖掘与分析的原理。通过该类实验使得学生能够完成对于大数据分析平台的安装与搭建工作并具有Zookeeper、Hadoop及其一系列组件的运行维护能力。
数据挖掘部分的实验包括基本实验与算法实验两部分。基本实验用于给学生建立起数据挖掘的基本概念，展示常用的数据挖掘算法。以典型的应用数据为例，展示常用算法的分析效果。算法实验为学生提供编程框架，针对重要的数据挖掘算法进行实现。该部分实验以R语言、Python、SAS为开发环境，学生通过本实验室将掌握数据挖掘主要算法的实现方法。
大数据分析实验包括基本的大数据分析平台与算法实验以及典型实战数据分析实验两部分。大数据分析平台与算法实验包括平台配置与典型算法设计两大类，通过该类实验使得学生能够完成对于大数据分析平台的配置与初始化工作并具有基本MapReduce算法开发能力。典型实战数据分析实验，让学生利用真实的行业数据，完成大数据挖掘与分析，掌握数据挖掘与大数据分析的一般流程。
数据存储部分的实验提供了目前世界上三大主流数据库知识来学习。具体实验内容包括了数据库的安装、数据库的使用、数据库的维护调优以及数据库的二次开发。该部分实验包含MySQL数据库、SQL Server、Oracle数据库等相关知识内容，学生通过本实验室将掌握数据存储的操作方法。
基础类实验包括基本语言实验与基础系统实验两部分。基本语言类实验用于给学生在学习大数据语言之前奠定基础，该部分实验以JAVA、C++为主要内容。基础系统类实验使学生了解系统的管理与配置。该部分实验以Linux为学习系统，学生通过本实验室将理解基础语言与基础系统的使用方法。

2.2.2 实验室特色

1、大数据环境搭建与大数据算法实现相结合
大数据算法作为最新的算法分析技术具有完全不同的设计思路，算法开发过程对初次接触该部分内容的本科生而言有较大的难度，一方面是算法思想的新颖性，另一方面则是算法实现对于程序开发的能力要求较高。因此为了实验的顺利完成，需要给学生一个入门的过程，本实验室通过环境搭建以及基础性实验的过渡来实现的。本实验对于学生的要求是框架性的，学生可以在此基础上进行创新，此种模式可以用来激发和培养学生的创新意识和创新能力。
2、多梯度、层次式的步骤式实验
为了照顾和覆盖一些能力和兴趣存在着明显差别的学生群体，在设置特色实验的具体实验内容时，提供层次性、阶段性的开发目标，不同学生可以根据自己的能力差别选择合适的开发任务难度，而且在实验过程中，学生也可以根据进度调整相应的实验难度，以避免学生不能完成实验的情况，充分维护和提高学生参与该特色实验的兴趣和信心。最后，实验步骤是分解式的步骤，即一个实验步骤包含多个知识点，每个知识点即为一个子步骤，每个知识点具有一个考核点，考核点与实验内容具有相关性，实验步骤同时具有综合测验功能，综合检测在完成所有知识点考核之后才出现，每个实验具有综合检测题库，使学生意识到每一个实验的侧重点所在之处。
3、智能评估用户的能力水平
为了能够方便地了解到每一名学生的学习水平，打造出一套先进、高端的技能评估系统。可设定采集时间段，以一个班级或者个人为单位进行能力评估报告数据采集，内容数据可选为综合统计、实验平台统计、在线考试统计。综合统计内容包括，该用户在平台上的总在线时长、操作虚拟机的总操作时长，以饼状图展示各个不同功能模块的实操时间体系占比；统计实训平台的内容包括，该用户完成的实验数量、操作虚拟机的总时长，以柱状图展示实操时间最多的模块TOP5，以饼状图展示该学生所操作的不同实验体系的占比；在线考试内容包括，参加考试次数、答题平均正确率、初级难度试题正确率、中级难度试题正确率、高级难度试题正确率，以饼状图展示出该学生的试题难度分布；最后，可将采集到的学生学习数据形成能力评估报告进行下载，也可将该报告推送给合作企业。目的是方便教师去了解每一名学生的学习状况及喜好的专业方向，更好的帮助学生就业。
4、高端、主流的教学监控管理
为了减轻教师的授课负担，研发出一套教学监控管理系统。首先，管理员在后台可以一次性布置全部的教学计划，随后学生通过在前端查看，即可了解到每一天的课程安排。其次，具有课程考核全局开关功能，打开全局考核后，进行所有实验时都必须完成实验当中设定的每一步考核才能查看下一步。接着，系统可自动检测到是否有学生正在进行实验，当有学生进行实验时可自动检测哪些学生在上哪些课程，并可设定当前正在进行实验的班级和实验，进行实验状态分析（也可以手动设置分析目标）。查看分析结果时可查看分析目标实验、目标模块、目标班级，也可以重新设定分析目标，还可查看班级实验进度，实验步骤综合检测信息，实验总结信息。最后，可以查看学生的实验报告，支持预览和批阅等功能。此功能大大的减轻教师的负担，同时也为教师了解班级整体的学习状况提供的有力的支持。

三、大数据教学平台实验室建设方案

大数据实验平台是由北京红亚科技研发而成，红亚科技作为专业的高校实验室建设方案提供商，结合相关知名高校及科研机构的教学及科研成果，提供了一套完整的高校数据挖掘与大数据分析的实验室解决方案。该实验室方案按照基础知识、平台搭建、数据挖掘、数据存储、模型建立与优化、数据分析与可视化实验来搭建。通过典型的算法展示、算法实现结合大数据分析的应用场景与案例对学生进行数据分析方面的综合训练，从而实现专业实验教学的由点及面、理论到应用、涵盖原理验证/综合应用/自主设计及创新的多层次实验体系。

3.1 基础环境建设

实验室基础环境建设主要是支撑实验室教学运行的基本环境配套建设，包括学生实验用桌椅、教学用投影音响器材、实验室空调系统、综合布线系统、安防监控系统及实验室装修系统等。通过这些基础支撑环境的建设，才能保证实验室的正常教学。
综合基础环境建设的各项内容，针对实验室的空间环境及现代实验教学的发展趋势，例如：一个实验班级60个学生可分为6个实验组，每组可安排10个学生同时进行实验，这样可安排60个学生同时进行大数据相关的实验课程。基于云模式的智慧教育大数据实验室整体环境平面设计如图所示：

如图所示，学生教学实验室采用岛状模式，突破传统的布局，节省了大部分的空间。室内的温度和采光都设计的十分合理。总而言之，为老师和学生打造了一个安静，适宜的教学环境。效果如图所示：

3.1.1 IT环境建设

IT环境建设包括实验终端个人电脑和存储规划建设。
学生实验终端计算机一方面可以采用普通终端PC机，组合成实验室局域网，支撑学生进行实验，另一方面随着云计算技术的发展，学生计算机可以采用虚拟桌面云终端的设计方式，通过采用专用云资源服务器及存云调度设备进行设计，利用服务器虚拟化的方法来对终端进行支撑，用户通过部署在实验平台的客户端进行实验操作，所有应用、数据统一存放在后台服务器，虚拟桌面云终端不存放任何数据，可进行统一管理，包括分发系统、更新软件、远程监控、审计等操作。虚拟桌面云平台也通过虚拟化平台的管理工具管理，大大降低维护人员的重复工作量。

3.1.2 网络环境建设

大数据实验平台设备提供资源管理和调度系统功能，由管理控制设备、资源调度设备以及多台计算节点设备，云资源接入设备以及网络安全设备等组成；；其中，云资源接入设备将用户和存储连接起来，是用户之间以及用户与资源之间的通信设备。用户通过统一资源调度平台调用其中的所有资源，教师可以对平台进行统一管理，包括用户组织管理、实验平台管理、云资源管理、教学监控管理、教学计划管理、在线考试管理、能力评估管理等；学生可以通过平台进行各类数据采集、清洗、建模等全生命周期实验演示与操作。
实验平台的建设采用B/S架构，全中文管理界面，且集成数据库及应用管理系统。用户可通过浏览器进行访问，且支持内网与外网同时访问。学生实验终端和教师管理终端采用终端PC机的方式，组合成实验室局域网，支撑学生进行平台搭建安装、数据挖掘、数据存储、模型建立与优化、数据分析部分与可视化实验，；此外平台提供11套不同行业的真实数据库为学生完成不同类型的实验做支撑。教师管理终端通过实验室教学管理系统对学生终端进行统一管理；学生端可以通过大数据实训平台进行平台搭建安装、数据挖掘、数据存储、模型建立与优化、数据分析部分与可视化实验，实验室网络拓扑图如下所示：

图数据挖掘与大数据分析实验室网络拓扑结构

3.2 实验平台功能

大数据实验平台的建设采用B/S架构，用户通过浏览器进行访问，且支持内网与外网同时访问。平台的管理功能是针对前端系统设置的对应的管理功能，便于教学过程中对前端系统的自定义管理。后台管理包括12项功能，包括：用户组织、注册信息、职业路径、项目路径、邮件系统、实验内容、算法集、云平台、数据集、资源监控、教学管理、在线考试管理功能。

3.2.1 用户组织管理功能

用户组织管理功能包括：用户管理、角色管理、组织结构管理等功能。其中用户管理显示平台用户的信息列表，包含用户ID、学号、姓名、角色、所属组织、最后登录时间，管理端可对平台用户信息进行编辑与删除（批量删除），也可以下载平台的批量导入模版，按照需求填入信息，进行批量导入，并包含根据组织专业班级或姓名等信息进行用户模糊筛选，便于管理平台用户；角色管理显示平台现有角色，用户可编辑新的角色并赋予角色权限；组织结构管理显示平台现有的组织机构，管理端可以也可根据层级分步添加组织、学院、系别、专业、班级，对同级别下的机构进行排序。

用户管理功能界面

角色管理功能界面

组织管理功能界面

3.2.2 注册信息管理功能

注册信息管理功能包括注册申请管理和注册审核记录两大功能。其中，注册申请管理处有一个注册审核开关，开关处于开启状态时，系统注册用户都需要后台进行（批量）通过或（批量）拒绝的操作，审核通过之后才可以登录系统平台；注册审核记录显示后台对前台申请用户的操作结果的一个记录，每页固定显示20条操作记录，不可调节。

注册申请管理功能界面

3.2.3 职业路径管理功能

职业路径规划是红亚科技通过企业多年来与不同行业企业合作，调研近千家合作企业对大数据技术人才需求，得出岗位群划分、岗位技术要求，根据这些需求制作的职业路径规划。职业路径管理列表显示平台对现有的部分职位一些学习路径规划。管理端可以对其进行删除、复制、再编辑、新增等操作，复制职业路径是在原有基础上进行修改且职业路径名称必须修改，职业路径再编辑是指对原有职业路径内容进行完善，可在课程管理界面添加职业路径对应模块、实验，完成之后点击保存即可。

职业路径管理列表展示界面

职业路径添加基本信息界面

3.2.4 项目路径管理功能

项目案例是综合平台技能知识点与实际项目案例结合制作完成。项目路径管理是管理包含项目的（批量）新增、（批量）删除、再编辑等操作。项目包含基本信息和课程管理两大模块，基本信息包括项目路径名称、路径简介、项目编号与项目图片；课程管理包含路径模块、章节、实验、考核知识点的编辑。通过前期学习大数据的基本概念和技术，大数据的背景、发展及关键技术，掌握Hadoop大数据平台搭建与基本应用，内容会涉及Linux、HDFS、MapReduce、YARN、Hive、HBase、Sqoop、Kafka、Spark等，最终完成学习大数据处理与项目开发，包括交互式数据处理、协同过滤推荐系统、销售数据分析系统等

项目路径管理界面图

编辑基本信息界面图

编辑课程管理界面图

3.2.5 邮件系统配置管理功能

邮件系统配置是为了减轻管理端的任务负担，配置好邮件系统之后，学生在忘记登陆密码之后可以通过邮件找回密码。

3.2.6 实验内容管理功能

实验平台管理功能包含：实验管理、体系管理等功能。其中，用户可在实验管理功能中查看全部课程，并可对课程进行增、搜索、修改、删除管理；新增实验和已有实验涉及到的内容有实验基本信息，实验文档和虚拟机配置等。体管理是针对课程体系，可对实验体系、分类、模块、实验进行增加、修改和删除等管理。通过此功能，用户可以自己设置一些新的课件，以满足学校自定义需求。

体系管理列表界面图

实验管理列表界面图

3.2.7 算法集管理功能

算法集管理功能包含算法及管理与学科分类管理两大功能。算法集管理提供新增、删除再编辑等功能，新增算法时需要添加算法名称、配图、简介、所属学科、序号、算法内容，也可加入数据集，对算法再编辑时会显示原来版本算法。学科分类管理是指算法所属分类。大数据平台提供一些算法，学生可以在前台使用关键词进行搜索，完成搜索之后可以进行下载来使用。教师或管理端可以进行算法的修改、删除，也可以上传自己设计的算法，目前支持markdown在线编辑，也可以添加算法的一些附件，支持docx格式。本功能提供的一些算法，学生可以在此基础上进行修改，在平台上进行试验测试算法的优劣。

算法管理界面图

学科管理界面图

3.2.8 云平台管理功能

云平台管理功能包含对虚拟机镜像与容器镜像的管理。虚拟机和容器都可以提供虚拟操作环境，对比虚拟机来说，容器更加轻量级，是以容器可以满足需求都可以替代虚拟机。用户可以上传自己的虚拟机镜像，也可以对平台的镜像进行再编辑。红亚综合各方面因素，不断更新虚拟操作环境，带给用户更好体验。

虚拟机镜像管理界面图

容器镜像管理界面图

3.2.9 数据集管理功能

数据集管理功能提供本平台所有的数据，学生可以进行查看与实验，可以对学生能力进行考核，例如，教师给定一份数据让学生进行预测实验，学生需设计算法进行清洗与预测等，考察学生个人主动学习能力。

数据集管理界面图

3.2.10 资源监控管理功能

云资源管理功能是为用户提供虚拟化管理功能，包括资源监控中心和虚拟机资源管理。用户可以在此查看版本信息、用户数量、实验数量，资源监控及用户虚拟机监控。同时后台资源监控中心可查看平台的用户数量、实验数量、职业路径数量、项目路径数量、算法集数量、数据集数量、用户分布、活跃用户等数据；实时的CPU、内存、硬盘、实例的使用情况和该时刻学生实验进行的状态；可对虚拟机进行监控所处的实验环境、创建位置、用户姓名、创建时间时间以及开启和关闭的状态。该功能的实现可便捷精准的反应出学生的问题所在，可对实验平台进行实时状态的查看，又同时提高了老师的教学质量和效率。

内容资源统计界面图

虚拟化资源管理界面图

3.2.11 教学管理功能

教学管理功能主要帮助教师针对不同学习程度的同学制定相应的教学计划，该功能与教学监控功能相辅相成；教师通过对学生的学习的监控和数据采集和分析，根据真实数据制定相应的教学计划，对于教学根据针对性和定制化。
教师可通过管理后台选择教学计划管理功能，对教学计划列表的计划名称、计划简介、关联班级、关联任务进行增加和修改；其中简介可展示一些开课信息、作业安排等内容。教学计划内的具体任务安排可通过任务列表功能进行编辑，对实验平台内具体到每一个数据类型的实验项目进行选择增加，任务列表完成后对需要参加可课程安排的学生进行选择确认。该功能从对不同学生进行不同类型的针对性的课业安排的训练，达到了精准化个性化教学的目的。

教学计划列表界面图

强制模式管理界面图

课程考核管理界面图

实验报告列表界面图

3.2.12 在线考试管理功能

在线考试管理功能支持教师组织校内考试使用，主要以选择题为主，包括考试进度，题目信息，倒计时，题目导航等功能，系统自带1000道大数据分析题目，后台支持用户批量导入考题。
在线考试管理功能包含考场管理、试卷管理、考题管理和成绩管理四个方面。教师通过考场管理功能可对考试班级进行新增以及管理考试名称、试卷、开始时间、考场排序和考试的简单说明等信息；同时可对进行本次考试的考生进行管理。考场和考生设定好之后对考试试卷以及相应的考题进行增删和修改。考试过程中或者结束后，教师可对本次考试成绩进行查看。

试题管理列表界面图

试卷管理列表界面图

考场管理列表界面图

成绩管理列表界面图

3.3 实验平台体系规划

实验平台可从功能模块、业务职位需求和难易程度上来进行体系的规划分类。按功能模块可以分为Hadoop类、Spark类、R语言、SAS语言、Python语言、基础类等类型；按业务需求可分为大数据架构师、大数据挖掘工程师、算法工程师、大数据产品经理、大数据分析师、大数据统计师、运维工程师、大数据仓库工程师、研发工程师、大数据编程师、大数据售前工程师、大数据售后工程师等方向；按难易程度可以分为基础类、安装类、挖掘类、分析类、存储类、综合案例等类型。

3.4 大数据实验课程内容

大数据实验类型包含实操实验、阅读实验和视频实验三大类型，实操实验类型是在实操虚拟机环境下依据实验指导书完成的实验；阅读实验是仅需阅读与系统答题即可；视频实验是不需要实操环境，仅靠学生阅读比较难以理解的内容，红亚与本方面专家合作制作的；三种实验类型结合授课，便于学生突破知识难点，更好的掌握知识技能。大数据实验内容包含Hadoop安装、Hive应用、Hbase数据库、Hadoop项目案例、Pig语言、Spark基础实验、Spark流式计算、Spark sql、机器学习spark mllib、spark案例、R语言基础编程、R语言统计与建模、R语言数据挖掘、R语言数据分析综合应用、SAS基础编程、R语言统计与建模、R语言数据挖掘、R语言数据分析综合应用、python语言基础、python可视化、python算法、python数据分析与挖掘实战、Java语言基础、C++、Excel数据处理、Excel高级编程、Mysql、Sql Server、Oracle、Linux基础、Mapreduce编程、pig语言、kafka、flume、mahout、ELK、Impla等实验模块。实验课程项目包括目的和原理，实验步骤，综合测验，实验操作，实验报告，虚拟机列表提供配套的操作教材，配套数据集，配套的算法代码等内容。这些内容的交叉组合可以实现针对不同专业与不同层次学生的实验课程设计。实验内容有十大课程体系60个模块共计600多个实验项目，采用实验管理系统，能够提供一个完整的、一体化的实验教学环境，从而打造出全方位的专业大数据教学平台实验室。

3.4.1 编程基础类实验

编程基础包含Python基础、R语言基础、Scala基础和Java基础四大模块共计82个实验项目。Python基础模块首先从Python的安装开始，随后介绍了Python的基础知识和基本概念，包括列表、元组、字符串、字典以及各种语句；然后循序渐进地介绍了一些相对高级的主题，包括抽象、异常、魔法方法、属性、迭代器，同时介绍了Python程序测试、打包、发布等知识，从而发挥出Python的强大功能。R语言基础模块涵盖了R语言的社区和环境介绍；R语言的各种数据结构（单模式/多模式数据结构，日期、时间和因子）；包括各种常用函数、实用函数和应用函数在内的R语言函数。Scala基础模块详细介绍Scala的一些基础知识，并和Java中的相关概念进行了参照，介绍在Scala中如何进行并发编程，方便读者快速上手Scala。Java基础让初学者能达到熟悉Java语言并灵活运用的程度。针对每一个所讲解的知识点都进行了深入分析，并使用生动形象的情境化举例，将原本复杂的、难于理解的知识点和问题进行简化，针对每个知识点，精心设计了相应的问题，让学习者不但能掌握和理解这些知识点，并且还可以清楚地知道在实际工作中如何去运用。

模块	章节	实验
Python基础	Python基础	Python开发环境搭建
		Python基本数据类型
		Python变量
		Python基本输入输出
		Python模块
		Python运算符与表达式
		Python选择结构与循环结构
		Python序列操作
		Python列表常用方法
		Python元组
		Python列表解析式与生成器表达式
		Python字符编码
		Python字符串基本操作
		Python字符串格式化
		Python字符串方法
		Python正则表达式与re模块
		Python字典创建与使用
		Python字典方法
		Python集合创建与使用
		Python集合常用运算
		Python文件基本概念
		Python打开与关闭文件
		Python文件对象基本方法
		Python数据序列化与反序列化
		Python文件与文件夹基本操作
		Python函数的定义和调用
		Python函数参数
		Python变量作用域
		Python函数返回值
		Python函数嵌套定义、闭包、装饰器
		Python类的定义和使用
		Python构造方法与析构方法
		Python成员访问权限
		Python继承
		Python异常概念与常见表现形式
		Python常见异常处理结构
		Python的raise语句
R语言基础	R语言基础	R语言开发环境搭建
		对象与属性
		向量
		矩阵和数组
		列表
		数据框
		构建子集
		lapply函数
		apply函数
		mapply函数
		split函数
		tapply函数
		排序
Scala基础	Scala基础	Scala开发环境搭建
		Scala控制结构和函数
		Scala数组相关操作
		Scala映射与元组
		Scala类与对象
		Scala包管理
		Scala继承
		Scala文件和正则表达式
		Scala特性
		Scala操作符
		Scala高阶函数
		Scala集合
		Scala模式匹配和样例类
		Scala注解
		Scala类型参数
		Scala高级类型
		Scala隐式转换和隐式参数
Java基础	Java基础	Java开发环境搭建
		Java的类与对象
		Java标识符、关键字与运算符
		Java基本数据类型
		Java流程控制
		Java继承与多态
		Java抽象与接口
		Java内部类
		Java异常处理
		Java集合类
		Java基础类库
		Java泛型
		Java的输入与输出
		Java多线程
		Java数据库操作

3.4.2 数学基础类实验

一谈到大数据技术，很多人首先想到的是数学，因为数字在数学体系中稳固的位置，而大数据技术也和数学紧紧地结合在一起。数学基础共计信息论、线性代数、概率论与数理统计、数值计算和最优化方法五大模块31个实验项目。信息论包含熵、联合熵、条件熵、相对熵、互信息、最大熵模型；线性代数包含标量、向量、张量、范数、矩阵、特征分解、几种常用距离计算；概率论与数理统计包含随机变量、概率分布、贝叶斯公式、期望、方差、协方差、常见分布函数、最大似然估计；数值计算包含数值计算概述、上溢和下溢、计算复杂性与NP问题；最优化方法包含最优化理论概述、最优化问题的数学描述、凸集与凸集分离方法、梯度下降算法、共轭梯度法、启发式优化方法、牛顿法和拟牛顿法。

信息论	信息论	熵
		联合熵
		条件熵
		相对熵
		互信息
		最大熵模型
线性代数	线性代数	标量
		向量
		张量
		范数
		矩阵
		特征分解
		几种常用距离计算
概率论与数理统计	概率论与数理统计	随机变量
		概率分布
		贝叶斯公式
		期望
		方差
		协方差
		常见分布函数
		最大似然估计
数值计算	数值计算	数值计算概述
		上溢和下溢
		计算复杂性与NP问题
最优化方法	最优化方法	最优化理论概述
		最优化问题的数学描述
		凸集与凸集分离方法
		梯度下降算法
		共轭梯度法
		启发式优化方法
		牛顿法和拟牛顿法

3.4.3 Linux基础类实验

Linux系统是开源软件，其可靠性得到肯定，是当今举世瞩目、发展最快、应用最广的主流软件之一。在服务器平台、嵌入式系统和云计算系统所运行的操作系统中，Linux占很大比重。各国政府对Linux的开发和应用给予很大关注，全球软件业和厂商都以极大热情和资金投入Linux的开发。现在学习和应用Linux成为众多计算机用户和学生的首选。Linux基础实验包含Linux系统概述、字符操作环境、Linux文件系统、进程管理、常用命令介绍、用户管理、系统监控与备份、软件包管理、管理网络服务共计九个章节32个实验。

Linux基础	Linux系统概述	Linux简介
		Linux应用领域
		Linux优势
	字符操作环境	使用Shell
	字符操作环境	字符编辑器VI
	Linux文件系统	Linux文件
		ext3文件系统
		安装和卸载文件系统
	进程管理	Linux进程概述
	进程管理	进程控制命令
	常用命令介绍	目录操作
		文件操作
		磁盘操作
		文本编辑
		帮助命令
	用户管理	Linux用户账户概述
		管理用户和群组
		命令行配置
		用户管理器配置
	系统监控与备份	显示系统进程
		查看硬件信息
		查看日志文件
		备份与恢复
	软件包管理	RPM概述
		RPM的使用
		检查软件包签名
		软件包管理工具
	管理网络服务	守护进程服务
		网络配置文件
		配置FTP服务
		配置邮件服务器
		Apache服务器

3.4.4 数据库基础类实验

数据库已是当今信息社会须臾不可脱离的重要工具，数据库的教学也就成为计算机科学与技术专业的一门必修课程。数据库基础类实验包含excel、mysql、oracle、mongodb、redis+memcache和sqlLite共计六大模块55个实验。

Excel	Excle	Excel函数与公式
		Excel数据统计与汇总
		VBA程序基础
		VBA数据类型
		VBA流程控制
		VBA综合应用
mysql	Mysql	MySQL简介与安装
		MySQL创建连接
		MySQL操作数据库
		MySQL操作数据表
		MySQL操作数据
		MySQL条件限定与正则表达式
		MySQL表的连接
		MySQL排序、分组与过滤
		MySQL结果合并
		MySQL函数
		MySQL导入与导出
oracle	Oracle	Oracle简介与安装
		Oracle数据类型
		Oracle数据表管理
		Oracle基本查询
		Oracle单行函数
		Oracle分组函数
		Oracle多表查询
		Oracle之PLSQL
mongodb	MongoDB	MongoDB简介与安装
		MongoDB创建连接
		MongoDB操作数据库
		MongoDB操作集合
		MongoDB操作文档
		MongoDB条件操作符与正则表达式
		MongoDB之Limit与Skip方法
		MongoDB排序与聚合
redis+memcache	Redis	Redis简介、安装与配置
		Redis命令
		Redis键
		Redis数据类型
		Redis基数统计
		Redis服务器与连接
		memcached简介与安装
		memcached连接
		memcached存储
		memcached查找
		memcached统计
sqlLite	SQLite	sqlLite简介与安装
		sqlLite创建连接
		sqlLite操作数据库
		sqlLite操作数据表
		sqlLite操作数据
		sqlLite条件限定与通配符
		sqlLite表的连接
		sqlLite排序、分组与过滤
		sqlLite结果合并
		sqlLite之Explain细节描述
		sqlLite函数

3.4.5 Spark数据处理类实验

Spark 最早的一部分用户来自加州伯克利分校的其他研究小组，其中比较著名的有 Mobile Millennium。作为机器学习领域的研究项目，他们利用 Spark 来监控并预测旧金山湾区的交通拥堵情况。仅仅过了短短的一段时间，许多外部机构也开始使用 Spark。如今，有超过50个机构将自己添加到了使用 Spark 的机构列表页面。在 Spark 社区如火如荼的社区活动 Spark Meetups和 Spark 峰会中，许多机构也向大家积极分享他们特有的Spark应用场景。Spark数据处理类实验包含Spark基础、数据读取与存储、Spark程序结构、Spark流式计算、Spark SQL、Spark与机器学习、GraphX、11个案例分析共计八大模块82个实验项目。

Spark基础	Spark简介	Spark介绍
		Spark体系架构
		Spark的安装与配置
		Spark运行模式
		Spark生态系统BDAS
	Spark核心概念	RDD弹性分布式数据集
		RDD的依赖关系
		RDD共享变量
		Spark优化
	RDD编程	创建RDD
		转化操作
		行动操作
		惰性求值
		传递参数
		持久化
		Pair RDD的创建
		Pair RDD的转化操作
		Pair RDD的行动操作
		数据分区
数据读取与存储	文件系统	Amazon S3的读取与存储
	文件系统	HDFS中的读取与存储
	数据库	Cassandra
		Elasticsearch
		HBase
		Java JDBC连接
	文件格式	文本文件的读取与存储
		JSON文件的读取与存储
		CSV与TSV文件的读取与存储
		序列文件的读取与存储
		对象文件的读取与存储
		Hadoop的输入输出读写
		压缩文件的读取与存储
Spark程序结构	Spark程序结构	Spark架构设计
		Spark算子分类
		Spark核心组件
		Spark程序执行基本流程
Spark流式计算	Spark流式计算	Spark Streaming介绍
		Spark Streaming架构
		Spark Streaming部署
		Spark Steaming编程
		Spark streaming性能调优
		Flume、Kafka与Spark Streamng结合使用
Spark SQL	Spark SQL	Spark SQL介绍
		Spark SQL架构
		DataFrame
		Spark SQL的Shell
		Spark SQL的UDF使用
		Hive UDF
		JDBC操作MySQL
		Spark SQL性能调优
		网站日志分析实例
Spark与机器学习	Spark Mllib	特征提取和转化
		降维操作
		协同过滤算法原理及使用
		FP-growth算法及使用
		Spark机器学习的优势和潜力
		Spark MLlib的数据类型
		线性回归算法原理与使用
		逻辑回归算法的原理及使用
		支持向量计算法原理与使用
		朴素贝叶斯算法原理与使用
		决策树算法原理与使用
		随机森林算法原理与使用
		K-Means算法原理与使用
GraphX	GraphX	GraphX简介
		Graphx常用数据结构
		GraphX图算法
		GraphX属性图
		GraphX图操作符
		GraphX Pregel API
		PageRank算法实战
案例分析	案例分析	网络日志分析
		电商广告案例
		实时路况案例
		黑名单案例
		性别预测案例
		年龄预测案例
		垃圾邮件案例
		图片分类案例
		电影推荐案例
		推荐系统案例
		金融数据分析案例

3.4.6 Python数据处理类实验

Python是当今炙手可热的数据分析工具，是一种面向对象的解释型计算机程序设计语言，拥有丰富和强大的库，已经成为继Java、C++之后的第三大语言。其特点是简单易学、免费开源、高级语言、可移植性强、面向对象，具有可扩展性、可嵌入性、丰富的库、规范的代码等。 Python数据处理类实验包含Python基础知识、Python爬虫、使用pandas进行数据处理、可视化技术与matplotlib、Python相关算法和模型调优与实战共计六大模块110个实验项目。

Python基础知识	Python基础简介	Python语言概述
		为何学习Python语言
		Python主要应用领域
		Python开发环境搭建
	初识Python	Python基本数据类型
		Python变量
		Python基本输入输出
		Python模块
		Python运算符与表达式
		Python选择与循环结构
		Python猜数字游戏
	列表与元组	Python序列操作
		Python列表常用方法
		Python元组
		Python列表解析式与生成器表达式
	字符串与正则表达式	Python字符编码
		Python字符串基本操作
		Python字符串格式化
		Python字符串方法
		Python正则表达式与re模块
	字典	Python字典创建与使用
	字典	Python字典方法
	集合	Python集合创建与使用
	集合	Python集合常用运算
	文件操作	Python文件基本概念
		Python打开与关闭文件
		Python文件对象基本方法
		Python数据序列化与反序列化
		Python文件与文件夹基本操作
	函数5	Python函数的定义和调用
		Python函数参数
		Python变量作用域
		Python函数返回值
		Python函数嵌套定义、闭包、装饰器
	面向对象	Python类的定义和使用
		Python构造方法与析构方法
		Python成员访问权限
		Python继承
	异常处理结构	Python异常概念与常见表现形式
		Python常见异常处理结构
		Python的raise语句
Python 爬虫	爬虫初识	爬虫简介
		爬虫应用场景
		爬虫基本工作原理
	网络请求基础	TCP/IP协议
		HTTP请求格式
		HTTP常用请求头
		响应状态码
		浏览器发送HTTP请求的过程
		cookie和session
	使用Python发送网络请求	Requests模块介绍
		使用Requests发送post请求
		使用Requests发送get请求
		使用Requests发送带Header请求
		使用Requests发送带参数请求
	Python爬虫实战	XPATH介绍及节点选择
		LXML介绍及使用
		对抗反爬虫措施
		网站数据爬取实验
		IP代理数据爬取
使用pandas进行数据处理	基础概念	Series和DataFrame简介
		DataFrame常用属性方法
		数据访问
		读写文件
	数据清洗	缺失值处理
		重复值处理
		异常值处理
	数据集成	使用键参数的DataFrame合并
	数据集成	轴向连接
	数据变换	利用函数或映射进行数据转换
		替换值
		重命名轴索引
		离散化和面元
可视化技术与matplotlib	可视化与Matplotlib	绘制折线图
		绘制散点图
		绘制饼状图
		绘制柱状图
		绘图区域分割
		结合pandas进行数据可视化
Python相关算法	分类与预测	Logistic回归分析
		决策树
		K近邻分类算法
		人工神经网络
		支持向量机
		随机森林
	常用聚类分析算法	K-Means聚类算法
		系统聚类算法
		DBSCAN聚类算法
	关联规则算法	Apriori算法简介
	关联规则算法	Apriori算法应用
	协同过滤算法	基于用户的协同过滤算法
	协同过滤算法	基于物品的协同过滤算法
	时间序列数据分析	时间序列预处理
		平稳时间序列分析
		非平稳时间序列分析
		Python主要时序模式算法
	离群点检测方法	离群点检测概述
		基于密度的离群点检测方法
		基于聚类的离群点检测方法
		基于距离的离群点检测方法
	数据降维	数据降维概述
	数据降维	常用降维方法简介
模型调优与实战	模型评估与调优	模型评估和调优的意义
		评估指标
		模型调优建议与注意事项
	数据分析与挖掘实战	电子商务的智能推荐
		财政收入分析
		电商产品评价分析
		电力窃漏识别分析
		电器使用情况分析

3.4.7 Hadoop平台类实验

学习不错分析技术并利用现有工具包使分析应用更加强大、准确和高效！Hadoop数据分析使用Hadoop生态系统设计和构建大数据系统将架构、设计及实现信息恰当地融为一体。Hadoop平台类实验包含Hadoop基础、分布式存储HDFS、MapReduce编程模型、数据仓库Hive、数据库HBase、Pig语言、ZooKeeper、Kafka、Flume、Mahout、Storm、ELK、Impala、8个项目案例共计十四大模块84个实验项目。

Hadoop基础	Hadoop初识简介	Hadoop介绍
		Hadoop体系架构
		Hadoop软件安装及配置
		单节点伪分布式安装
分布式存储HDFS	分布式存储HDFS	HDFS安装
		HDFS的相关概念
		HDFS文件存储机制
		HDFS的数据存储管理
		HDFS的数据读写过程
MapReduce编程模型	MapReduce编程模型	MapReduce简介
		MapReduce架构
		MapReduce接口类
		MapReduce代码编程
		MapReduce经典案例—WordCount
		分布式资源调度系统YARN的安装
		MapReduce和YARN命令
Hadoop数据仓库Hive	Hadoop数据仓库Hive	Hive简介
		HiveDDL
		HiveDML
		Hive UDFV1.0
		Hive数据清洗项目
		Hive统计UV项目
Hadoop数据库Hbase	Hadoop数据库Hbase	HBase简介
		HBase的shell应用v2.0
		使用Hive操作HBase
		HBase的JavaAPI应用
		HBase学生选课案例
		HBase微博案例
Pig语言	Pig语言	Pig简介
		Pig的安装与运行
		命令行交互工具Grunt
		Pig数据模型
		Pig Latin基础知识
		Pig Latin关系操作
		Pig Latin高级应用
ZooKeeper	ZooKeeper	Zookeeper简介
		Zookeeper工作原理
		Zookeeper安装与配置
		Zookeeper基本操作实例
		集群管理
		共享锁
		队列管理
Kafka	Kafka	Kafka简介
		Kafka工作原理
		Kafka安装与配置
		生产者消费者实例
Flume	Flume	Flume简介
		Flume架构与工作原理
		Flume安装与配置
		案例：Avro
		案例：Spool
		案例：Exec
		案例：Syslogtcp
Mahout	Mahout	Mahout简介
		推荐算法
		聚类算法
		分类算法
		使用Mahout构建职位推荐案例
Storm	Storm	Storm简介
		Storm架构与运行原理
		Storm安装与配置
		Storm入门实例
		Storm日志分析实战
ELK	ELK	ELK简介
		安装与配置Elasticsearch
		安装与配置Logstash
		安装与配置Kibana
		处理JSON格式Nginx日志
		处理Nginx日志
		处理Apache日志
		处理Twitterdingyue
		纽约交通事故数据分析
		美国联邦选举委员竞选捐款数据分析
Impala	Impala	impala简介
		数据库语句
		impala table操作
Hadoop项目案例	Hadoop项目案例	QQ好友推荐算法
		RageRank算法
		Tf-Idf算法
		数据关联案例
		ETL案例
		PV UV统计案例
		用户流失和新增案例
		Hadoop总结

3.4.8 SAS数据分析类实验

SAS引导大数据时代的发展，产品线覆盖了数据分析的各个方面，包括高性能分析、可视化分析和云计算等诸多新领域。SAS数据分析类实验包含SAS基础简介、SAS数据导入导出、条件判断和循环语句、SAS数据可视化、SAS统计与建模、SAS数据挖掘和SAS数据分析综合应用共计七大模块36个实验项目。

SAS基础简介	SAS基础简介	SAS概述
		为何学习SAS
		SAS主要应用领域
		SAS的特点及模块组成
		SAS软件基本介绍
		SAS编程基础——逻辑库与数据集
SAS数据导入导出	SAS数据导入导出	读数据和生成数据集
		写数据
		导入数据
		导出数据
条件判断和循环语句	条件判断和循环语句	SAS语句的基本组成
		条件判断语句
		循环语句
SAS数据可视化	SAS数据可视化	图形绘制
		条形图
		饼图
		散点图
		箱形图
		使用图形界面绘图
		图形编辑
SAS统计与建模	SAS统计与建模	描述性统计
		置信区间和假设检验
		线性回归模型
		广义线性回归模型
		方差分析
SAS数据挖掘	SAS数据挖掘	主成分分析
		因子分析
		聚类分析
		判别分析
		相关分析
		生存分析
SAS数据分析综合应用	SAS数据分析综合应用	建立营销响应模型
		预测股票价格
		建立信用评分模型
		预测门店销售额
		人口教育情况分析

3.4.9 深度学习类实验

深度学习是机器学习的一个分支，它能够使计算机通过层次概念来学习经验和理解世界。因为计算机能够从经验中获取知识，所以不需要人类来形式化地定义计算机需要的所有知识。层次概念允许计算机通过构造简单的概念来学习复杂的概念，而这些分层的图结构将具有很深的层次。深度学习类实验包含神经网络、训练技巧和TensorFlow实战三大模块共计30个实验项目。

神经网络	神经网络	人工神经网络介绍
		激活函数与线性不可分
		优化算法
		参数初始化
		超参数设计
	前馈神经网络	网络结构
		线性回归训练
		神经网络训练
	卷积神经网络	卷积基本概念
		卷积核
		卷积层其他参数
		池化层
		SOFTMAX函数与交叉熵
		经典CNN网络
		卷积神经网络的应用场景
	循环神经网络	隐马尔可夫模型
		RNN和BPTT算法
		LSTM算法
		循环神经网络的应用场景
训练技巧	训练技巧	过拟合与欠拟合
		防止过拟合方法
		梯度消失
		学习率和自适应学习率调整
TensorFlow实战	CNN实战	CNN数字识别系统实战
		CNN花卉识别系统实战
		CNN语音识别实战
		CNN图片分类实战
	RNN实战	RNN数字识别系统实战
		RNN花卉识别系统实战
		聊天机器人实战

3.4.10 机器学习类实验

机器学习(MachineLearning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。机器学习类实验包含机器学习基础知识、TensorFlow的基础操作和机器学习算法三大模块共计30个实验。

机器学习基础知识	机器学习基础知识	机器学习介绍
		常用机器学习模型
		线性回归模型
		逻辑回归模型
		损失函数
		梯度下降
TensorFlow的基础操作	TensorFlow的基础操作	TensorFlow的安装
		TensorFlow基础知识
		计算图
		建立回归模型
		多项式回归实验
		模型的保存与加载
		模型参数可视化
机器学习算法	聚类算法	K-Means算法
		有趣模式
		层次聚类
		密度聚类
		聚类评估
	分类方法	朴素贝叶斯
		决策树归纳
		随机森林
		支持向量机SVM
		遗传算法
	关联分析	频繁模式
		Apiriori算法
		相关性分析
		稀有模式和负模式
	用户画像	标签
		画像的方法
		用户画像的使用

3.4.11 R语言数据处理类实验

R语言是一套完整的数据处理、计算和制图软件系统。其功能包括：数据存储和处理系统、数组运算工具（其向量、矩阵运算方面功能尤其强大）、完整连贯的统计分析工具、优秀的统计制图功能、简便而强大的编程语言，可操纵数据的输入和输出，可实现分支、循环，用户可自定义功能。 R语言数据处理类实验包含R语言基础、数据准备、R语言数据处理、R语言数据分析、R语言数可视化和R语言数据分析综合应用共计六大模块79个实验项目。

R语言基础	R语言简介	R语言概述与主要应用领域
		为何学习R语言
		R语言开发环境搭建
	R语言数据结构	R语言数据类型
		R语言数据结构的概念
		Array数组和factor因子功能的使用
		List列表和DataFrame数据框功能的运用
		R语言程序结构
		R语言向量化计算
	对象改值	就地改值
		逻辑值取双子集
		缺失信息
	R的记号体系	值的选取
	R的记号体系	发牌和洗牌实例
	S类系统	S3系统简介与属性
		泛型函数
		方法
		类、S3与调试
数据准备	R语言数据挖掘	数据挖掘简介
		数据挖掘常见问题
		数据挖掘流程
		分类预测基本流程
		R语言数据预处理
		R语言决策树分类方法
		R语言高级分类方法
		R语言聚类分析与关联分析
		智能推荐
		时间序列
		离群点检测
	网页数据抓取	HTML数据抓取
		JSON数据抓取
		使用Google分析网页结构
R语言数据处理	R语言数据处理	R语言数据处理导入
		导入参数匹配和R语言数据导出
		重复值处理
		缺失值处理
		空格值处理和字段抽取
		记录抽取和随机抽样
		记录合并
		字段匹配
		简单计算和数据标准化
		数据分组
		日期格式处理
		日期抽取
		虚拟变量
	R语言统计与建模	R语言常用概率分布和渐进性
		R语言置信区间和假设实验
		R语言单元线性回归模型
		R语言多元线性回归模型
		R语言广义线性回归模型
R语言数据分析	R语言数据分析	基本统计
		对比分析
		分组分析
		分布分析
		交叉分析
		结构分析
		相关分析
		简单线性回归分析
		多重线性回归分析
		RFM分析
		矩阵分析
R语言数可视化	R语言数据可视化	饼图
		散点图
		折线图
		柱形图
		直方图
		箱线图
		树形图
		热力地图+地图
R语言数据分析综合应用	R语言数据分析综合应用	建立销售响应模型
		预测销售额
		水质评估
		财政收入分析预测模型
		骑车数据可视化分析
		房价指数的分析与预测
		电商评论情感分析
		航空公司价值分析
		游戏玩家付费行为预测
		用户留存分析实战

3.4.12 大数据案例类实验

大数据正在改变我们的世界。互联网发展以及移动通信市场和相关技术的迅速扩张也已创建大量的数据包括结构化数据和非结构化数据。数据可用性和数据应用对商业和更广泛的社会领域带来了巨大影响。有效使用大数据有助于公司更精准地对重要信息进行分析很终提高运营效率、减少成本、降低风险、加快创新、增加收入。本平台详细介绍了大数据策略的规划和执行配以7个不同行业里不计其数的现实案例加以阐述。

大数据案例	数据分析生命周期概	数据分析概述
		发现
		数据准备
		模型规划
		模型建立
		沟通与实施
	数据采集	数据采集的原理
	数据采集	数据采集的实验步骤
	数据清洗	数据清洗的原理
	数据清洗	数据清洗的实验步骤
	可视化工具	可视化工具：python
		可视化工具：Echart
		可视化工具：NodeBox
		可视化工具：Inkscape
		可视化工具：Open Layers
		可视化工具：Leaflet
	数据建模	数据与实验环境介绍
	数据建模	数据分析方法与过程
	模型评估与优化	数据与实验环境介绍
	模型评估与优化	数据分析方法与过程
	出租车数据分析	数据与实验环境介绍
	出租车数据分析	数据分析方法与过程
	音乐分类	数据与实验环境介绍
	音乐分类	数据分析方法与过程
	知识图谱制作	数据与实验环境介绍
	知识图谱制作	数据分析方法与过程
	电影评论情感分析	数据与实验环境介绍
	电影评论情感分析	数据分析方法与过程
	金融数据分析	数据与实验环境介绍
	金融数据分析	数据分析方法与过程
	大型商场销售额预测	数据与实验环境介绍
	大型商场销售额预测	数据分析方法与过程
	NBA篮球比赛结果分析预测	数据与实验环境介绍
	NBA篮球比赛结果分析预测	数据分析方法与过程

四、数据安全保障科研箱

数据安全保障科研箱，是一台集成了四种处理器的实验箱，包括A8处理器、M4处理器、Z32处理器、FPGA编程板，可通过编程实现如下功能：密码机的条用与算法应用、安全应用系统设计、逻辑加密卡等功能。

4.1 科研箱项目列表

实验体系	实验内容
科研项目列表	项目一：嵌入式系统开发环境
	项目二：密码算法与实现
	项目三：12684液晶屏串行显示实验
	项目四：SLE4428逻辑加密卡实验
	项目五：SM3密码杂凑算法程序设计
	项目六：Web服务器
	项目七：M4和FPGA通信实验

五、大数据教学平台实验室建设优势

5.1 方案优势

大数据教学平台实验解决方案全面落实“产、学、用、监、评”一体化的思想和模式，从生产、教学、使用、监控、评估多方面注重专业人才和特色人才的培养。能够从大数据产业需求和发展的角度规划和建设智慧教育大数据实验室，真正在产业、学校及实际项目中相互配合，发挥优势，形成生产、学习、实践运用的系统运作模式。
实验室解决方案一方面能够提升学生的动手能力和实际运用能力，按照从理论学习到项目实践的方式增强学生大数据分析的能力与经验；另一方面还可以为教师提供良好的数据分析教学环境，提高学校教师工程化实践项目实施和管理经验。

5.2 技术优势

实验平台采用业内先进的云计算虚拟化技术，通过云计算虚拟化调度和管理实验室的存储与计算资源。学生实验所需的开发与操作环境均以虚拟化的方式提供，让学生进行大数据分析相关的开发与数据分析工作。实验平台可为每个学生分配独立的实验环境，并提供简单可用的开发环境与真实有效的数据资源。实验平台对计算复杂的大数据分析提供统一的Hadoop计算环境，并用可对环境中的学生资源进行有效管理。
平台采用了如下关键技术：
·  WebTerm技术
使用Web浏览器接入远程桌面，无需其它软件。
实验与课程在流程上结合得更紧密。
·  AutoDeploying技术
方便实验。通过CF卡上的网络安装程序，完成本地资源规划与软件部署，实现无人值守。
·   SelfRecover技术
借助虚拟化与自部署技术，在系统出现严重故障时，智能恢复。
·  SmartStatistics技术
实时读取数据库，智能分析与统计客户端操作，可视化展示分析结果，便于分析管理。
·  BottomMonitor技术
实时记录行为数据，并冗余备份，统计所有行为并在违规操作或危险时发出警告。

六、校企合作人才培养

中共中央政治局2017年12月8日下午就实施国家大数据战略进行第二次集体学习，中共中央总书记习近平在主持学习时强调，要发挥我国制度优势和市场优势，面向国家重大需求，面向国民经济发展主战场，全面实施促进大数据发展行动，完善大数据发展政策环境。要坚持数据开放、市场主导，以数据为纽带促进产学研深度融合，形成数据驱动型创新体系和发展模式，培育造就一批大数据领军企业，打造多层次、多类型的大数据人才队伍。
“面对巨大的大数据人才缺口，需要产学研深度融合，企业也需要积极参与共同解决。2018年2月教育部6部门联合印发《职业学校校企合作促进办法》，对职业学校进行校企合作的合作形式、促进措施及监督办法作出了规定，职业学校和企业可以结合实际在人才培养、技术创新、就业创业、社会服务、文化传承等方面方面开展合作，在促进办法里提出，鼓励校企合作设置专业、联合开发课程、共同建设实训基地、就业机制、协助学生创新创业等。因此，建设一个专业，培育国家急需人才，校企合作是最佳模式，符合国家政策，符合市场需求，符合人才培养新模式。

6.1 红亚校企合作

校企合作是一个系统工程，涉及到各个层面，习总书记在十九大报告中指出的“完善职业教育和培训体系，深化产教融合、校企合作”。红亚科技把握机遇、紧跟国家政策和时代步伐，积极探索“产教融合、工学结合、知行合一”的校企共建的育人机制，提出了校企合作的“12345”模式：
（1）一个导向
“以就业为导向”；
（2）两个依托
依托学校资源和企业技术，联合培养人才；
（3）三位一体
构建学校、企业、行业三位一体的合作平台；
（4）四个定制
根据行业需求，瞄准就业，定制专业化的课程体系；结合企业技术人员优势，给学校定制师资；根据每名学生的特点，定制培养方案；针对每位学生的专长和能力，定制化就业方向；
（5）五方互动
构建学生、教师、学校、企业、行业五方互动机制。

校企合作的12345运作模式

通过与院校合作共建大数据专业，红亚参与到合作院校的专业建设、人才培养、课程改革、教学方法创新、实训室建设、师资建设与提升、招生宣传、实习就业、运营管理等服务（见图），以快速提高人才培养质量，打造真正好招生好就业的特色品牌专业，助力于学校快速亮出品牌、亮出特色。

图校企共建内容

6.2 人才培养方案建设

教育的精髓在于“就业导向、以人为本、因材施教”，校企共建专业人才培养方案应根据学生的特点及高等教育的目标对当前就业岗位进行任务进行分解，针对任务转换为职业能力，职业能力转为学习领域，并确认人才培训方案。

6.2.1 就业岗位分析

红亚科技通过企业多年来与不同行业企业合作，调研近千家合作企业对大数据人才需求，得出岗位群划分、岗位技术要求，如下表所示：

就业方向及岗位
数据分析类	数据预测分析
	企业数据管理
	数据安全研究
系统研发类	ETL研发
	数据仓库研究
	数据科学研究
应用开发类	Hadoop开发
	可视化工具开发
	信息架构开发
	OLAP开发

6.2.2 专业课程规划

校企合作，即要充分利用企业的行业背景、学校多年的办学经验，从深处着手，不仅仅是职业技能上的要求，还有对行业的认知，对个人基本素养、职业素养上均提出了较高的要求，同时要求理论结合实际，对学生的动手能力有较高要求。课程规划如下
1.公共基础必修课程
（1）政治理论课
（2）通识文化课
2.专业基础必修课程
高等数学、线性代数、概率论与数理统计、离散数学、计算机科学概论、数据结构与算法、大学物理、大学物理实验、C 语言程序设计、电路与电子技术、数字逻辑与数字电路、数据库原理及应用、面向对象分析与设计、Linux 基础、计算机组成原理、软件工程、计算机网络原理。
3.专业模块课程（限制选修课，每个学生限选一个模块）
（1）数据挖掘
（2）大数据工程
（3）软件工程
4.专业任意选修课程每个学生限选四门
5.公共选修课程（每生要选四门不同系列的课程，学分修够8学分）
全校自由选课，学期末或者学期初开始选择，课程对应不同学分，学生只要选上这门课程并获得学分，最终累积学分大于等于8分即可。

6.3 师资建设

6.3.1 师资队伍建设理念

校企共建的教师队伍建设旨在将教师队伍建设成为“理论+实践技能”的双师型师资队伍，既能满足学校的理论课程授课，又能满足技能实践、项目实训的要求。同时配套以业绩和能力为导向、科学合理的教师考核制度，用以激励教师的主观能动性。将本院校教师打造成具备良好理论基础，丰富的实践经验的高素质教师。

6.3.2 师资队伍建设办法

师资队伍建设是教学质量提升的核心，是学校办学实力的关键要素，红亚科技致力于帮助学校建设一支“重技能，重实践”的教师队伍，培养一批教学骨干，成为专业发展的中坚力量。学校专职教师与企业兼职教师协作，推进专业整体理实一体化教学，学校教师充分发挥在教学理论、教学经验丰富的优势，结合向企业外聘教师的新方法、新技术、新技能、生产流程等经验，寒暑期至企业顶岗实践，引入企业师资交流学习，通过校企双方不断深入的合作，进而构建出具有特色的双师型教师队伍。
1）开展双师素质型教师队伍建设
学校派遣教师每年利用固定时间，进入企业开展顶岗实践，顶岗实践教师深入企业各个部门进行实践，对业务操作过程中的知识点，以及相关岗位人员所需掌握的技能进行了详细的了解，理论结合实际。同时，企业派遣具有丰富工作经验、职业技能的项目经理、工程师进入学校，增强沟通和交流，打造双师素质型教师培养模式。
2）派遣进入红亚科技开展师资培训
派遣专业教师每年利用寒暑期时间，参与企业组织的职业教育高职教师培训，参训期间教师可以学习企业先进的管理理念、教学方法与技巧、同时了解红亚科技针对本科院校的信息化管理平台的使用方法，了解行业最新的发展趋势、不同岗位的技能要求、了解最前沿的技术，提升老师的理论结合实际的能力。
3）推行教师职业技能认证
红亚科技利用自身的行业资源优势和认证培训经验，为大数据及相关专业教师提供系统培训，为教师全方位的提升技能。将合作院校教师提升成为学历教授能力和生产实践能力相结合的理论实践一体化人才。

6.4 实习就业平台建设

6.4.1 学生实习

理论结合实际，重实践、重动手是创新改革大数据专业教育的特色，实习环节是红亚科技公司设置大数据相关专业的重点及特色，参加顶岗实习的学生在工作期间有正式的工作岗位，要像正式员工一样承担一线的岗位职责，这是顶岗实习的重要特点。顶岗实习过程中，学生不仅接受学校教师的指导，而且还要接受企业文化的熏陶和企业委派的具有实践技能和经验的技师指导，与此同时，企业与学校保持密切联系，反馈学生顶岗实习情况。通过工作实践锻炼，有助于学生的快速成长和增强实际独立工作能力；有助于学生树立起竞争意识和吃苦耐劳精神。通过顶岗实习使学生所学的理论知识和生产实际相结合，有助于学生认识职业岗位，促进学生就业。

6.4.2 就业服务

教育规划纲要颁布实施近5年来，全国职业教育工作会议召开，《国务院关于加快发展现代职业教育的决定》出台以来，职业教育发展新的理念不断深化， “职业教育是国民教育体系和人力资源开发的重要组成部分，是广大青年打开通往成功成才大门的重要途径”，习总书记的这一重要指示，既描述了职业教育独特的地位和作用，也对职业教育就业服务体系建设提出了新的要求：“以服务为宗旨，以就业为导向，抓就业过程，搭建长效的就业服务跟踪体系”是红亚科技公司围绕高职院校打造就业服务体系的核心理念，就业服务内容：
①在校期间开设职业素养及就业相关课程，为学生就业安置提前准备；
②为学生提供一对一的职业规划，制定学习及就业方案；
③邀请企业相关负责人、工程师、就业明星返校交流；
④安排学生在不同学习阶段到企业参观、观摩学习工作流程；
⑤根据学生兴趣、技术能力划分就业方向，组织IT岗位专场招聘会；
⑥根据学生学习情况，实习反馈，有组织、有层次、有区别的提供不同岗位给每位学生，做到人人皆可获得适合自己心仪岗位的机会；
⑦建立长效的就业跟踪机制，采用“线上就业服务信息化平台+就业老师安置就业+学生教师远程指导”的形式协助学生度过就业前期的困难阶段，建立以月度为单位的就业跟踪回访机制，持续2-3年为学生提供就业服务，使学生能够度过初入职场前三年的困惑期。

6.5 学院品牌建设

6.5.1 专业品牌运营理念

多元化的院校教育是打破传统的单一办学体制、给教育注入新鲜血液的有效途径；红亚科技将牵线搭桥，不定期组织安排学院师生参加行业高峰论坛、大数据行业交流会、院校教育成果交流、学习心得体会，互通有无，知识共享，共同进步。使高校各个学科在人事管理机制、招生、专业设置、培养目标、办学特色等多方面，都更加适应市场经济，在教育中引入市场机制，面向市场服务社会，依靠质量求发展，应是院校得以持续发展的关键，因此，敏锐地感应市场经济的短期变化和中长期变化，以市场需求为准则设置学科专业，这是院校教育在市场化进程中的最重要的收获之一。

6.5.2 专业品牌运营内容

①针对高校办学现状开展深入调研，制定品牌报告；
②成立专家委员会，制定高校建设顶层设计方案；
③制定高校品牌、学科品牌、专业品牌形象提升方案；
④协助校方完成机制创新、体制创新工作；
⑤协助校方完成招生、教学、就业形象提升工作；
⑥协助校方完成科技成果、教学成果转化；
⑦协助校方完成课题基金申报

6.6 校园文化建设

6.6.1 校园文化建设理念

校园文化是学校发展的精髓和灵魂，是学校办学理念与综合实力的反映，也是突显学校办学特色和理念，提升学校竞争力和品牌的利器。立足学校实情，通过整合地域、学校、传统等文化资源，围绕校园文化与品牌建设的校园文化体系，全方位建设学校特色品牌文化。

6.6.2 校园文化建设内容

①视觉性校园文化景观建设
以学校的校名、校训、校旗、校徽等标志性事物和校园建筑、景观、布局等为主体，形成学校标准色等视觉形象系统，根据校企合作专业的特点和特色加以放大，制作特色门牌、迎宾墙、文化长廊等，以学院VI为前提，为学院将其应用于胸卡、门贴、画廊、名片、信封、贺卡、PPT模板制作文化产品等。用视觉传达给教师、给学生。
②校园文化活动
协助学校组织、策划校园文化活动，以活动为载体，构建校园文化系列主题，举办校园文化艺术节、读书节、达人秀、十佳歌手等活动，培养学生的校园文化理念。同时，还可以开展校园文化讲坛、沙龙等活动，从校园文化的主流价值去引导师生共同成长。丰富的校园文化活动给学生提供一个展现自我、超越自我的舞台，使学生学会探索与开拓，在继承与发展中健康成长、成才。

七、技术服务

多年来，公司秉承“用户至上、伴随保障、全程服务、追求完美”服务理念，为用户全面优质高效服务。我们为用户提供的不仅仅是单一的产品，更注重于从用户的实际情况及未来发展需求出发，提供一整套完美的解决方案。
北京红亚华宇科技有限公司拥有一支专业的技术服务队伍，包括有多年实际工作经验的资深系统工程师、软件研发人员、测试工程师、售前技术人员、售后实施及维护人员，他们能够深入了解用户需求，以最佳方案真诚为用户提供优秀服务。除依靠自身的技术力量以外，北京红亚华宇科技有限公司还通过与上海交大及其它合作伙伴亲密合作，不断加强自身能力建设，有效保证客户项目顺利进行。

7.1 售前技术服务

项目实施前，公司售前技术人员会根据用户需求提供一套系统建设方案，并在与用户分析现有的技术环境及长期建设目标的基础上，为用户设计出最佳解决方案。
此外，根据用户的具体情况，售前技术人员必要时可搭建演示环境，提供北京红亚华宇科技有限公司相关解决方案产品的演示，以便用户更深了解项目建设情况；同时，售前技术人员还为用户提供相关的技术咨询和方案设计，为用户提供新建系统与已有系统的整合方案，保护用户已有的投资。售前技术人员作为用户项目团队的一个重要组成部分，其掌握的用户信息将一直共享到项目的最终实施，以保障项目的成功。

7.2 技术培训

针对本文的解决方案，我们将在建设项目移交给用户运行前对最终用户进行相关的技术培训，此外，每次的系统升级或者根据用户的要求，我们将提供不定期的技术培训服务。该类技术培训主要分为以下两部分：
(1) 操作用户培训：针对系统日常运行操作进行集中培训，对于实训平台而言，培训对象主要是授课老师，内容为日常实验教学操作步骤等。
(2) 系统管理用户培训：针对系统日常管理、维护、安装进行培训，对于实训平台而言，培训对象为实验室技术管理人员，内容为系统常见技术问题处理方式等。

7.3 售后技术服务

北京红亚华宇科技有限公司组建了一支专业的售后技术服务队伍，这支队伍包括网络工程师、大数据工程师、系统工程师等，他们负责进行用户项目的现场实施，同时接受用户系统日常运行过程中的技术咨询和维护服务。北京红亚华宇科技有限公司的售后服务可以做到：
(1) 协助计划
在项目实施之前，售后（售前）技术服务人员向用户提供项目实施的前提条件，包含网络环境要求、软硬件要求等。
对于用户购买的硬件和软件，在设备到达安装现场之后，售后技术人员将协助用户进行设备的安装、调试及验收。
(2) 现场服务
根据用户需求及合同规定的时间，售后技术人员将在用户现场进行项目实施，包含软硬件设备的安装、调试及验收，帮助用户顺利掌握系统，尽量减少项目实施周期，实现系统的无缝交接。
对由于硬件质量问题造成的硬件损坏，如在保修期内或与我方兼有相关的技术服务合同的，北京红亚华宇科技有限公司将提供现场服务，维修更换相应的硬件。对有效合同内的软件故障，用户应将故障现象及出错信息通过电邮、信件或传真等通知我们，我方根据故障等级做出不同时间级别的相应，并给予解答。不能远程解决问题时，我方将派技术人员到达用户现场进行实地解决。
(3)热线支持
北京红亚华宇科技有限公司提供全天热线技术支持，包括电子邮件、电话、传真等方式（每周 7 天、每天 24 小时）。全天热线技术支持体系，可使我们的用户最短时间内，快捷方便的得到北京红亚华宇科技有限公司的技术咨询及服务。

八、公司简介

8.1 公司概况

北京红亚华宇科技有限公司成立于2012年，位于高校云集的中关村核心区域。主要从事大数据领域的成果转化、技术开发和咨询服务，致力于成为国内高等院校大数据实验室解决方案专业的供应商。
公司的主要成员均在教育领域耕耘多年，既有丰富的实验教学经验，又有丰厚的技术开发经验。不仅能够为客户提供高质量的产品，还能在了解客户需求的前提下提供顾问式服务。我们可以为用户提供大数据实验室建设的规划、方案设计、系统建设、培训维护等服务；同时，也为学校提供师资培养、教材建设。
迄今为止，公司的前身承担了国家级项目（包括973、863、国家自然科学基金、国家发改委）超过20余项、省部级项目（北京市、军队、国家各相关部委）超过100余项，各种企事业单位的横向课题超过500项，积累的各类标准提案数十个，已获批准的专利超过50余项。

8.2 我们的用户

上海交大、四川大学、厦门大学、吉首大学、吉林师范、华南农业、上海工程技术应用大学、新余学院、徐州工学院、河南农业、北方工业大学、劳动关系学院、安徽理工大学、大连理工大学、北京科技大学、广州工业大学、湖北中医药大学、北京警察学院、吉林建筑大学、上海商学院、曲阜师范大学，重庆交通大学

8.3 典型案例

8.3.1 上海交大

2015年上海交大利用自己的科研成果大数据实验平台系统建设了大数据教学实验室。