课程大纲:
一、理解大数据分析
1、大数据热点问题
2、大数据发展趋势
3、大数据与云计算
4、大数据挖掘面临的困难与挑战
5、服务产生大数据,大数据即服务
6、大数据管理与数据思维
二、“工欲善其事”——分析环境搭建
1、Python语法快速入门
2、易于实现的并行编程
3、矩阵工具Numpy
4、高级数据分析包Pandas
三、理解数据——数据预处理
1、数据清洗:数据变换,异常值处理,离散化等
2、了解数据分布:数据度量
3、数据的可视化探索
4、向量的相似性度量
5、对数据进行降维:PCA和SVD
四、怎样自动获取海量数据
1、从Web自动抓取数据
2、网络爬虫与面临的问题
3、基于Python的爬虫框架Scrapy
4、数据清洗BeautifulSoup
5、爬虫实例分析——获取大众点评的用户评论
五、从大数据中淘金——个性化推荐系统
1、关联规则
2、K-近邻算法
3、基于内容的推荐
4、基于用户的推荐
5、怎样评价推荐结果的有效性
6、案例分析:电影推荐,美食推荐,广告投放
六、见微知著——基于大数据的用户行为挖掘与分析
1、复杂网络与社会网络
2、社会网络的可视化与Python工具
3、基于社会网络的用户行为分析
4、微博用户行为分析
5、案例研讨:基于科研合作网络的行为分析
七、辅助决策——大数据可为决策提供更多的辅助信息
1、决策树、贝叶斯网络等分类器原理
2、分类器性能评价指标
3、支持向量机
4、案例分析:金融信贷分类
5、案例分析:分析用户评论以改进服务质量
八、大数据分析前沿技术与展望
1、深度学习初窥
2、舆情监测
3、大数据中的隐私保护
4、讨论与总结
课程周期:
24课时(45分/课时)