数据处理与分析方法论
课程介绍
0课时
初级难度
本模块聚焦数据全生命周期管理。数据采集阶段需掌握Flume、Kafka等工具实现日志收集与流式数据传输,理解结构化与非结构化数据的差异。数据清洗环节要学习使用Python/Pandas处理缺失值、重复值及异常值,通过航空公司航班数据清洗案例掌握正则表达式与数据转换技巧。数据分析阶段需建立维度建模思维,使用SQL进行多表关联查询,并借助Spark SQL处理TB级数据集。在机器学习应用层面,重点讲解特征工程构建与监督学习模型(如随机森林)的落地实施。配套提供超市销售数据分析的完整项目文档供学员参考。
课程大纲
学习统计
学员评价