CIS606 数据挖掘项目代写
编辑
15
2024-10-27
CIS606 数据挖掘项目代写
项目概述
CIS606 课程的项目旨在通过数据分析解决现实应用中的问题,综合运用整个课程所学的技能。学生需要选定一个数据分析领域,分析公开数据集,并展示数据挖掘的完整流程。本项目要求涵盖从数据收集、清洗、转换,到数据分析和结果报告的全流程。
项目要求
1. 数据集选择与问题描述
在项目初期,学生需选择至少两个公开数据集,这些数据集不应在课程的其他作业中使用过。通过对数据的研究和分析,学生需阐述如何将这些数据集结合以解决某个具体的业务或社会问题。推荐的数据源包括地方政府的开放数据平台,如 Kansas City 数据 和 Datascience Central 公共数据集列表。
2. 数据预处理
学生需选择最适合的数据转换、清洗和整合技术,将所选数据集处理成一个用于分析的合并数据集。
3. 研究问题与特征选择
确定分析要回答的具体研究问题,并选定数据集中与研究问题相关的特征或变量。
4. 分布式计算需求评估
分析过程中需评估是否需要分布式计算来支持数据的存储、操作或分析,以确保数据处理的效率和可扩展性。
5. 数据挖掘技术的初步分析
使用数据挖掘技术(如聚类或回归)进行初步分析,探索数据中的潜在模式。
6. 初步结果的解读和报告
在第 7 单元结束前,学生需提交初步分析结果,结合表格、图表等数据可视化手段呈现,并基于结果回答研究问题。
7. 全面报告撰写
全面报告需包含以下内容:
- 研究问题:明确描述待解决的问题。
- 数据集说明:详细描述所使用的数据集来源及其特征。
- 数据准备过程:说明数据清洗、合并的具体步骤。
- 分析技术:描述使用的分析方法。
- 并行计算技术:描述所使用的或可能使用的并行计算技术。
- 分析结果:包含数据可视化的表格和图表,帮助解读分析结果。
- 结论:总结分析结果,并指出研究的局限性和数据处理的改进空间。
8. 项目展示
最后,学生需录制视频展示项目的核心内容,报告项目的关键发现,结合文字总结要点。
项目评分标准
- 项目是否使用合适的数据集并提供创新的数据分析思路。
- 数据清洗与转换技术的正确性和适用性。
- 分析方法的选取是否合理。
- 结果是否清晰可见,并具有解释性。
- 项目展示的效果和报告的完整性。
技术需求
学生需使用 R 或 Python 进行数据分析,并建议应用并行计算以提高数据处理效率。项目可包含聚类、回归等多种数据挖掘技术,且需在报告中详细说明每个步骤的操作和结果。
提交要求
- 初步分析报告:在第 7 单元提交初步分析结果。
- 完整项目报告:在第 8 单元提交最终报告及视频展示。
联系我们
WeChat:pythonyt001
Email: [email protected]
- 0
-
分享