案例展示 - ETC1010-5510: Introduction to Data Analysis
编辑
13
2024-10-17
案例展示 - ETC1010-5510: Introduction to Data Analysis
概述
此案例展示为 ETC1010-5510: Introduction to Data Analysis Assignment 2。该任务要求学生使用 R 语言进行数据分析并生成报告。任务分为两部分:Part A 和 Part B,涉及数据可视化与集群分析。以下是该作业的详细展示。
作业细则
- 提交方式:学生需将渲染后的 HTML 文件保存为 PDF,并上传至 Moodle 平台。作业将根据 PDF 文件进行评分,代码与输出内容需要完全可见。
- 评分标准:该作业总分为 65 分,占期末总成绩的 15%。其中,Part A 占 26 分,Part B 占 39 分。
提交格式
作业需使用 RMarkdown 撰写,确保代码可以正常运行并生成 HTML 文件。学生需确保提交的 PDF 文件中代码可见,并且包含相应的输出结果。
Part A: 可视化分析
数据集介绍
- hp_chars.csv:包含哈利波特小说中学生角色的姓名、入学年份、学院等信息。
- hp_edges.csv:记录了角色间在小说中的对话,包括对话发生的书籍信息。
A.1 任务
问题1: 按照学生的性别,展示各个学院中男性学生的比例 (3 分)
此问题要求学生从 hp_chars.csv 中读取数据,并展示按性别统计的各学院学生比例。
问题2: 使用柱状图可视化性别比例 (2 分)
使用 RColorBrewer 包的 Set1 颜色方案,创建柱状图,直观展示各学院的性别比例。
问题3: 简述柱状图的结果 (2 分)
对生成的柱状图进行简要描述,解释结果。
问题4: 使用 dodge 参数展示按性别统计的学生数量 (2 分)
使用 Dark2 颜色方案和 dodge 参数绘制图表。
问题5: 描述新图表的结果 (2 分)
对新的图表进行描述,分析结果。
问题6: 哪张图表最好地展示了学院的性别构成? (3 分)
学生需选择一张图表并解释原因。
A.2 数据集合并
问题1: 将两个数据集合并 (4 分)
将 hp_chars 与 hp_edges 数据集合并,并生成新的数据框 merge_hp
。
问题2: 展示合并后数据框的前四行 (1 分)
显示合并后数据框的前四行数据。
问题3: 统计每个角色在书中与其他角色的独特对话次数 (5 分)
通过合并后的数据集,统计每个角色在每本书中与不同角色的对话次数。
问题4: 展示前四行数据并找出在书2和书3中与最多角色对话的角色 (2 分)
通过数据分析找出在书2和书3中对话最多的角色。
Part B: 集群分析
数据集介绍
使用维多利亚州的森林火灾数据集 (vic_bushfire.csv),该数据集包含 4049 条历史火灾记录,涉及多种变量如降雨量、温度、风速、火灾原因等。学生需通过集群分析识别这些火灾的不同特征。
B.1 数据读取
- 问题1a: 从 GitHub 读取火灾数据并加载到 R 中 (1 分)
- 问题1b: 显示数据框的前5行 (1 分)
B.2 层次聚类分析
- 问题2a: 解释 Agglomerative 聚类方法的原理 (1 分)
- 问题2b: 使用 Euclidean 距离和 ward.D2 方法进行层次聚类,并生成树状图 (5 分)
- 问题2c: 解释选择簇数的依据 (2 分)
- 问题2d: 将数据分为 6 个簇,并绘制经纬度图表 (5 分)
B.3 非层次聚类分析
- 问题3a: 使用 K-means 聚类算法 (2 分)
- 问题3b: 解释为何无法为该方法生成树状图 (1 分)
- 问题3c: 创建变量均值的线图,并分析各簇的均值 (4 分)
- 问题3d: 比较层次聚类和 K-means 聚类的标签,并描述结果 (4 分)
- 问题3e: K-means 的优缺点 (2 分)
- 问题3f: 重新运行 K-means 聚类,绘制对比图并讨论结果 (4 分)
联系我们
WeChat:pythonyt001
Email: [email protected]
- 0
-
分享