案例展示 CS688 Assignment 3:文本挖掘与情感分析
编辑
16
2024-10-05
案例展示 CS688 Assignment 3:文本挖掘与情感分析
作业目标
本次作业旨在练习文本挖掘和情感分析技术。这包括获取文本、预处理、创建文档-词频矩阵(DTM),并执行情感分析。你需要完成的任务包括获取评论数据、进行文本预处理、计算情感分数、分类情感极性,并进行数据可视化展示。
作业步骤
(1) 获取评论数据
- 目标: 识别一个收集用户评论的网站(例如 Yelp、Reddit、Quora、Amazon 等),选择一个至少包含 50 条评论的主题/产品/地点。这些评论应该每条至少有 3-4 句。
- 任务: 使用 Module 1 的网络爬虫技术加载这些评论。确保评论数据为文本格式,用于后续分析。
(2) 文本预处理 (25 分)
- 目标: 对获取到的评论文本进行预处理。确保不区分大小写,去除标点符号,移除常见词(如 "the", "is" 等),并处理词尾的变体(如过去式、复数等)。
- 任务: 使用自然语言处理技术(如 Tokenization、Stopwords 移除、词干化/词形还原)清洗和规范化文本。
(3) 获取情感分数 (30 分)
- 目标: 使用字典情感分析方法为每条评论生成情感分数。
- 任务: 首先从预处理的文本创建一个文档-词频矩阵(DTM),然后为每一行(即每条评论)生成情感分数。可以使用 NRC、AfiNN 或 Bing 等字典方法来生成情感分数。确保有 50 条评论对应 50 个情感分数。
(4) 确定情感极性 (15 分)
- 目标: 根据情感分数判断每条评论是正面、中立还是负面。
- 任务: 如果评论中有星级评分,你可以通过分箱(binning)将星级评分转为这三个类别。如果没有评分,你可以手动读取并标记每条评论的极性。
(5) 数据可视化 (15 分)
- 目标: 创建一个数据可视化,比较情感分数与情感极性之间的关系。
- 任务: 根据 Module 2 中的可视化原则,生成一个图表来展示情感分数和情感极性。通过视频解释这个图表,讨论图表是否符合预期。
(6) 额外加分(25 分)
- 目标: 使用预训练的大型语言模型(LLM)如 BERT、DistilBERT 或 GPT 模型来生成情感分数。
- 任务: 编写代码调用预训练的 LLM 模型进行情感分析,并生成新的情感分数。创建额外的数据可视化,将新情感分数与第 (3) 步和第 (4) 步的情感分数进行比较。
(7) CSV 文件生成 (15 分)
- 目标: 生成一个包含评论、预处理后的文本、情感分数、情感极性及加分项情感分数的 CSV 或 Excel 文件。
- 任务: 为每条评论生成对应的行,包含原始评论文本、预处理后的文本、情感分数、情感极性和(如有)加分项情感分数。
提交要求
你需要上传以下文件:
- 代码文件 (.r, .py, .ipynb, .rmd 等)
- 图像文件 (.png, .jpg) 或文档 (.docx, .pdf) 包含第 (5) 步的数据可视化图表
- CSV 或 Excel 文件,包含每条评论的详细数据
- 视频录制 (.mov, .mp4),或者 Word 文档提供视频 URL
- (可选)额外的图像文件,若你完成了加分项
提醒事项
-
作业评分标准包括:
- 你是否正确理解问题?
- 你是否使用了正确的算法?
- 你的代码是否能够正确运行并完成所有要求的任务?
- 你是否能正确解释结果?
- 你是否能清晰解释代码并回答可能提出的问题?
-
每迟交一天扣 5% 分数。你可以有一次机会最多迟交三天,但其他作业将受到迟交处罚。
-
如果作业迟交超过三天,将不予评分,除非教授或助教另有决定。
联系我们
WeChat:pythonyt001
Email: [email protected]
- 0
-
分享