CS代写 | 留学生计算机辅导 | Assignment代做 | Code代做 | 论文辅导

案例展示 CS688 Assignment 3：文本挖掘与情感分析

过往案例

18

2024-10-05

案例展示 CS688 Assignment 3：文本挖掘与情感分析

作业目标

本次作业旨在练习文本挖掘和情感分析技术。这包括获取文本、预处理、创建文档-词频矩阵（DTM），并执行情感分析。你需要完成的任务包括获取评论数据、进行文本预处理、计算情感分数、分类情感极性，并进行数据可视化展示。

作业步骤

(1) 获取评论数据

目标: 识别一个收集用户评论的网站（例如 Yelp、Reddit、Quora、Amazon 等），选择一个至少包含 50 条评论的主题/产品/地点。这些评论应该每条至少有 3-4 句。
任务: 使用 Module 1 的网络爬虫技术加载这些评论。确保评论数据为文本格式，用于后续分析。

(2) 文本预处理 (25 分)

目标: 对获取到的评论文本进行预处理。确保不区分大小写，去除标点符号，移除常见词（如 "the", "is" 等），并处理词尾的变体（如过去式、复数等）。
任务: 使用自然语言处理技术（如 Tokenization、Stopwords 移除、词干化/词形还原）清洗和规范化文本。

(3) 获取情感分数 (30 分)

目标: 使用字典情感分析方法为每条评论生成情感分数。
任务: 首先从预处理的文本创建一个文档-词频矩阵（DTM），然后为每一行（即每条评论）生成情感分数。可以使用 NRC、AfiNN 或 Bing 等字典方法来生成情感分数。确保有 50 条评论对应 50 个情感分数。

(4) 确定情感极性 (15 分)

目标: 根据情感分数判断每条评论是正面、中立还是负面。
任务: 如果评论中有星级评分，你可以通过分箱（binning）将星级评分转为这三个类别。如果没有评分，你可以手动读取并标记每条评论的极性。

(5) 数据可视化 (15 分)

目标: 创建一个数据可视化，比较情感分数与情感极性之间的关系。
任务: 根据 Module 2 中的可视化原则，生成一个图表来展示情感分数和情感极性。通过视频解释这个图表，讨论图表是否符合预期。

(6) 额外加分（25 分）

目标: 使用预训练的大型语言模型（LLM）如 BERT、DistilBERT 或 GPT 模型来生成情感分数。
任务: 编写代码调用预训练的 LLM 模型进行情感分析，并生成新的情感分数。创建额外的数据可视化，将新情感分数与第 (3) 步和第 (4) 步的情感分数进行比较。

(7) CSV 文件生成 (15 分)

目标: 生成一个包含评论、预处理后的文本、情感分数、情感极性及加分项情感分数的 CSV 或 Excel 文件。
任务: 为每条评论生成对应的行，包含原始评论文本、预处理后的文本、情感分数、情感极性和（如有）加分项情感分数。

提交要求

你需要上传以下文件：

代码文件 (.r, .py, .ipynb, .rmd 等)
图像文件 (.png, .jpg) 或文档 (.docx, .pdf) 包含第 (5) 步的数据可视化图表
CSV 或 Excel 文件，包含每条评论的详细数据
视频录制 (.mov, .mp4)，或者 Word 文档提供视频 URL
（可选）额外的图像文件，若你完成了加分项

提醒事项

作业评分标准包括：
1. 你是否正确理解问题？
2. 你是否使用了正确的算法？
3. 你的代码是否能够正确运行并完成所有要求的任务？
4. 你是否能正确解释结果？
5. 你是否能清晰解释代码并回答可能提出的问题？
每迟交一天扣 5% 分数。你可以有一次机会最多迟交三天，但其他作业将受到迟交处罚。
如果作业迟交超过三天，将不予评分，除非教授或助教另有决定。

联系我们

WeChat：pythonyt001
Email: [email protected]

#CS688 ¹ #代做 ⁴⁶ #代写 ⁴⁶ #Python ²³ #R语言 ⁸

0

COMP371 Lab #3 案例展示：领域模型和系统顺序图

案例展示 STAC32 Assignment 2