案例代写 - FIT5202 - Data Processing for Big Data Assignment 2B
编辑
15
2024-10-21
案例代写 - FIT5202 - Data Processing for Big Data Assignment 2B
背景
在电子商务的动态世界中,Monash Fashion Corporation (MFC) 成为时尚产品的领先在线零售商。MFC 致力于通过无缝的购物体验赢得客户的信任,但随着数字商务的增长,欺诈活动也逐渐增多。这一问题不仅带来了经济损失,还威胁到了客户对平台的信任。因此,MFC 希望通过实时欺诈检测系统来应对这些挑战。该项目的目标是通过机器学习模型和流处理技术,帮助公司实时预测潜在的欺诈交易,并优化库存管理。
项目目标
在A2A部分中,已经完成了机器学习模型的开发。在A2B中,我们将模拟一个流处理应用程序,实时预测欺诈交易并提供数据可视化,以便企业做出更好的业务决策。该项目涉及到 Kafka、Spark Streaming 与机器学习模型的整合。
任务概述
- 使用 Apache Kafka 模拟实时数据流生产。
- 使用 Spark Streaming 消费流数据并进行欺诈预测。
- 实时可视化潜在欺诈交易和库存需求。
任务详情
Part 1: 数据生产 (10%)
在此任务中,我们将使用 Apache Kafka 模拟实时数据流生产,不允许使用 Spark。
- 每5秒发送一次浏览行为数据批次(每批次500-1000条随机记录)。
- 为每行记录添加Unix时间戳列 (
ts
),并根据事件时间分布。 - 将浏览行为和交易数据批次发送至 Kafka 主题。
Part 2: 使用 Spark Structured Streaming 进行流数据处理 (50%)
在此任务中,我们使用 PySpark 处理来自 Kafka 的流数据并进行欺诈预测。
- 创建 SparkSession,确保使用4核、设置正确的时区和检查点位置。
- 定义数据模式,加载静态数据集。
- 使用 Kafka 话题从 Part 1 消费数据,将
ts
列转换为时间戳格式,并丢弃延迟超过2分钟的数据。 - 聚合流数据,创建与A2A模型一致的特征,并将静态数据与流数据结合进行预测。
- 实时输出潜在欺诈交易的数量,并根据非欺诈交易显示客户购物车中最常购买的产品。
- 将原始数据和处理后的数据保存为 Parquet 文件,并将其作为流数据发送回 Kafka。
Part 3: 使用 Kafka 消费数据并可视化 (20%)
此任务中,我们使用 Apache Kafka 消费来自 Part 2 的数据,并进行实时可视化。
- 创建两个子图,分别显示每10秒的潜在欺诈计数柱状图和每30秒的产品销售折线图。
- 创建一个高级图表,展示潜在欺诈交易发生最多的地区。
Part 4: Demo 和面试 (20%)
将在 Week 12 进行演示和面试,学生需要展示应用并回答相关问题。
提交要求
- 提交包含以下文件的 ZIP 文件:
Assignment-2B-Task1_producer_authcate.ipynb
Assignment-2B-Task2_spark_streaming_authcate.ipynb
Assignment-2B-Task3_consumer_authcate.ipynb
评分标准
评分基于代码的正确性、可读性、组织结构以及对问题的理解。每个任务均有明确的分配标准,复杂任务将根据工作质量评分。
联系我们
WeChat:pythonyt001
Email: [email protected]
- 0
-
分享