案例代写 - FIT5202 - Data Processing for Big Data Assignment 2B

背景

在电子商务的动态世界中，Monash Fashion Corporation (MFC) 成为时尚产品的领先在线零售商。MFC 致力于通过无缝的购物体验赢得客户的信任，但随着数字商务的增长，欺诈活动也逐渐增多。这一问题不仅带来了经济损失，还威胁到了客户对平台的信任。因此，MFC 希望通过实时欺诈检测系统来应对这些挑战。该项目的目标是通过机器学习模型和流处理技术，帮助公司实时预测潜在的欺诈交易，并优化库存管理。

项目目标

在A2A部分中，已经完成了机器学习模型的开发。在A2B中，我们将模拟一个流处理应用程序，实时预测欺诈交易并提供数据可视化，以便企业做出更好的业务决策。该项目涉及到 Kafka、Spark Streaming 与机器学习模型的整合。

任务概述

使用 Apache Kafka 模拟实时数据流生产。
使用 Spark Streaming 消费流数据并进行欺诈预测。
实时可视化潜在欺诈交易和库存需求。

任务详情

Part 1: 数据生产 (10%)

在此任务中，我们将使用 Apache Kafka 模拟实时数据流生产，不允许使用 Spark。

每5秒发送一次浏览行为数据批次（每批次500-1000条随机记录）。
为每行记录添加Unix时间戳列 (ts)，并根据事件时间分布。
将浏览行为和交易数据批次发送至 Kafka 主题。

Part 2: 使用 Spark Structured Streaming 进行流数据处理 (50%)

在此任务中，我们使用 PySpark 处理来自 Kafka 的流数据并进行欺诈预测。

创建 SparkSession，确保使用4核、设置正确的时区和检查点位置。
定义数据模式，加载静态数据集。
使用 Kafka 话题从 Part 1 消费数据，将 ts 列转换为时间戳格式，并丢弃延迟超过2分钟的数据。
聚合流数据，创建与A2A模型一致的特征，并将静态数据与流数据结合进行预测。
实时输出潜在欺诈交易的数量，并根据非欺诈交易显示客户购物车中最常购买的产品。
将原始数据和处理后的数据保存为 Parquet 文件，并将其作为流数据发送回 Kafka。

Part 3: 使用 Kafka 消费数据并可视化 (20%)

此任务中，我们使用 Apache Kafka 消费来自 Part 2 的数据，并进行实时可视化。

创建两个子图，分别显示每10秒的潜在欺诈计数柱状图和每30秒的产品销售折线图。
创建一个高级图表，展示潜在欺诈交易发生最多的地区。

Part 4: Demo 和面试 (20%)

将在 Week 12 进行演示和面试，学生需要展示应用并回答相关问题。

提交要求

提交包含以下文件的 ZIP 文件：
- Assignment-2B-Task1_producer_authcate.ipynb
- Assignment-2B-Task2_spark_streaming_authcate.ipynb
- Assignment-2B-Task3_consumer_authcate.ipynb

评分标准

评分基于代码的正确性、可读性、组织结构以及对问题的理解。每个任务均有明确的分配标准，复杂任务将根据工作质量评分。

联系我们

WeChat：pythonyt001
Email: [email protected]
17921737610209_.pic.jpg

CS代写 | 留学生计算机辅导 | Assignment代做 | Code代做 | 论文辅导

CS代写 | 留学生计算机辅导 | Assignment代做 | Code代做 | 论文辅导

案例代写 - FIT5202 - Data Processing for Big Data Assignment 2B

案例代写 - FIT5202 - Data Processing for Big Data Assignment 2B

背景

项目目标

任务概述

任务详情

Part 1: 数据生产 (10%)

Part 2: 使用 Spark Structured Streaming 进行流数据处理 (50%)

Part 3: 使用 Kafka 消费数据并可视化 (20%)

Part 4: Demo 和面试 (20%)

提交要求

评分标准

联系我们

分享