CS代写 | 留学生计算机辅导 | Assignment代做 | Code代做 | 论文辅导

CS代写 | 留学生计算机辅导 | Assignment代做 | Code代做 | 论文辅导

案例代写 - FIT5202 - Data Processing for Big Data Assignment 2B

2024-10-21

案例代写 - FIT5202 - Data Processing for Big Data Assignment 2B

背景

在电子商务的动态世界中,Monash Fashion Corporation (MFC) 成为时尚产品的领先在线零售商。MFC 致力于通过无缝的购物体验赢得客户的信任,但随着数字商务的增长,欺诈活动也逐渐增多。这一问题不仅带来了经济损失,还威胁到了客户对平台的信任。因此,MFC 希望通过实时欺诈检测系统来应对这些挑战。该项目的目标是通过机器学习模型和流处理技术,帮助公司实时预测潜在的欺诈交易,并优化库存管理。

项目目标

在A2A部分中,已经完成了机器学习模型的开发。在A2B中,我们将模拟一个流处理应用程序,实时预测欺诈交易并提供数据可视化,以便企业做出更好的业务决策。该项目涉及到 Kafka、Spark Streaming 与机器学习模型的整合。

任务概述

  1. 使用 Apache Kafka 模拟实时数据流生产。
  2. 使用 Spark Streaming 消费流数据并进行欺诈预测。
  3. 实时可视化潜在欺诈交易和库存需求。

任务详情

Part 1: 数据生产 (10%)

在此任务中,我们将使用 Apache Kafka 模拟实时数据流生产,不允许使用 Spark。

  1. 每5秒发送一次浏览行为数据批次(每批次500-1000条随机记录)。
  2. 为每行记录添加Unix时间戳列 (ts),并根据事件时间分布。
  3. 将浏览行为和交易数据批次发送至 Kafka 主题。

Part 2: 使用 Spark Structured Streaming 进行流数据处理 (50%)

在此任务中,我们使用 PySpark 处理来自 Kafka 的流数据并进行欺诈预测。

  1. 创建 SparkSession,确保使用4核、设置正确的时区和检查点位置。
  2. 定义数据模式,加载静态数据集。
  3. 使用 Kafka 话题从 Part 1 消费数据,将 ts 列转换为时间戳格式,并丢弃延迟超过2分钟的数据。
  4. 聚合流数据,创建与A2A模型一致的特征,并将静态数据与流数据结合进行预测。
  5. 实时输出潜在欺诈交易的数量,并根据非欺诈交易显示客户购物车中最常购买的产品。
  6. 将原始数据和处理后的数据保存为 Parquet 文件,并将其作为流数据发送回 Kafka。

Part 3: 使用 Kafka 消费数据并可视化 (20%)

此任务中,我们使用 Apache Kafka 消费来自 Part 2 的数据,并进行实时可视化。

  1. 创建两个子图,分别显示每10秒的潜在欺诈计数柱状图和每30秒的产品销售折线图。
  2. 创建一个高级图表,展示潜在欺诈交易发生最多的地区。

Part 4: Demo 和面试 (20%)

将在 Week 12 进行演示和面试,学生需要展示应用并回答相关问题。

提交要求

  • 提交包含以下文件的 ZIP 文件:
    • Assignment-2B-Task1_producer_authcate.ipynb
    • Assignment-2B-Task2_spark_streaming_authcate.ipynb
    • Assignment-2B-Task3_consumer_authcate.ipynb

评分标准

评分基于代码的正确性、可读性、组织结构以及对问题的理解。每个任务均有明确的分配标准,复杂任务将根据工作质量评分。

联系我们

WeChat:pythonyt001
Email: [email protected]
17921737610209_.pic.jpg

  • 0
class="duration-300 fixed bottom-5 right-5 flex items-center justify-center rounded-full bg-neutral p-3 opacity-0 shadow transition-all hover:opacity-70 hover:shadow-lg lg:bottom-10 lg:right-10">