Lab 12: Capstone Project Intensive

Integrasi Komprehensif: Dari Ideasi hingga Deployment Sistem ML Produksi

Author

Pembelajaran Mesin - Data Science for Cybersecurity

Published

December 15, 2025

29 Lab 12: Capstone Project Intensive

29.1 Selamat Datang ke Kulminasi Pembelajaran Mesin!

Note

Apa yang akan Anda lakukan: Membangun dan mendeploykan sistem machine learning produksi yang mengintegrasikan SEMUA konsep dari seluruh kursus.

Tingkat Kesulitan: Advanced

Estimasi Waktu: 8 jam (proyek multi-minggu, Minggu 13-14)

Tujuan Utama: Demonstrasi mastery dalam problem-solving ML end-to-end dengan standar profesional

29.2 Mengapa Lab Ini Penting?

Lab capstone adalah puncak dari perjalanan pembelajaran Anda. Ini bukan sekadar tugas - ini adalah kesempatan untuk:

Menunjukkan Kompetensi Penuh: Mengintegrasikan semua 5 CPMK (learning outcomes) dalam satu proyek kohesif
Menghadapi Tantangan Real-World: Bekerja dengan dataset asli, constraint bisnis, dan ketidakpastian
Membangun Portfolio: Proyek berkualitas tinggi untuk karir data science Anda
Menguasai Praktik Profesional: Mengikuti standar industri untuk ML development

29.2.1 Skenario Real-World

Anda adalah Senior ML Engineer untuk startup FinTech:

Startup kami menghadapi masalah serius dengan fraud detection. Sistem lama kami berbasis rule manual dan hanya menangkap 45% fraud dengan false positive rate 15% (banyak customer komplain). Kami butuh solusi ML yang robust untuk:

Meningkatkan fraud detection rate menjadi 85%+
Mengurangi false positive rate menjadi <5%
API harus merespons dalam <100ms (per request)
Model harus interpretable (bisa jelaskan ke compliance team)
System harus production-ready dengan monitoring

Deadline: 2 minggu, budget: Anda (tim kecil). GO!

29.3 Tujuan Pembelajaran (Learning Outcomes)

Setelah menyelesaikan capstone ini, Anda mampu:

29.3.1 CPMK-1: Foundational ML Knowledge

Mengaplikasikan fundamental ML concepts untuk memecahkan masalah dunia nyata
Menjelaskan pilihan model dengan justifikasi teknis dan bisnis yang kuat

29.3.2 CPMK-2: End-to-End ML Pipelines

Membangun complete ML pipeline dari data collection hingga deployment
Mengoptimalkan pipeline untuk latency, memory, dan throughput constraints
Mengidentifikasi dan memitigasi data leakage dan common pitfalls

29.3.3 CPMK-3: Critical Analysis & Evaluation

Mengevaluasi model dengan multiple metrics yang appropriate untuk use case
Menganalisis failure modes dan melakukan error analysis sistematis
Memvalidasi hasil dengan cross-validation dan proper train/val/test splitting

29.3.4 CPMK-4: Advanced Solutions

Mengimplementasikan advanced techniques (ensemble, hyperparameter tuning, transfer learning)
Merancang system architecture untuk scalability dan maintainability

29.3.5 CPMK-5: Production ML Systems

Mendeploy model ke production dengan proper containerization dan monitoring
Dokumentasikan sistem dengan standar profesional (model cards, READMEs, technical reports)
Mempresentasikan findings dan insights kepada stakeholders dengan berbagai backgrounds

29.4 Struktur Lab: 5 Bagian Terintegrasi (8 Jam Total)

graph TD
    Start["🎯 LAB 12: CAPSTONE PROJECT"]

    Part1["📋 BAGIAN 1: Project Planning & Scoping<br/>(2 jam)"]
    Part1a["✓ Memilih domain dan problem definition"]
    Part1b["✓ SMART criteria dan success metrics"]
    Part1c["✓ Timeline dan risk assessment"]
    Part1d["📦 Deliverable: Project Proposal"]

    Part2["📊 BAGIAN 2: Data & EDA<br/>(2 jam)"]
    Part2a["✓ Data collection dan loading"]
    Part2b["✓ Comprehensive EDA"]
    Part2c["✓ Data preprocessing pipeline"]
    Part2d["📦 Deliverable: EDA Report + Processed Dataset"]

    Part3["🤖 BAGIAN 3: Model Development<br/>(2 jam)"]
    Part3a["✓ Baseline model & advanced models"]
    Part3b["✓ Systematic experimentation"]
    Part3c["✓ Hyperparameter tuning & validation"]
    Part3d["📦 Deliverable: Model comparison & selection"]

    Part4["🚀 BAGIAN 4: Deployment & Production<br/>(1.5 jam)"]
    Part4a["✓ Model serialization & API development"]
    Part4b["✓ Docker containerization"]
    Part4c["✓ Monitoring & testing"]
    Part4d["📦 Deliverable: Deployable container + docs"]

    Part5["📢 BAGIAN 5: Presentation & Reporting<br/>(0.5 jam)"]
    Part5a["✓ Technical report writing"]
    Part5b["✓ Presentation preparation"]
    Part5c["📦 Deliverable: Report + slides"]

    Start --> Part1
    Part1 --> Part1a --> Part1b --> Part1c --> Part1d
    Part1d --> Part2
    Part2 --> Part2a --> Part2b --> Part2c --> Part2d
    Part2d --> Part3
    Part3 --> Part3a --> Part3b --> Part3c --> Part3d
    Part3d --> Part4
    Part4 --> Part4a --> Part4b --> Part4c --> Part4d
    Part4d --> Part5
    Part5 --> Part5a --> Part5b --> Part5c

    style Start fill:#4a148c,color:#fff,stroke:#4a148c,stroke-width:3px
    style Part1 fill:#1976d2,color:#fff,stroke:#1976d2,stroke-width:2px
    style Part2 fill:#388e3c,color:#fff,stroke:#388e3c,stroke-width:2px
    style Part3 fill:#f57c00,color:#fff,stroke:#f57c00,stroke-width:2px
    style Part4 fill:#d32f2f,color:#fff,stroke:#d32f2f,stroke-width:2px
    style Part5 fill:#7b1fa2,color:#fff,stroke:#7b1fa2,stroke-width:2px

    style Part1d fill:#e3f2fd,stroke:#1976d2,stroke-width:2px
    style Part2d fill:#e8f5e9,stroke:#388e3c,stroke-width:2px
    style Part3d fill:#fff3e0,stroke:#f57c00,stroke-width:2px
    style Part4d fill:#ffebee,stroke:#d32f2f,stroke-width:2px
    style Part5c fill:#f3e5f5,stroke:#7b1fa2,stroke-width:2px

graph TD
    Start["🎯 LAB 12: CAPSTONE PROJECT"]

    Part1["📋 BAGIAN 1: Project Planning & Scoping<br/>(2 jam)"]
    Part1a["✓ Memilih domain dan problem definition"]
    Part1b["✓ SMART criteria dan success metrics"]
    Part1c["✓ Timeline dan risk assessment"]
    Part1d["📦 Deliverable: Project Proposal"]

    Part2["📊 BAGIAN 2: Data & EDA<br/>(2 jam)"]
    Part2a["✓ Data collection dan loading"]
    Part2b["✓ Comprehensive EDA"]
    Part2c["✓ Data preprocessing pipeline"]
    Part2d["📦 Deliverable: EDA Report + Processed Dataset"]

    Part3["🤖 BAGIAN 3: Model Development<br/>(2 jam)"]
    Part3a["✓ Baseline model & advanced models"]
    Part3b["✓ Systematic experimentation"]
    Part3c["✓ Hyperparameter tuning & validation"]
    Part3d["📦 Deliverable: Model comparison & selection"]

    Part4["🚀 BAGIAN 4: Deployment & Production<br/>(1.5 jam)"]
    Part4a["✓ Model serialization & API development"]
    Part4b["✓ Docker containerization"]
    Part4c["✓ Monitoring & testing"]
    Part4d["📦 Deliverable: Deployable container + docs"]

    Part5["📢 BAGIAN 5: Presentation & Reporting<br/>(0.5 jam)"]
    Part5a["✓ Technical report writing"]
    Part5b["✓ Presentation preparation"]
    Part5c["📦 Deliverable: Report + slides"]

    Start --> Part1
    Part1 --> Part1a --> Part1b --> Part1c --> Part1d
    Part1d --> Part2
    Part2 --> Part2a --> Part2b --> Part2c --> Part2d
    Part2d --> Part3
    Part3 --> Part3a --> Part3b --> Part3c --> Part3d
    Part3d --> Part4
    Part4 --> Part4a --> Part4b --> Part4c --> Part4d
    Part4d --> Part5
    Part5 --> Part5a --> Part5b --> Part5c

    style Start fill:#4a148c,color:#fff,stroke:#4a148c,stroke-width:3px
    style Part1 fill:#1976d2,color:#fff,stroke:#1976d2,stroke-width:2px
    style Part2 fill:#388e3c,color:#fff,stroke:#388e3c,stroke-width:2px
    style Part3 fill:#f57c00,color:#fff,stroke:#f57c00,stroke-width:2px
    style Part4 fill:#d32f2f,color:#fff,stroke:#d32f2f,stroke-width:2px
    style Part5 fill:#7b1fa2,color:#fff,stroke:#7b1fa2,stroke-width:2px

    style Part1d fill:#e3f2fd,stroke:#1976d2,stroke-width:2px
    style Part2d fill:#e8f5e9,stroke:#388e3c,stroke-width:2px
    style Part3d fill:#fff3e0,stroke:#f57c00,stroke-width:2px
    style Part4d fill:#ffebee,stroke:#d32f2f,stroke-width:2px
    style Part5c fill:#f3e5f5,stroke:#7b1fa2,stroke-width:2px

Lab 12 Capstone Project Workflow

30 BAGIAN 1: Project Planning & Scoping (2 Jam)

30.1 1.1 Memilih Domain Proyek Anda

Anda harus memilih SATU dari 5 domain proyek yang disediakan. Setiap domain memiliki:

Problem statement template
Dataset sources
Success metrics guidelines
Example deliverables