Ketika Real-Time Data Membutuhkan Arsitektur yang Lebih Sederhana

Mengapa kompleksitas data movement mulai menjadi tantangan bagi AI, analytics, dan modern enterprise workloads

Dalam beberapa tahun terakhir, organisasi berlomba mengadopsi AI, real-time analytics, automation, dan berbagai bentuk intelligent decision-making. Namun, seiring meningkatnya kebutuhan terhadap insight yang lebih cepat, muncul tantangan baru yang semakin sering dihadapi oleh data teams.

Semakin banyak sistem yang membutuhkan data secara real time, tetapi proses untuk memindahkan data dari berbagai sumber ke platform analytics dan AI sering kali tidak berkembang dengan kecepatan yang sama.

Akibatnya, efektivitas analytics dan AI tidak lagi hanya ditentukan oleh model atau platform yang digunakan, tetapi juga oleh seberapa cepat data dapat tersedia untuk dimanfaatkan.

Ketika Data Bergerak Lebih Lambat dari Kebutuhan Bisnis

Perubahan ini terlihat jelas di berbagai industri.

Di sektor perbankan dan fintech, data transaksi perlu tersedia dengan cepat untuk mendukung fraud detection dan risk monitoring. Di industri telekomunikasi, data performa jaringan harus diproses secara berkelanjutan untuk menjaga kualitas layanan. Di sektor manufaktur, telemetry dari mesin dan sensor IoT digunakan untuk mengidentifikasi potensi gangguan sebelum menyebabkan downtime. Sementara itu, perusahaan retail dan e-commerce mengandalkan clickstream data untuk mendukung personalisasi dan customer engagement.

Dalam seluruh skenario tersebut, nilai data sangat dipengaruhi oleh seberapa cepat data tersebut dapat digunakan.

Masalahnya, banyak arsitektur data modern dibangun dari berbagai lapisan infrastruktur yang harus bekerja bersama untuk memindahkan data dari sumber menuju platform analitik. Seiring bertambahnya volume data, jumlah sistem yang harus dikelola pun ikut bertambah.

Kompleksitas Streaming Infrastructure yang Terus Bertambah

Untuk mendukung kebutuhan real-time data, organisasi umumnya mengandalkan kombinasi message brokers, ingestion frameworks, CDC pipelines, partition management, transformation layers, dan berbagai komponen lainnya.

Setiap lapisan memiliki fungsi yang penting. Namun secara kolektif, seluruh komponen tersebut juga menambah kompleksitas operasional.

Data harus melewati lebih banyak sistem sebelum tersedia untuk digunakan. Infrastruktur yang harus dikelola semakin besar. Potensi latency ikut bertambah. Sementara itu, tim data harus menghabiskan lebih banyak waktu untuk mengelola platform dibandingkan menghasilkan nilai bisnis dari data itu sendiri.

Pertanyaan yang mulai muncul adalah apakah seluruh kompleksitas tersebut masih diperlukan untuk memenuhi kebutuhan data modern.

Upaya Menyederhanakan Perjalanan Data

Pertanyaan tersebut menjadi salah satu tema menarik yang muncul pada Data + AI Summit tahun ini melalui pengenalan Zerobus Ingest dari Databricks sebagai bagian dari Lakeflow Connect.

Alih-alih mengandalkan berbagai lapisan perantara untuk memindahkan data, pendekatan ini memungkinkan data producer mengirimkan data secara langsung ke Unity Catalog governed Delta tables.

Untuk mendukung kebutuhan enterprise-scale workloads, layanan ini dibangun dengan berbagai komponen seperti dynamic partitioning, zero-copy parsing, serta latency-optimized Write-Ahead Log (WAL). Databricks juga menyediakan dukungan melalui gRPC dan REST APIs, serta SDK untuk Python, Java, Rust, Go, dan TypeScript.

Pendekatan ini menunjukkan arah yang mulai terlihat di industri: bagaimana mengurangi kompleksitas data movement tanpa mengorbankan performa maupun governance.

Ketika Skala Tetap Menjadi Prioritas

Menyederhanakan arsitektur tentu hanya relevan jika tetap mampu mendukung kebutuhan skala besar.

Untuk menunjukkan kemampuannya, Databricks mendemonstrasikan Zerobus Ingest menggunakan dataset NASA NEOWISE.

Menurut Databricks, demonstrasi tersebut berhasil mengingest satu petabyte data yang terdiri dari lebih dari 200 miliar data point dalam waktu kurang dari 24 jam. Proses tersebut mempertahankan throughput sekitar 12 GB per detik dan memproses sekitar 12 juta baris data per detik ke dalam satu Delta table.

Databricks juga menyoroti kemampuan mencapai latency di bawah lima detik, throughput hingga 100 MB per detik per koneksi, throughput agregat lebih dari 10 GB per detik, serta dukungan untuk ribuan koneksi secara bersamaan.

Benchmark seperti ini penting bukan hanya karena angkanya besar, tetapi karena menunjukkan bahwa penyederhanaan arsitektur tidak selalu berarti mengorbankan skala.

Mengapa Hal Ini Penting bagi Berbagai Industri

Dampak dari perkembangan ini menjadi semakin relevan bagi industri yang menghasilkan data dalam volume besar secara terus-menerus.

Di sektor manufaktur, telemetry dan data IoT digunakan untuk mendukung predictive maintenance dan monitoring operasional. Di industri telekomunikasi, network signals dan customer experience metrics harus diproses secara cepat untuk menjaga kualitas layanan. Di sektor perbankan dan fintech, jutaan transaksi perlu dianalisis untuk mendukung fraud detection dan pengelolaan risiko. Sementara itu, perusahaan retail dan e-commerce semakin bergantung pada clickstream data untuk personalisasi dan optimalisasi pengalaman pelanggan.

Meskipun use case-nya berbeda, kebutuhan dasarnya semakin serupa: memperpendek waktu antara data dihasilkan dan data digunakan.

Masa Depan Real-Time Data Platforms

Selama bertahun-tahun, diskusi mengenai platform data sering berfokus pada bagaimana membangun sistem yang lebih besar, lebih cepat, dan lebih scalable.

Kini percakapannya mulai bergeser.

Selain performa dan kapasitas, organisasi juga mulai mempertimbangkan bagaimana menyederhanakan perjalanan data dari sumber hingga ke platform yang membutuhkannya. Semakin banyak workload yang berjalan secara real time, semakin penting pula kemampuan untuk mengurangi kompleksitas yang berada di antara data creation dan data consumption.

Dalam konteks tersebut, inovasi seperti Zerobus Ingest tidak hanya menarik karena benchmark yang ditampilkan, tetapi juga karena apa yang diwakilinya: upaya untuk membangun arsitektur data yang lebih sederhana tanpa mengorbankan skala yang dibutuhkan oleh analytics, AI, dan modern enterprise workloads.