Sz
Sıfır Gecikme
veri bilimi · türkçe
Hakkımda🗺️ Haritam
Tümü
İnteraktif📖Rehber🛠Araç📊Vaka💼Kariyer🐍PY Playground🗄️SQL Playground🔍Regex📚Öğren🚀Proje
Ana sayfarehber

Veri bilimcisi için cloud: GCP mi AWS mi?

2026 · cloud · veri mühendisliği · 18 dakika okuma

İş ilanlarına bak: çoğunda "AWS veya GCP deneyimi tercih sebebi" yazar. Peki hangisini öğreneceksin? Hangisi ne işe yarar? Veri bilimcisi gözünden, pratik örneklerle anlatalım.

Önce şunu söyleyelim

GCP ve AWS arasındaki seçim çoğu zaman şirkete göre değişir — ekibin ne kullandığına bak. Ama servis mantığını anlarsan birinden diğerine geçmek 2-3 haftada olur. Kavramlar aynı, isimler farklı.

Bu rehberde veri bilimcisinin en çok karşılaştığı 6 kategoriyi işleyeceğiz: depolama, veri ambarı, notebook ortamı, ML platformu, pipeline/ETL ve maliyet.

1. Depolama — S3 vs Cloud Storage

Her veri projesinin ilk adımı: veriyi bir yere koymak. Ham CSV, Parquet dosyaları, model artifact'ları, log dosyaları — hepsi nesne depolama alanına gider.

AWS
Amazon S3
Piyasanın standardı. Neredeyse her açık kaynak araç S3'ü destekler. Bucket → prefix → nesne hiyerarşisi.
GCP
Cloud Storage (GCS)
S3 ile neredeyse birebir aynı mantık. BigQuery ile entegrasyonu çok daha pürüzsüz. gsutil veya gcloud CLI ile yönetilir.
# AWS S3 — veri yükleme
aws s3 cp veri.parquet s3://bucket-adim/raw/veri.parquet
aws s3 sync ./data/ s3://bucket-adim/processed/

# GCP Cloud Storage — aynı işlem
gsutil cp veri.parquet gs://bucket-adim/raw/veri.parquet
gsutil -m rsync -r ./data/ gs://bucket-adim/processed/

Python'da her ikisi de benzer şekilde kullanılır:

# AWS — boto3
import boto3
s3 = boto3.client('s3')
s3.upload_file('veri.csv', 'bucket-adim', 'raw/veri.csv')

# GCP — google-cloud-storage
from google.cloud import storage
client = storage.Client()
bucket = client.bucket('bucket-adim')
bucket.blob('raw/veri.csv').upload_from_filename('veri.csv')
Ne seçmeli?

BigQuery kullanacaksan GCS daha kolay. Diğer her şey için S3 — ekosistem daha geniş, Stack Overflow'daki cevap sayısı 3 kat fazla.

2. Veri Ambarı — BigQuery vs Redshift

Veri bilimcisinin en çok zaman geçirdiği yer. Petabyte ölçeğinde SQL, hızlı analiz, BI araçlarına bağlantı.

GCP
BigQuery
Serverless — cluster yönetimi yok. Sorgulayan veri kadar öde. Çok büyük sorgular için genellikle daha ucuz ve hızlı.
AWS
Redshift
Cluster tabanlı — saatlik ödeme. Sürekli yük varsa maliyet daha öngörülebilir. Redshift Serverless de var artık.
ÖzellikBigQueryRedshift
Fiyat modeliTaranan veri başına ($5/TB)Saatlik cluster veya serverless
KurulumSıfır — hemen kullanCluster oluşturman gerekir
ML entegrasyonuBigQuery ML — SQL ile model eğitRedshift ML — SageMaker entegrasyonu
Coğrafi dağılımBölgeden bağımsız sorgulamaBölgeye bağlı
dbt uyumuÇok iyiÇok iyi
Ücretsiz katman10 GB depo + 1 TB/ay sorgu2 ay ücretsiz DC2.Large

BigQuery'nin en büyük avantajı: SQL ile doğrudan ML modeli eğitebilirsin.

-- BigQuery ML — SQL ile lojistik regresyon
CREATE OR REPLACE MODEL dataset.churn_model
OPTIONS(
  model_type = 'LOGISTIC_REG',
  input_label_cols = ['is_churned'],
  auto_class_weights = TRUE
) AS
SELECT
  kullanici_yasi,
  son_30_gun_giris,
  odeme_gecikme_sayisi,
  plan_tipi,
  is_churned
FROM dataset.kullanici_ozellikleri
WHERE tarih < '2025-01-01';

-- Tahmin yap
SELECT *
FROM ML.PREDICT(
  MODEL dataset.churn_model,
  (SELECT * FROM dataset.yeni_kullanicilar)
);

3. Notebook Ortamı — Colab vs SageMaker Studio

Keşif analizi, model geliştirme, prototip oluşturma — bunların hepsi notebook ortamında olur.

GCP
Vertex AI Workbench / Colab Enterprise
Google Colab'ın kurumsal versiyonu. GCS ve BigQuery ile sıfır config entegrasyon. GPU'lu notebook kolayca açılıyor.
AWS
SageMaker Studio
Tam entegre ML IDE. Notebook, deney takibi, model deployu tek çatı altında. Öğrenmesi biraz zaman alır.

İkisinde de temel kullanım aynı — Jupyter notebook. Fark ortamın nasıl kurulduğunda ve servislerle entegrasyonda.

# SageMaker Studio'da S3'ten veri okuma
import boto3
import pandas as pd

s3 = boto3.client('s3')
obj = s3.get_object(Bucket='bucket-adim', Key='data/egitim.csv')
df = pd.read_csv(obj['Body'])

# Vertex AI Workbench'te GCS'ten veri okuma
from google.cloud import storage
import pandas as pd

client = storage.Client()
df = pd.read_csv('gs://bucket-adim/data/egitim.csv')
# ya da daha kısa:
df = pd.read_gbq('SELECT * FROM dataset.tablo', project_id='proje-id')

4. ML Platformu — Vertex AI vs SageMaker

Model eğitimi, hyperparametre optimizasyonu, deney takibi, model servise alma — bunlar için managed ML platformu kullanmak işleri kolaylaştırır.

GCP
Vertex AI
Unified ML platform. AutoML, custom training, model registry, feature store, pipeline — hepsi tek API altında. 2021'de yenilendi, temiz arayüzü var.
AWS
Amazon SageMaker
Piyasanın en olgun ML platformu. Onlarca özellik — bazen kafa karıştırıcı olabiliyor. Autopilot, Pipelines, Model Monitor, Clarify dahil.
# Vertex AI — özel eğitim işi başlatma
from google.cloud import aiplatform

aiplatform.init(project='proje-id', location='europe-west4')

job = aiplatform.CustomTrainingJob(
    display_name='churn-modeli',
    script_path='train.py',
    container_uri='europe-docker.pkg.dev/vertex-ai/training/sklearn-cpu.1-0:latest',
    requirements=['pandas', 'scikit-learn'],
)

model = job.run(
    dataset=dataset,
    replica_count=1,
    machine_type='n1-standard-4',
    args=['--epochs', '50', '--lr', '0.001'],
)
# SageMaker — aynı işlem
import sagemaker
from sagemaker.sklearn import SKLearn

estimator = SKLearn(
    entry_point='train.py',
    framework_version='1.2-1',
    instance_type='ml.m5.xlarge',
    instance_count=1,
    role=sagemaker.get_execution_role(),
    hyperparameters={'epochs': 50, 'lr': 0.001},
)

estimator.fit({'train': 's3://bucket/data/egitim'})
ÖzellikVertex AISageMaker
OlgunlukDaha yeni, temiz APIDaha eski, daha geniş ekosistem
AutoMLVertex AutoML — tablolar, görüntü, NLPAutopilot — tablolar odaklı
Feature StoreVertex Feature StoreSageMaker Feature Store
MLflow uyumuVertex Experiments (MLflow benzeri)MLflow doğrudan destekleniyor
Model deploymentVertex Prediction endpointsSageMaker Endpoints
FiyatKullanım bazlıKullanım bazlı

5. Pipeline ve ETL — Dataflow vs Glue

Verinin bir yerden alınıp başka bir yere dönüştürülerek taşınması — ETL. Büyük ölçekte bunu yönetmek için managed servisler.

GCP
Dataflow + Cloud Composer
Dataflow: Apache Beam tabanlı, batch ve streaming için. Cloud Composer: yönetilen Apache Airflow — pipeline orkestrasyon için.
AWS
AWS Glue + MWAA
Glue: serverless Spark ETL, Data Catalog dahil. MWAA: yönetilen Airflow. Step Functions ile de pipeline kurulabilir.
# AWS Glue — basit ETL scripti
import sys
from awsglue.context import GlueContext
from pyspark.context import SparkContext

sc = SparkContext()
glueContext = GlueContext(sc)

# S3'ten veri oku
datasource = glueContext.create_dynamic_frame.from_catalog(
    database='veritabanim',
    table_name='ham_satislar'
)

# Dönüştür
from awsglue.transforms import ApplyMapping
donusturulmus = ApplyMapping.apply(
    frame=datasource,
    mappings=[
        ('satis_id', 'string', 'satis_id', 'string'),
        ('tutar', 'string', 'tutar', 'double'),
        ('tarih', 'string', 'tarih', 'date'),
    ]
)

# Redshift'e yaz
glueContext.write_dynamic_frame.from_jdbc_conf(
    frame=donusturulmus,
    catalog_connection='redshift-baglantim',
    connection_options={'dbtable': 'temiz_satislar', 'database': 'analizdb'},
)

6. Hangi senaryoda hangisi?

Büyük SQL analizleri, ad-hoc sorgular
Serverless, taranan veri başına ödeme — büyük veri ucuza gelir
BigQuery (GCP)
Kurumsal ML pipeline'ı, A/B testi
En olgun ekosistem, MLOps araçları hazır
SageMaker (AWS)
Hızlı prototip, GPU'lu notebook
BigQuery + GCS entegrasyonu sıfır config
Colab Enterprise (GCP)
Startup — her şey için bir ekosistem
En geniş servis kataloğu, en fazla kaynak/topluluk
AWS
Analytics engineering + dbt
dbt + BigQuery kombinasyonu sektörde popüler ve hızlı
GCP + BigQuery
Mevcut ekip AWS kullanıyor
Geçiş maliyeti seçim kriterinden ağır basar
AWS

Ücretsiz başlamak

Her iki platform da ücretsiz katmanla başlamana izin veriyor:

GCP Ücretsiz Katman
BigQuery: 1 TB/ay ücretsiz sorgu
Cloud Storage: 5 GB ücretsiz
Vertex AI Workbench: sınırlı ücretsiz
$300 başlangıç kredisi (90 gün)
AWS Ücretsiz Katman
S3: 5 GB depolama (12 ay)
SageMaker Studio Lab: ücretsiz notebook
Athena: 5 TB/ay ücretsiz sorgu
$300 başlangıç kredisi

Başlangıç için tavsiyem: GCP ücretsiz katmanından BigQuery'e gir, birkaç GB'lık açık veri setiyle SQL yaz. Hem serverless demek ne demek anlarsın, hem de BigQuery'nin hızına şaşırırsın.

Özet — Hızlı Referans

KategoriGCP ServisiAWS Servisi
Nesne depolamaCloud Storage (GCS)Amazon S3
Veri ambarıBigQueryRedshift
NotebookColab Enterprise / WorkbenchSageMaker Studio
ML platformuVertex AISageMaker
Batch ETLDataflow / DataprocGlue / EMR
Pipeline orkestrasyonCloud Composer (Airflow)MWAA (Airflow)
StreamingPub/Sub + DataflowKinesis + Lambda
Data catalogDataplexGlue Data Catalog
BI araçlarıLooker StudioQuickSight

Sonraki adım: ETL nedir? Veriyi taşımanın sistematik yolu →

Bunları da beğenebilirsin

rehber

Pandas'ta en çok yanlış bilinen 7 şey

15 dakika

rehber

Feature engineering: modelden önce gelen sanat

15 dakika

rehber

SQL temelleri: veri analistinin en önemli becerisi

20 dakika

Faydalı bulduysan paylaş

X'te paylaşLinkedIn'de paylaş

💬 Yorumlar