SQL Server Clustered Index Tasarımı

SQL Server'da her tablo en fazla bir clustered index içerebilir ve bu indeks, tablo verilerinin fiziksel sıralama düzenini doğrudan belirler. Bu nedenle, tablonun veri sayfalarındaki satırlar, clustered indeks anahtarının sırasına göre depolanır. Bu yapı, heap olarak adlandırılan ve herhangi bir fiziksel sıralaması olmayan tablo yapısından temel bir farklılık gösterir. Bir tabloya clustered indeks eklendiğinde, verilerin kendisi yeniden düzenlenerek indeksin yaprakları (leaf level) haline gelir.

Bu fiziksel sıralama, sorgu performansı üzerinde son derece kritik bir etkiye sahiptir. Clustered indeks, aralık sorguları (range queries) için mükemmel bir performans sağlar çünkü veriler zaten fiziksel olarak sıralı olduğundan, ilgili veri blokları ardışık olarak okunabilir. Ancak, bu avantaj aynı zamanda bir tasarım zorluğunu da beraberinde getirir: Anahtar seçimi yanlış yapılırsa, veri ekleme işlemleri sırasında sayfa bölünmeleri (page splits) sıkça yaşanabilir ve bu da performansı olumsuz etkiler.

Clustered indeksin benzersiz (unique) olması tercih edilir ve genellikle önerilir. SQL Server, benzersiz olmayan bir clustered indeks oluşturmanıza izin verse bile, arka planda bir uniquifier sütunu ekleyerek onu benzersiz hale getirir. Bu durum, indeks yapısını ve dolayısıyla depolama alanını biraz daha karmaşıklaştırır. Bu nedenle, kimlik sütunu (identity column) gibi doğal olarak benzersiz ve sürekli artan bir değer, clustered indeks için ideal bir aday olarak öne çıkar.

Özellik	Clustered Index	Heap
Fiziksel Sıralama	Var (Anahtar sırasına göre)	Yok
Sayfa Yapısı	Yaprak seviyesi verilerin kendisidir.	Veri sayfaları birbirinden bağımsızdır.
Sıralı Tarama (Scan) Hızı	Yüksek	Düşük
Satır Konum Belirteci (RID)	Clustered Index Anahtarı	Fiziksel RID (File:Page:Slot)

Clustered indeksin, nonclustered indeksler üzerinde de doğrudan bir etkisi vardır. Bir tabloda clustered indeks varsa, tüm nonclustered indekslerin yaprak seviyesinde, aranan verinin fiziksel konumu yerine clustered indeks anahtar değeri bulunur. Bu durum, nonclustered indeks aracılığıyla yapılan bir aramanın son aşamasında, clustered indekste bir anahtar araması (key lookup) gerektirebilir. Bu nedenle, clustered indeks anahtarının mümkün olduğunca dar (narrow) ve statik (static) olması, tüm indeks yapısının verimliliği için hayati öneme sahiptir.

Anahtar Seçim Kriterleri

Clustered indeks tasarımının kalbi, doğru anahtar sütununu veya sütun kombinasyonunu seçmektir. Bu seçim, veritabanının uzun vadeli performansını, ölçeklenebilirliğini ve bakım maliyetlerini belirler. Yanlış bir seçim, yavaş sorgulara, aşırı disk I/O'ya ve yoğun parçalanmaya (fragmentation) yol açabilir. Bu nedenle, anahtar seçimi bir dizi kriterin dikkatli bir şekilde değerlendirilmesini gerektirir.

İlk ve en önemli kriter, anahtarın benzersizliği (uniqueness)'dir. Daha önce de belirtildiği gibi, benzersiz olmayan bir anahtar, sistem tarafından benzersiz hale getirilir, bu da ek yük ve karmaşıklık demektir. İkinci kritik kriter, anahtar değerlerin artan (ascending) sırada eklenme eğiliminde olmasıdır. Ardışık artan değerler (örneğin, IDENTITY veya SEQUENCE), verilerin her zaman indeksin sonuna eklenmesini sağlar, bu da sayfa bölünmelerini ve parçalanmayı minimize eder.

Dar (Narrow) Anahtar: Anahtar ne kadar çok byte kaplarsa, tüm nonclustered indekslerde de o kadar fazla yer kaplar ve bellek verimliliği düşer.
Statik (Static) Anahtar: Değeri sık güncellenmeyen bir sütun seçilmelidir. Clustered indeks anahtarı güncellendiğinde, SQL Server satırı fiziksel olarak taşımak zorunda kalabilir, bu maliyetli bir işlemdir.
Artan Düzen (Ascending Order): INSERT işlemlerinin performansı ve parçalanmanın önlenmesi için kritiktir.
Sorgu Desenleri ile Uyum: En sık yapılan WHERE, JOIN veya ORDER BY sorgularının desenlerine hizmet eden bir anahtar seçmek fayda sağlar.

Sütunların veri tipleri de seçimi etkiler. Örneğin, BIGINT veya INT gibi sabit uzunluklu (fixed-length) ve küçük veri tipleri, NVARCHAR(500) gibi değişken uzunluklu ve geniş tiplere göre çok daha verimlidir. Ayrıca, birden fazla sütundan oluşan birleşik (composite) bir anahtar kullanılacaksa, bu sütunların toplam genişliği mümkün olduğunca küçük tutulmalıdır.

Sorgu desenleri analizi, pratikte hangi sütunun aday olduğuna karar vermede yardımcı olur. Örneğin, bir "Siparişler" tablosunda çoğu sorgu son bir haftanın siparişlerini tarihe göre sıralayarak getiriyorsa, `SiparisTarihi` sütunu güçlü bir adaydır. Ancak, bu sütunun kendisi nadiren benzersiz olacağından, `SiparisID` (IDENTITY) gibi benzersiz bir sütunla birlikte değerlendirilmelidir. Doğru dengeyi bulmak, teorik kuralların iş yükü gerçekleriyle harmanlanmasını gerektirir.

Aday Sütun Türü	Avantajlar	Dezavantajlar / Dikkat Edilmesi Gerekenler
IDENTITY / SEQUENCE (INT, BIGINT)	Benzersiz, dar, artan, statik. Mükemmel seçim.	Rastgele erişimli sorgular için sıralama avantajı sağlamaz.
Tarih/Saat (Örn: Oluşturulma Zamanı)	Artandır; zaman bazlı aralık sorguları için idealdir.	Benzersiz olmayabilir. Aynı anda çok kayıt eklenirse "hot spot" oluşabilir.
Müşteri No veya Benzer İş Anahtarı	Sorgu desenleri ile doğal uyum sağlayabilir.	Geniş olabilir, değişebilir veya artan olmayabilir.
Birleşik Anahtar (Örn: BölümNo + ArtanID)	Bölümlenmiş (partitioned) erişimde verimli olabilir.	Genişliği artırır. Güncellemesi daha karmaıktır.

Sonuç olarak, anahtar seçimi sırasında tüm bu kriterlerin ağırlığı, spesifik uygulamanın iş yüküne göre değişiklik gösterecektir. Yüksek oranda ekleme (INSERT) yapılan bir OLTP sisteminde, artan ve dar anahtarın önemi çok daha fazlayken, ağırlıklı olarak raporlama (OLAP) yapılan bir sistemde, en sık kullanılan aralık sorgularını hızlandıran bir anahtar ön plana çıkabilir.

Tasarım ve Performans

Clustered index tasarımı ile sistem performansı arasında doğrudan ve güçlü bir bağ vardır. İyi tasarlanmış bir clustered index, veri erişim maliyetlerini önemli ölçüde düşürerek genel veritabanı verimliliğini artırır. Tasarım kararları, sorgu yürütme planlarını, g/ç (I/O) faaliyetlerini ve bellek kullnımını derinden etkiler. Bu nedenle, yalnızca teorik kurallara değil, aynı zamanda gerçek dünya iş yükü izleme ve analizine dayalı bir tasarım yaklaşımı benimsemek esastır.

Tasarımın en kritik performans etkilerinden biri, sayfa yoğunluğu (page density) ile ilgilidir. Clustered indeks anahtarı geniş ve değişken uzunluklu ise, her veri sayfasına daha az satır sığar. Bu durum, daha fazla sayfa ve dolayısıyla daha fazla bellek tüketimi, daha yavaş tam taramalar (full scans) ve artan g/ç anlamına gelir. Dar bir anahtar kullanmak, sayfa başına daha fazla satırın sığmasını sağlayarak bu kaynakların çok daha verimli kullanılmasına olanak tanır. SQL Server'ın bir sorgu için verileri ne kadar hızlı okuyabileceği, doğrudan okunması gereken sayfa sayısıyla ilişkilidir.

Nonclustered indekslerle olan etkileşim de performansı şekillendirir. Clustered indeks anahtarı, tüm nonclustered indekslerde bir satır işaretçisi (row locator) olarak kullanıldığından, anahtarın genişliği bu indekslerin boyutunu katlanarak artırır. Büyük nonclustered indeksler, daha az satırın bellekte (buffer pool) kalmasına, daha fazla disk okumasına ve daha yavaş indeks bakım işlemlerine yol açar. Bu durum, dar bir clustered anahtarın neden bu kadar kritik olduğunu bir kez daha vurgular.

-- Clustered Index'in nonclustered indeks boyutuna etkisini gösteren basit bir örnek:
-- Geniş bir anahtar (ör. UNIQUEIDENTIFIER) kullanan bir tablo:
CREATE TABLE Tablo_GenisAnahtar (
    Id UNIQUEIDENTIFIER PRIMARY KEY CLUSTERED DEFAULT NEWID(), -- Geniş, rastgele anahtar
    Veri NVARCHAR(100),
    Tarih DATETIME
);
CREATE INDEX IX_Tablo_Genis_Tarih ON Tablo_GenisAnahtar(Tarih);

-- Dar bir anahtar (ör. INT IDENTITY) kullanan bir tablo:
CREATE TABLE Tablo_DarAnahtar (
    Id INT PRIMARY KEY CLUSTERED IDENTITY(1,1), -- Dar, artan anahtar
    Veri NVARCHAR(100),
    Tarih DATETIME
);
CREATE INDEX IX_Tablo_Dar_Tarih ON Tablo_DarAnahtar(Tarih);
-- Aynı sayıda veri ile Tablo_GenisAnahtar'daki IX_Tablo_Genis_Tarih indeksi,
-- Tablo_DarAnahtar'daki IX_Tablo_Dar_Tarih indeksinden çok daha büyük olacaktır.

Parçalanma (fragmentation), clustered index performansını tehdit eden önemli bir konudur. Mantıksal parçalanma, verilerin fiziksel sırasının, indeksin mantıksal sırasıyla uyumsuz olması durumudur ve rastgele anahtar eklemeleri veya silmeleri nedeniyle oluşur. Bu, sıralı olmayan disk erişimlerine neden olarak performansı düşürür. Parçalanmayı izlemek ve periyodik olarak `ALTER INDEX ... REORGANIZE` veya `ALTER INDEX ... REBUILD` gibi işlemlerle yönetmek, performansın sürdürülebilirliği için hayati önem taşır. Parçalanma seviyesi, `sys.dm_db_index_physical_stats` dinamik yönetim görünümü kullanılarak düzenli olarak kontrol edilmelidir.

Sütun depolama özellikleri de tasarımın bir parçasıdır. Örneğin, `VARCHAR(MAX)`, `NVARCHAR(MAX)` veya `VARBINARY(MAX)` gibi büyük nesne (LOB) sütunları, ana veri satırından ayrı olarak saklanabilir. Bu, clustered indeksin yaprak seviyesindeki sayfa yoğunluğunu artırarak performansa olumlu katkı sağlayabilir. Benzer şekilde, sıkça kullanılmayan geniş sütunlar, `INCLUDE` yan tümcesi kullanılarak nonclustered indekslere dahil edilmek yerine, tablonun kendisinde tutulabilir; bu da nonclustered indeks boytlarını küçültür. Her tasarım kararı, bir denge arayışıdır: okuma performansı, yazma performansı ve depolama alanı arasında optimal bir nokta bulmak gerekir.

Yaygın Desenler ve Anti-Paternler

Pratikte, belirli clustered index tasarım desenleri zaman testinden geçmiş ve genel kabul görmüştür. Bunun yanı sıra, performans sorunlarına sıklıkla yol açan ve kaçınılması gereken anti-paternler de bulunmaktadır. Bu desenleri bilmek, sağlam bir temel oluşturmanıza ve yaygın tuzaklardan kaçınmanıza yardımcı olur.

En yaygın ve güvenli desen, tek bir INT veya BIGINT IDENTITY sütunu üzerinde benzersiz bir clustered index oluşturmaktır. Bu desen, benzersizlik, darlık, statiklik ve artan düzen gibi tüm ideal kriterleri karşılar. Özellikle yüksek hacimli OLTP sistemleri için bu "varsayılan" seçenek, neredeyse her zaman en iyi başlangıç noktasıdır. Bu yaklaşım, ekleme performansını en üst düzeye çıkarır ve parçalanmayı minimize eder. Tablo, sorgu desenlerine göre nonclustered indekslerle desteklenir.

Bir diğer faydalı desen, doğal olarak artan bir tarih/saat sütunu üzerinde clustered index oluşturmaktır. Bu desen, zaman serisi verileri veya son eklenen kayıtların sıklıkla sorgulandığı log tabloları için idealdir. Veriler fiziksel olarak tarih sırasında saklandığından, "son 24 saatteki kayıtları getir" gibi aralık sorguları son derece hızlı çalışır. Ancak, bu sütunun benzersiz olmama riski vardır; bu nedenle, benzersizliği sağlamak için IDENTITY gibi bir sütunla birleşik (composite) anahtar oluşturmak genellikle daha iyidir.

Yaygın bir anti-patern, GUID (UNIQUEIDENTIFIER) sütununu clustered index anahtarı olarak kullanmaktır. GUID'ler, doğaları gereği rastgele (RANDOM) oluşturulurlar. Bu, her yeni eklemenin, indeksin fiziksel olarak ortasındaki bir sayfaya yerleştirilme olasılığının yüksek olduğu anlamına gelir. Bu durum, yoğun sayfa bölünmelerine, yüksek parçalanmaya ve dolayısıyla ciddi performans kayıplarına neden olur. Ayrıca, 16 baytlık boyutuyla GUID'ler INT (4 bayt) veya BIGINT' (8 bayt) e kıyasla çok daha geniştir, bu da tüm nonclustered indekslerin boyutunu gereksiz yere şişirir.

Bir diğer tehlikeli anti-patern, sık güncellenen (volatile) bir sütunu clustered index anahtarı yapmaktır. Bir clustered index anahtarı güncellendiğinde, SQL Server'ın satırı fiziksel olarak yeni konumuna taşıması gerekebilir. Bu işlem, aslında bir DELETE ve ardından bir INSERT işleminden oluşur ve hem işlem günlüğü (transaction log) üzerinde hem de g/ç üzerinde yüksek maliyetlidir. Aynı zamanda, ilgili nonclustered indekslerdeki tüm işaretçilerin de güncellenmesi gerekir. Bu nedenle, müşteri adı, e-posta adresi veya durum alanı gibi değişmesi muhtemel sütunlar clustered index için uygun değildir.

Son olarak, "clustered index olmadan heap bırakmak" da genellikle bir anti-paterndir. Heap yapıları, özellikle küçük veya geçici tablolar için kabul edilebilir olsa da, çoğu üretim tablosu clustered index'ten fayda görür. Heap'lerde, silinen satırların bıraktığı boş alanlar (forwarding pointers) verimsizliğe yol açabilir ve sıralı taramalar clustered index'e göre daha yavaştır. Ayrıca, heap üzerindeki nonclustered indeksler, fiziksel RID'yi işaret eder ve bu RID değişebilir, bu da ek yönetim karmaşıklığı getirir.

GUID ve Sıralı Anahtarlar

UNIQUEIDENTIFIER (GUID) veri tipinin clustered index anahtarı olarak kullanımı, özellikle dağıtık sistemlerde benzersizlik gereksinimini karşılamak amacıyla sıkça başvurulan bir yaklaşımdır. Ancak, standart `NEWID()` veya `NEWSEQUENTIALID()` fonksiyonları ile oluşturulan GUID'ler arasında clustered index tasarımı açısından kritik farklar bulunur. `NEWID()` fonksiyonu, her çağrıldığında tamamen rastgele bir değer üretir. Bu rastgelelik, clustered index'in fiziksel sıralı yapısıyla temel bir çelişki oluşturur ve performans üzerinde yıkıcı etkilere yol açabilir.

Rastgele GUID'lerle yapılan her ekleme işlemi, indeksin fiziksel olarak orta noktalarındaki bir sayfaya yerleştirilmeye çalışılır. Bu, sürekli olarak sayfa bölünmelerine (page splits) neden olur. Sayfa bölünmesi, bir veri sayfasının dolması ve ikiye ayrılması işlemidir ve yoğun g/ç ve günlük (log) faaliyeti gerektirir. Sonuç, hızla yükselen parçalanma (fragmentation) oranı, şişmiş tablo boyutları ve düşen ekleme performansıdır. Bu nedenle, `NEWID()` ile üretilmiş bir GUID'nin clustered index anahtarı olması, açık bir anti-patern olarak kabul edilmelidir.

Buna karşılık, `NEWSEQUENTIALID()` fonksiyonu, kısmen sıralı GUID'ler üretir. Bu fonksiyon tarafından üretilen her yeni değer, önceki değerden daha büyüktür ve bu da eklemelerin genellikle indeksin sonuna yapılmasını sağlar. Bu yaklaşım, rastgele `NEWID()` kullanımına kıyasla sayfa bölünmelerini ve parçalanmayı önemli ölçüde azaltır. NEWSEQUENTIALID, dağıtık benzersizlik ihtiyacı ile performans arasında bir uzlaşı sağlar. Ancak, yine de 16 baytlık genişliği ve tam olarak tahmin edilemez artış deseni nedeniyle, saf bir INT IDENTITY sütununa kıyasla daha az verimli olmaya devam eder. GUID'lerin kullanımı bir gereklilikse, `NEWSEQUENTIALID()` tercih edilmeli ve tabloda nonclustered indekslerin sayısı dikkatle yönetilmelidir.

Parçalanma ve Bakım

Clustered index'ler zaman içinde, veri ekleme, silme ve güncelleme işlemlerinin doğal bir sonucu olarak parçalanmaya uğrar. Parçalanma iki ana türde ortaya çıkar: mantıksal parçalanma (logical fragmentation) ve boş alan parçalanması (internal fragmentation veya page density). Mantıksal parçalanma, indeks yapraklarındaki fiziksel sıranın, mantıksal sıra ile uyumsuz olmasıdır. Bu, sıralı tarama (range scan) işlemlerinin performansını düşürür çünkü disk kafası sürekli olarak farklı konumlara atlamak zorunda kalır.

Parçalanmanın etkilerini izlemek ve yönetmek, veritabanı bakımının ayrılmaz bir parçasıdır. SQL Server, `sys.dm_db_index_physical_stats` dinamik yönetim görünümü aracılığıyla detaylı parçalanma bilgisi sağlar. `avg_fragmentation_in_percent` sütunu, bir indeksin parçalanma seviyesini yüzde olarak gösterir. Genel olarak, %5-30 arasındaki parçalanma seviyeleri için `ALTER INDEX ... REORGANIZE` komutu yeterli ve çevrimiçi (online) bir işlemdir. Bu komut, indeks sayfalarını mantıksal sıraya göre yeniden düzenleyerek parçalanmayı azaltır. %30'un üzerindeki yüksek parçalanma sevyeleri için ise, daha kapsamlı olan `ALTER INDEX ... REBUILD` komutu kullanılmalıdır. Bu komut indeksi neredeyse sıfırdan yeniden oluşturur, parçalanmayı büyük ölçüde ortadan kaldırır ve sayfa yoğunluğunu optimize eder. SQL Server 2019 ve sonrasında `REBUILD` işlemi, temel işlemleri engellemeden çevrimiçi olarak da gerçekleştirilebilir.

Bakım stratejisi, parçalanmanın kaynağını anlamayı gerektirir. Artan (ascending) bir anahtara sahip bir tabloda, parçalanma genellikle silme işlemlerinden kaynaklanır. Rastgele bir anahtara sahip bir tabloda ise, hem ekleme hem de silme işlemleri parçalanmaya neden olur. Düzenli bakım planları oluşturarak veya yüksek parçalanma eşiklerini aşan indeksleri otomatik olarak yeniden oluşturacak script'ler kullanarak, performansın sürekliliği sağlanabilir. Unutulmamalıdır ki, bakım işlemleri de sistem kaynaklarını (CPU, I/O, Günlük Alanı) tüketir; bu nedenle bakım pencereleri dikkatle planlanmalıdır.

SQL Server Clustered Index Tasarımı

Anahtar Seçim Kriterleri

Tasarım ve Performans

Yaygın Desenler ve Anti-Paternler

GUID ve Sıralı Anahtarlar

Parçalanma ve Bakım

SQL Server Snapshot Isolation

Oracle Parallel Query İşleyişi

Connection Pooling Mantığı

PostgreSQL Partitioning Stratejileri

Cost-Based Optimization Mantığı

Database SAN ve NAS Yapıları

Firebird Transaction Yönetimi

PostgreSQL GIN ve GiST Index Karşılaştırması

SQL Server Replication Türleri

Memory-Optimized Tables Kullanım Alanları

SQL Server Snapshot Isolation

Algoritma Analizi Nedir?

Web Uygulamalarının Türleri

SOLID Prensipleri Neler İçerir?

React’te useReducer Yapısı

Firewall ve Güvenlik Duvarı Türleri

Oracle Parallel Query İşleyişi

Connection Pooling Mantığı

RabbitMQ Temelleri

PostgreSQL Partitioning Stratejileri