Veride Kayıplar ve Sürprizler: Kayıp Veriler ve Uç Değerlerle Nasıl Başa Çıkılır?
Veri analizi yaparken her şeyin yolunda gitmesini isteriz. Ama gerçek şu ki, veri setleri her zaman “pürüzsüz” olmaz. Bazen bazı bilgiler eksiktir, bazen de bazı değerler grubun çok dışında, dikkat çekecek kadar farklıdır. Her iki durum da analizlerimizin sonuçlarını etkileyebilir. Peki bu sorunları nasıl fark ederiz ve nasıl yönetiriz? Gel, birlikte adım adım bakalım!
Dr. Deniz Özel
4/2/20252 min read


Veri analizi yaparken her şeyin yolunda gitmesini isteriz. Ama gerçek şu ki, veri setleri her zaman “pürüzsüz” olmaz. Bazen bazı bilgiler eksiktir, bazen de bazı değerler grubun çok dışında, dikkat çekecek kadar farklıdır.
İşte bu iki yaygın problem:
1. Kayıp Veriler (Missing Data)
2. Uç Değerler (Outliers)
Her iki durum da analizlerimizin sonuçlarını etkileyebilir. Peki bu sorunları nasıl fark ederiz ve nasıl yönetiriz? Gel, birlikte adım adım bakalım!
📌 Kayıp Veriler: Verideki Sessiz Boşluklar
Kayıp Veri Nedir?
Kayıp veri, bir değişken için olması gereken değerin eksik olmasıdır. Mesela bir anket formunda yaş sorusu boş bırakılmışsa, bu kayıp bir veridir.
Kayıp Verileri Nasıl Tespit Ederiz?
• Gözle kontrol: Eksik hücreler genelde boş gözükür.
• SPSS, R, Python gibi programlarda kayıp veri raporları oluşturabilirsin.
o R’da: is.na()
o Python’da: pandas.isnull()
o SPSS’te: Analyze > Descriptive Statistics > Frequencies
Kayıp Veri Türleri
1. MCAR (Tamamen rastgele): Eksiklik, başka hiçbir şeyle ilişkili değil.
2. MAR (Rastgele): Eksiklik, başka bir gözlemlenen değişkenle ilişkili.
3. MNAR (Rastgele olmayan): Eksiklik, eksik değerin kendisiyle ilişkili. (en zor senaryo!)
Kayıp Verilerle Ne Yapmalı?
1. Satırı sil (Listwise): Ama sadece kayıplar çok azsa!
2. Sütunu sil (Pairwise): Kayıp olan değişken bazında analiz.
3. Ortalama/Medyan ile doldurma: Kolay ama bazen yanıltıcı.
4. Regresyonla tahmin etme: Diğer bilgilerden eksik olanı tahmin et.
5. Çoklu atama (Multiple Imputation): En güvenilir ama biraz teknik.
6. EM Algoritması: Daha ileri seviye yöntem; yazılımla yapılır.
📌 Uç Değerler: Grubun Asi Üyeleri
Uç Değer Nedir?
Uç değer, diğer gözlemlerden belirgin şekilde farklı olan veri noktalarıdır. Örneğin bir sınıfta herkesin boyu 1.60–1.80 arasıyken bir öğrencinin 2.20 olması uç değer olabilir.
Uç Değerleri Nasıl Tespit Ederiz?
• Box Plot (Kutu Grafiği): Kutunun dışında kalan noktalar.
• Z-Skoru: |Z| > 3 genellikle uç değer sayılır.
• IQR yöntemi: Q1 – 1.5×IQR veya Q3 + 1.5×IQR dışında kalanlar.
• Mahalanobis Mesafesi: Çok değişkenli verilerde kullanılır.
• Cook’s Distance: Regresyon analizinde kullanılır.
Uç Değerlerle Ne Yapmalı?
1. Doğrula: Veri girişi hatası mı, yoksa gerçek mi?
2. Sil: Ama dikkat! Küçük örneklemde risklidir.
3. Dönüştür: Logaritmik, karekök gibi dönüşümlerle etkisini azalt.
4. Winsorize Et: Uç değeri, daha makul bir sınıra getir.
5. Robust analiz kullan: Medyan regresyon gibi uç değerlere duyarlı olmayan teknikler.
6. Kategorikleştir: Uç değerleri ayrı bir sınıfa alabilirsin.
💡 Nelere Dikkat Etmelisin?
• Veri yapısını tanı: Her uç değer “yanlış” olmayabilir.
• Alan uzmanlığı: Anlam veremediğin bir uç değer, bir uzman için çok şey anlatabilir.
• Küçük örneklemler: Kayıp veri ya da uç değer silinirse analiz gücü düşebilir.
• Şeffaflık: Ne yaptıysan, mutlaka analiz raporunda açıkla.
• Duyarlılık analizi: Farklı yöntemleri dene, sonuçlar nasıl değişiyor kontrol et.
🎯 Sonuç: Veriye Saygı, Analize Güven Kazandırır
Veri setlerinde kayıp veriler ve uç değerler görmek moral bozucu olabilir. Ama unutma:
Bunlar sorun değil, sadece dikkat etmen gereken sinyallerdir.
Bu verileri bilinçli bir şekilde ele almak, araştırmanı daha sağlam ve güvenilir kılar. En önemlisi:
Ne yaparsan yap, neden yaptığını açıkla!