İstatistiksel Dikkat Hatalarından Kaçmanın Basit Yolu: Verini Tanı

Veri yönetimi sürecindeki hataları en aza indirmek için araştırmacıların gerçekleştirebilecekleri birkaç kolay eylemi sıraladım. #Verini tanı

BLOG

Yazar: Kristin L. Sainani, PhD Çeviri: Deniz Özel, PhD

9/20/20245 min read

a group of blue plastic figures sitting in an office

Yazarlar ve hakemler istatistiksel hatalardan şüphelendiklerinde, genellikle üst düzey konulardan şüphelenme eğilimindedir. Doğru istatistiksel modeli seçtim mi/seçildi mi? İstatistiksel bir varsayımı ihlal ettim mi/edildi mi? Ama beni daha çok endişelendiren çok daha basit hatalar yani, eksik veriler, özensiz veri işleme, yazıya aktarma hataları ve aritmetik hatalar… Bu tür hatalar genellikle bir analiz için, daha havalı istatistiksel sorunlardan çok daha yıkıcıdır. Örneğin, Duke Üniversitesi'nde [1] çok sayıda tıbbi makalenin geri çekildiği yakın tarihli bir skandalı ele alalım. Bu analizleri baltalayan hatalar, Excel'deki hücrelerin kazara değiştirilmesi ve veri etiketlerinin tersine çevrilmesi gibi hatalardı (öyle ki ilaca duyarlı hücre grubu, ilaca dirençli grupla yer değiştirmişti). Bu tür dikkat hatalarını sistematik olarak tespit etmek veya ölçmek zor olsa da anekdotal kanıtlar (kişisel deneyim, şahitlik, vb), bunların şaşırtıcı derecede yaygın olduğunu göstermektedir [2,3]. Birincil sorun, araştırmacılar doğru istatistiksel testi seçmeye ve bilgisayardan p değeri çıkarmaya o kadar odaklanırlar ki, verilerin görselleştirilmesi ve kontrol edilmesi gibi daha temel adımları göz ardı ederler. İyi haber şu ki, dikkat hatalarından kaçınmak, ileri düzey istatistik bilgisi gerektirmez. Önlenebilir hataları en aza indirmek için araştırmacıların gerçekleştirebilecekleri birkaç kolay eylemi sıralayalım:

Veriyi Tek Bir Yerde Toplayın

Araştırmacılar bazen veri giriş işlemi sırasında çalıştıkları veri setinin birden çok kopyasını oluşturur/kaydeder. Bu sıkıntılı bir yaklaşımdır, çünkü verilerin "güncel" versiyonunun izini kaybetmek çok kolaydır. Örneğin, yakın bir zamanda primer çıktı değişkeninin (en önemli değişken) hem tablo hem de grafik biçiminde sunulduğu bir makaleyi inceledim. Ancak, tablo ve şekildeki değerler eşleşmedi. Bunun nedeni muhtemelen farklı yazarların veri setinin farklı sürümlerinde çalışmasıdır. Çözüm, verileri her zaman tek bir veri tabanına (veya veriler çift giriliyorsa iki bağımsız veri tabanına) girmektir. Araştırmacı, veri setini değiştirmek veya ayrıştırmak isterse (erkekler ve kadınlar için ayrı veri setleri oluşturmak gibi), bunu veri analizi yapacağı programın içinden yapmalıdır (Veriye Elle İşlem Yapmayın bölümüne bakınız).

Veriye Elle İşlem Yapmayın

Manuel veri girişi genellikle kaçınılmazdır ve bariz bir hata kaynağıdır. Ne yazık ki araştırmacılar, Excel gibi veri giriş programlarından verileri düzenleyerek (yani değerleri düzelterek veya yeni değişkenler oluşturarak) sorunu daha da karmaşık hale getiriyorlar. Bunun yerine, araştırmacılar her zaman veri setini bir istatistiksel analiz programına (SPSS, Jamovi, R veya SAS gibi) yüklemeli ve bu ortamda değişiklikler yapmalıdır. Veri giriş programlarının aksine, bu programlar verilerin tam olarak nasıl değiştirildiğinin kaydını/izini bırakır. Ayrıca, örneğin veri girişi uzmanının doğum tarihinden yaşı manuel olarak hesaplaması durumunda meydana gelebilecek insan hatalarından da kaçınırlar. Bu tarz türetilen değişkenler her zaman istatistiksel analiz programından otomatik olarak hesaplatılmalıdır. Özetle, bilgisayarın yapabileceği işi elle yapmak hataya davetiye çıkarır.

Önce Veriyi Görselleştirin

Araştırmacılar istatistiksel tavsiye almak için bana geldiklerinde, genellikle verileri hakkında iyi bir fikre sahip olmuyorlar. Örneğin, aşağıdakiler gibi basit soruları yanıtlayamazlar: Bu değişken en yüksek hangi değeri alabilir? Kaç kişi çalışma dışı kaldı? Bu durum, kaçınılmaz olarak daha sonra kafa karışıklığına yol açar. Bu nedenle, araştırmacılar herhangi bir istatistiksel test yapmadan önce verilerini tanımak için önemli ölçüde zaman ve enerji harcamalıdır. İlk adım, her bir değişkenin dağılım grafiğini (histogram gibi) çizdirmektir. Grafikler, hatalı veri noktalarını (çözülmesi gereken) ve aykırı değerleri (tüm analizlerde dikkate alınması gereken) tespit etmeyi kolaylaştırır. Araştırmacılar ayrıca her değişken için N (örneklem sayısı eksik olabilir), ortalama, standart sapma, maksimum ve minimum gibi basit tanımlayıcı istatistikler oluşturmalıdır. Bununla beraber hangi değişken çiftlerinin ilişkili olduğu gibi basit kontoller hakkında bir fikir edinmelidirler. Yani birbiriyle tutarlı olması gereken değişkenleri kontrol etmedirler. Verilerini bu temel düzeyde anlayan araştırmacılar, basit dikkat hatalarından kaçınacak ve sonuçları yorumlamak için daha iyi bir çerçeveye sahip olacaktır.

Örneklem Sayılarını Her Analizde Kontrol Edin

Çoğu regresyon analizi, otomatik olarak eksik gözlemleri atar, bu nedenle bir birim (bir hücreye girilen veri), modeldeki değişkenlerden yalnızca birinde kayıpsa, o birim tüm analizden atılır. Çok değişkenli model çok sayıda değişken içerdiğinde, herhangi bir değişken için eksik veri noktalarının sayısı düşük olsa bile bu, birçok ihmale neden olabilir. Örneğin, bir araştırmacı 400 gözlemi regresyon modeline dahil ederek çalıştırabilir, ancak nihai modelde sadece 200 örneklem kalabilir. Ne yazık ki, birçok araştırmacı çok değişkenli analizlerinin N'lerini kontrol etmeyi unutur. Geçenlerde, yazarların haberi olmadan ölçümlerinin %40'ının çok değişkenli analizden çıkarıldığı bir makaleyi inceledim. Açıkçası, verilerin neredeyse yarısını atmak, analizin sonuçlarını büyük ölçüde değiştirebilir.

Basit Matematiği İki Kez Gözden Geçirin ve Sezgilerinizi Kullanın

Birçok dikkat hatası fark edilmez çünkü insanlar istatistiklerden o kadar korkarlar ki basit matematik becerilerini ve sağduyularını kullanmayı bir kenara bırakırlar. Bir keresinde, 10 hastadan oluşan bir çalışmayı anlatan bir makaleyi gözden geçirdim ve "hastaların %78'inin iyileştiğini" kanıtlamanın imkânsız olduğu sonucuna vardım. Başka bir örnekte, takip oranını %20 olarak hesapladığım bir makalede (sadece sonuçtaki örneklem sayısını çalışmanın başındaki kişi sayısına bölerek), yazarlar takip oranını %65 olarak bildirmişlerdi. Bu tür bariz hataları yakalamak, istatistikte ileri derecede uzmanlık gerektirmez. Bu hatalar genellikle, özensiz veri işleme, düşük araştırma kalitesi ve istatistiksel danışma eksikliği gibi daha derin sorunlara işaret eder. Bu tür ipuçlarından daha fazlası için okuyucuları Andrew Vickers'ın [2] mükemmel bir makalesine yönlendiriyorum.

Orijinal Metin: Sainani, K. L. (2013). Avoiding careless errors: know your data. PM&R, 5(3), 228-229.

Orijinal Referanslar

1. Kolata G. How Bright Promise in Cancer Testing Fell Apart. New York Times, July 7, 2011. Available at: http://www.nytimes.com/2011/07/08/ health/research/08genes.html?_r=0. Accessed January 25, 2013.

2. Vickers A. Look at Your Garbage Bin: It May Be the Only Thing You Need to Know About Statistics. Nov 3, 2006; www.Medscape.com. Available at: http://www.medscape.com/viewarticle/546515. Accessed February 7, 2012.

3. Must Try Harder. Editorial. Nature 2012;483:509.

İstatistiksel Dikkat Hatalarından Kaçmanın Basit Yolu: Verini Tanı

İstatistik | Biyoistatistik | Sağlık Bilişimi

Eğitim | Danışmanlık