Hakemlerin İstatistik Süreci ve Revizyon Önerileri
Hakemlerin araştırma sürecinde dikkat ettiği istatistik konuları, yazarlara önemli kolaylıklar sağlayabilir. Bu yazıda, istatistik uzmanı olarak en sık karşılaştığım revizyon önerilerini yedi maddede sıralayarak, hakemlerin bu süreçte nelere odaklandığını keşfedin. #revizyon önerileri
BLOG
Akademik dergilere makale kabul ettirmek, hele ki iyi dergileri ikna etmek oldukça zorlu bir süreç. Editör ve hakemler tarafından revizyon (minör veya major) istenmeyen makale sayısı oldukça az denilebilir. Revizyon nedenlerinin genel olarak araştırma tasarımı, akademik yazım ve raporlama konularındaki bilgi eksikliğinden kaynaklandığını söyleyebilirim. İstenen revizyonların bir bölümü de istatistik sürecini ilgilendirir.
Araştırmacıların istatistik okuryazarlığı seviyesi arttıkça önerileri daha kolay anlamakta ve uygulamaktadır. Hakemlerin araştırmanın istatistik süreciyle ilgili hangi konulara dikkat ettiğini bilmek, yazarlara kolaylık sağlayabilir. Bu nedenle istatistik uzmanı olarak analiz sürecine dahil olduğum veya olmadığım yayınlar için en sık karşılaştığım revizyon önerilerini yedi maddede sıralamak istedim.
1- Sonuçları Verinize Uygun Tanımlayıcı İstatistiklerle Sununuz
En çok karşılaştığım revizyonların ilki: “Normal dağılıma uyan verilerde ortalama, sd; normal dağılıma uymayan verilerde medyan (IQR) veriniz.”
Ortalama ve standart sapma, dağılımın simetrik, sağa veya sola çarpık olmadığı, uç değerlerin görülmediği, standart sapmanın ortalamanın yarısını geçmediği durumlarda kullanılan parametrelerdir. Özellikle verinin dağılımı normal dağılıma uygun olduğu durumda kullanılması önerilir. Bunun bir sebebi, uç değer varsa ve/veya dağılım çarpık ise ortalamanın evreni temsil yeteneğinin kolayca zayıflaması. Normallik varsayımı kontrolünde kullanılan histogram, q-q plot, çarpıklık basıklık değerleri, varyasyon katsayısı ve normallik testi (Shapiro Wilk/Kolmogrov Smirnov Testleri) sonucunda verinin dağılımı normal dağılıma uyumlu değilse ortalama ve standart sapma kullanılmamalıdır. Bunun yerine uç değerlere daha dirençli parametreler olan Medyan ve çeyreklikler arası genişlik verilmelidir (Medyan-IQR).
2- p Değerlerini Kesin (Exact) Değerleri İle Sununuz
Hakemlerden genellikle istatistiksel anlamlılığı ifade eden p değerlerinin sunumuyla ilgili tutarlılık sağlanması adına bazı öneriler gelmektedir.
Örnekler:
p değerinin 0,05 değerinden büyük olduğu durum için örnek sunum: p=0,675 olarak sunulmalı; p>0,05 olarak değil.
p değerinin 0,05 değerinden küçük olduğu durum için örnek sunum: p=0,023 olarak sunulmalı; p<0,05 olarak değil.
p değeri 0,001’den küçük ise (0.000 olarak gözüküyor ise): p<0,001 olarak sunulmalı; p=0.000 olarak değil.
Bir diğer yaklaşıma göre, p değerinin dahil olduğu aralığa göre gösterim yapılabilir.
(Tek yıldız) p<0,05, * (Çift yıldız) p<0,01, *** (Üç yıldız) p<0,001 şeklinde de sunum olabilir. p değeri 0,05’den büyük ise NS (not significant) şeklinde gösterim yapılabilir. Burada önemli olan, p değeriyle ilgili standardize bir sunum şekli oluşturabilmektir.
3- Örneklem Sayısını Nasıl Belirlediğinizi Açıklayınız
Örneklem büyüklüğünün hesaplanması, klinik araştırmalarda önemli bir metodolojik konudur. Beklenen etkiyi (fark, ilişki, vb) gösterebilmek için, çalışmanın yeterli katılımcıya sahip olmasını sağlamak çok önemlidir. Ayrıca, yetersiz klinik araştırmaların zaman, para ve kaynak israfına yol açtığı, beklenen sonuçları vermediği ve hastaları daha yüksek riske maruz bıraktığı için etik olmadığı savunulmuştur. Olması gerekenden fazla örneklemle çalışmak ta yine benzer etik sorunlara neden olmaktadır. Burada hedefimiz aslında dergi hakemleri, etik kurul veya fon sağlayıcılar için zorunlu bilgileri sunmak değil, doğru ve dişe dokunur şekilde bilimsel çıktı üretmek olmalıdır. Bunun için ne az, ne çok; yeterli miktarda örneklemle çalışmalıyız.
Neden Güç Analizi Yaparız?
Çalışma planı için iyi bir enstrümandır.
Veriye ve sonuçlara önceden yakınlaştırır. Somutlaştırır.
Çalışma tasarımıyla ilgili senaryolar denenir ve kısıtlılıklar ön görülür.
İş işten geçmeden en baştan değişiklikler yapmamızı sağlar.
İstatistiksel güç, araştırılan ana kütlede, araştırmacının bulmak istediği veya bulmayı umduğu gerçek etkiyi ortaya çıkarabilme ihtimalidir. Bulmak istenilen gerçek etkiden kasıt, şansa bağlı olarak elde edilmeyen gerçek bir değerdir.
Araştırmacı aradığı gerçek etkiyi bulduğunda, bu artık onun araştırılan sıfır hipotezini (H0) reddedebileceği anlamına gelmektedir. Eğer bir araştırmacı çalışmasındaki istatistiksel gücü artırırsa, gerçek etkiyi bulma ve yanlış bir H0 hipotezini reddetme şansını da artıracaktır. Yani gerçekte bir etki (fark/ilişki) varken, istatistiksel olarak da o etkiyi gösterebilme ihtimali artacaktır.
Tablo 1. İstatistiksel hata türleri ve testin gücü
Güç analizi yapabilmek için uzman bilgisine dayalı bazı bilgilere ihtiyaç duyulmaktadır. Bunlardan en önemlisi Etki Büyüklüğü (effect size). Etki büyüklüğünün hesaplanma nedeni, çalışmadaki primer çıktınız için ortaya çıkarmak istediğiniz Minimum Klinik Önemli Fark/İlişkinin düzeyini belirlemektir (1).
Güç analizi, az zaman fakat çok dikkat gerektirir. Güç analizinde minimum klinik anlamlı fark dışında ihtiyaç duyulan başka bilgiler de var. İstatistik danışmanı ile çalışırken bu bilgilerin netleştirilmiş olması gerekir. Bu bilgiler:
Çalışmanın ana amacı nedir?
Birincil çıktı (sonlanım) özelliği nedir? Sürekli mi kategorik mi?
Veri nasıl analiz edilecek? (fark/ilişki)
Ne kadar küçük bir farkın saptanması klinik olarak önemli? (etki büyüklüğü)
Evrendeki değişkenlik nedir? (standart sapma / hata payı)
İstenen alfa ve beta nedir?
Örneklem bölüştürme (N2/N1) oranı nedir?
Öngörülen kayıp (drop-out) oranı nedir?
Referans çalışmalar bize bu konuda yeterli bilgi sunmuyorsa 20-30 örneklemle pilot çalışma yaparak tahmini parametrelere ulaşılabilir.
Küçük bir tüyo: Google’a güç analizinde yapmak istediğiniz işlemin adını yazarak yanına “sample size calculator” veya “power analysis” yazabilirsiniz. Örnek anahtar kelimeler: Sample Size Calculator for ICC (Intraclass Correlation Coefficient) veya power analysis for comparing two proportions.
4- Kullandığınız İstatistiksel Testleri Gözden Geçiriniz
Bu konu akademik yayınlarda iki bölümü ilgilendiriyor.
Metot bölümü: Bilimsel yayınlarda genellikle metot bölümünün en sonunda “İstatistiksel Analiz” diye ayrı bir bölüm vardır. Burada, Bulgular bölümünde yer alan analizlerde kullanılan tüm testler, tekrarlanabilirlik unsuruna göre detaylı halde sunulmalıdır. Yani aynı veri setine sahip bir araştırmacı, sunduğunuz tüm adımları takip ederek aynı test istatistiklerine ve sonuçlara ulaşabilmelidir. Bu nedenle yöntemler ve uygulanış biçimleri yüzeysel değil, en açık haliyle yazılmalıdır. Burada sıkça karşılaşılan iki tür hata (tutarsızlık) vardır.
Bulgularda yer almayan bir teste metot bölümünde yer vermek.
Bulgularda yer alan bir teste metot bölümünde yer vermemek.
İdeal durum ise: Bulgular bölümündeki tüm testlerin metot bölümünde bulunması, metotta yazan tüm testlerin bulgularda yer almasıdır. Yani tam eşleşme olmalıdır.
Bulgulardaki tablo ve görseller: Sunulan tablo ve görsellerde istatistiksel test kullanılmışsa bunlar mutlaka her değişken için ayrı ayrı ifade edecek şekilde tablo veya grafik notu olarak belirtilmelidir.
Bununla beraber tablolardaki tüm kısaltmaların (SD: Standard Deviation; MWU: Mann Whitney U Test, vb) açıklamaları da uygun şekilde sunulmalıdır.
5- İstatistiksel Çıktıları Uygun Şekilde Raporlayınız
Önceden yüksek lisans, doktora yapmak lükstü; artık neredeyse ihtiyaç haline geldi. Peki, tez yazımında bir standart var mı? Tez yazım kılavuzları var fakat yetersiz. Çünkü içerikten ziyade şekil odaklı. Kılavuzlar genellikle referans gösterme biçimlerinin nasıl olması gerektiği hakkında bilgi verir nitelikte. Araştırmacılara istatistiksel çıktıları gönderdiğimde, tez, makale, bildiri yazma aşamasında "ben bunları nasıl sunacağım?" konusunda kendilerini yalnız hissettiklerini gözlemledim. Bu nedenle içerik odaklı bir rehbere ihtiyaç var. Burada yardımımıza APA formatı (Amerikan Psikologlar Birliği) yetişiyor. APA’nın 2020 yılında APA 7.0 formatını sunduğu kitapta 6.0 formatına göre yenilikler mevcut. Hangi testin nasıl sunulması gerektiğine dair formatı APA 7.0 sürümünde yer alan tablo ve yazım önerilerine göre belirleyebilirsiniz (2).
Küçük bir tüyo: Google’a analizde kullandığınız testin adını yazarak yanına “APA format” veya “APA style” yazabilirsiniz. Örnek anahtar kelimeler: Mann Whitney U test APA format.
6- Çalışmanıza Kontrol Grubu Dâhil Ediniz
Bir deneyde işlem gören gruba deney grubu, işlem görmeyen veya başka bir işlem gören gruba kontrol grubu denir. Kontrol grubu, uygulanan işlemin etkisi olup olmadığını görmemizi sağlayan bir referanstır. Bağımsız değişkenler dışındaki değişkenlerin etkisini en aza indirmek için ayarlanan gruplardır.
Kontrol grubu, araştırmacının uygulamasının daha etkili olup olmadığına ya da etkileri arasında fark olup olmadığına karar vermesini kolaylaştırması bakımından önemlidir. Kontrol grubu olmazsa test edilen uygulamanın etkisi tam olarak ortaya konulamaz. Bu nedenle hakemler bazı istatistiksel testlerin kullanılarak daha güçlü sonuçlar elde edebilmesi için araştırmacıya kontrol grubu da dâhil etmesini önermektedir.
Bazen plasebo da kullanılabilir. Plasebo etkisi, kişinin hastalığı için kanıtlanmış tedavi edici bir etkisi olmamasına rağmen bir ilacı aldığında kendisini iyileştirebileceği algısının oluşmasıdır. Bazı araştırmacılar, plaseboların psikolojik bir tepkiyi harekete geçirdiği için bu grubun da deney grubu gibi iyileşmiş hissedebileceğini düşünmektedir. Bu nedenle girişimin gerçek etkisini, psikolojik etkiden arındırmak için plasebo kullanılmaktadır. Plasebo, bir çeşit negatif kontroldür.
Bir deney pozitif veya negatif olarak kontrol edilebilir. Pozitif ve negatif kontrol arasındaki temel fark, pozitif kontrolün deneye yanıt vermesi, negatif kontrolün ise herhangi bir yanıt vermemesidir.
“Negatif kontrol”, bazen “temel” (baseline) dediğimiz şeyi ayarlar. Diyelim ki bakterileri öldürmek için yeni bir ilacı test ediyoruz (bir antibiyotik) ve bunu yapmak için ilacı ekledikten sonra bir test tüpünde hala hayatta olan bakterileri sayacağız. Üç tüple bir deney kurabiliriz.
Birinci tüp, test etmek istediğimiz ilacı içerebilir.
İkinci tüp pozitif kontrolümüzü içerebilir (bakterileri öldüreceğini bildiğimiz farklı bir ilaç)
Son tüp bizim negatif kontrolümüzdür. Bu tüpte de bakteri üzerinde hiçbir etkisi olmadığını bildiğimiz bir ilaç bulunabilir. Bu bize, hiçbirini öldürmeseydik kaç bakterinin hayatta kalacağını söyler (3).
7- Birinci Tip Hatayı (α) Artırmayınız
Çok test yapma (Multiplicity) ve tip I hata
Örneğin aynı veri seti üzerinde toplamda 14 adet istatistiksel test, her biri α = 0.05 anlamlılık düzeyinde gerçekleştirilmiş olsun. Her bir test %5’lik bir hata payı içereceği için tesadüfen de olsa en azından bir sıfır hipotezi yanlışlıkla reddedilebilir. Bu durumda istatistiksel güç çok düşük bile olsa bazı anlamlı sonuçlar tesadüfen elde edilebilir.
n: Sayı, FP: False Positive (Yanlış Pozitif)
k: Çalışmada kullanılan istatistiksel test sayısı, α: Anlamlılık seviyesi
14 testte en az bir adet sıfır hipotezinin yanlışlıkla reddedilme olasılığı:
P (nFP >= 1) = 1- (1-α)k H0
P (nFP >= 1) = 1 - (1 - 0.05)14; P = 0.51
35 testte en az bir adet sıfır hipotezinin yanlışlıkla reddedilme olasılığı: P = 1 – (1 – 0.05)35; P = 0.83
Matematiğe boğmadan konuyu özetleyecek olursam: Kullanılan istatistiksel test sayısı arttıkça, doğru bir sıfır hipotezinin reddedilme olasılığı da artmaktadır.
Bu noktada imdada yetişen Bonferroni düzeltmesi, çoklu test yapıldığında tip I hata oranını kontrol etmek için basit bir yaklaşım sağlar. Tip 1 hata (α değeri) ikili karşılaştırma sayısına bölünür veya p değeri ikili karşılaştırma sayısı ile çarpılır. Test sayısının az olduğu durumlarda uygundur. Bununla birlikte, çok sayıda test yapılırsa düzeltme tutucu olma eğilimindedir. Yani 1. Tip hata kontrol altına alınırken 2. Tip hata şişer. Bu da anlamlı bulunabilecek bir sonucun anlamsız hale gelmesine neden olur ve testin gücü düşer.
Daha fazla istatistiksel güce sahip daha az katı ayarlamalar vardır. Yani, etkilerin daha yüksek sıklıkta istatistiksel olarak anlamlı olmasına izin verirler. Bunlar: Holm, Hochberg, Hommel, Benjamini-Hochberg (BH), Benjamini and Yekutieli (BY) olarak sıralanabilir (4).
Hipotez testinde tip 1 hata olasılığını tamamen ortadan kaldırmak mümkün değildir. Ancak, tip 1 hatayı en aza indirmek için bazı fırsatlar vardır. Bunların en bilinenleri:
Yapılacak testleri en baştan planlamak, plana sadık kalmak ve fishing (anlamlı sonuç bulabilmek için çok fazla test yapmak) yapmamak
Primer çıktıya odaklanarak istatistiksel test sayısını minimum düzeyde tutmak
Çok grup fark testlerinde Tip 1 hata (α değeri) veya p değeri düzeltmesi yapmak
Aynı hipotezi en az testle analiz edecek yaklaşıma yönelmek için gerekli düzenlemeler yapmak (örneğin: ana etkiler yerine yalnızca etkileşimi test etmek veya ileri istatistiksel testlerde veri dönüşümleri yaparak parametrik testlere yönelmek).
Revizyon isteklerinin olumlu tarafı, özellikle konunun uzmanı hakemlere denk gelirsek bu sürecin oldukça eğitici olmasıdır. Kabul alan makalelerin mutluluğu ise paha biçilemez. Tüm araştırmacılara başarılı bir bilimsel yayın süreci dilerim.
Referanslar
(1) Örneklem Sayısı Tahminlemesi İçin İhtiyaç Duyduğumuz Bilgiler. http://idb.akdeniz.edu.tr/basvuru/. Son Erişim Tarihi: 8.11.2021
(2) American Psychological Association. (2019). Publication Manual of the American Psychological Association, (2020).
(3) Valıdatıng Experıments - “Controls”. https://whydoscientists.org/validating-experiments-controls/. Son Erişim Tarihi: 8.11.2021
(4) Chen, S. Y., Feng, Z., & Yi, X. (2017). A general introduction to adjustment for multiple comparisons. Journal of thoracic disease, 9(6), 1725.

