ذات يوم على الغداء ، كانت امرأة شابة تأكل وعاءً كبيرًا من الآيس كريم ، وسار إليها عضو هيئة التدريس وقال لها: "كان من الأفضل أن تكون حذراً ، هناك إحصائيعلاقه مترابطه بين الآيس كريم والغرق ". لا بد أنها أعطته نظرة مرتبكة ، حيث شرح المزيد. "الأيام التي تشهد أكبر مبيعات من الآيس كريم تشهد أيضًا غرق معظم الناس."
عندما أنهت الآيس كريم ، ناقش الزميلان حقيقة أنه لمجرد أن أحد المتغيرات مرتبط إحصائيًا بمتغير آخر ، فهذا لا يعني أن أحدهما هو سبب الآخر. في بعض الأحيان يكون هناك اختباء متغير في الخلفية. في هذه الحالة ، يختبئ يوم السنة في البيانات. يباع المزيد من الآيس كريم في أيام الصيف الحارة من أيام الشتاء الثلجية. يسبح المزيد من الناس في الصيف ، وبالتالي يغرقون في الصيف أكثر من الشتاء.
احذر من المتغيرات الكامنة
الحكاية المذكورة أعلاه هي مثال رئيسي لما يعرف باسم المتغير الكامن. كما يوحي اسمها ، يمكن أن يكون المتغير الكامن بعيد المنال ويصعب اكتشافه. عندما نجد أن مجموعتين من البيانات الرقمية مترابطتان بقوة ، يجب أن نسأل دائمًا ، "هل يمكن أن يكون هناك شيء آخر يسبب هذه العلاقة؟"
فيما يلي أمثلة على الارتباط القوي الناجم عن متغير كامن:
- متوسط عدد أجهزة الكمبيوتر لكل شخص في البلد ومتوسط العمر المتوقع لذلك البلد.
- عدد رجال الإطفاء عند الحريق والضرر الناجم عن الحريق.
- ارتفاع طالب في المرحلة الابتدائية ومستوى قراءته.
في جميع هذه الحالات ، تكون العلاقة بين المتغيرات قوية جدًا. يشار إلى ذلك عادة من قبل أ معامل الارتباط له قيمة قريبة من 1 أو -1. لا يهم مدى قرب معامل الارتباط هذا من 1 أو -1 ، لا يمكن أن تظهر هذه الإحصائية أن أحد المتغيرات هو سبب المتغير الآخر.
الكشف عن المتغيرات الكامنة
بحكم طبيعتها ، من الصعب اكتشاف المتغيرات الكامنة. تتمثل إحدى الإستراتيجيات ، إذا كانت متوفرة ، في فحص ما يحدث للبيانات بمرور الوقت. يمكن أن يكشف هذا عن الاتجاهات الموسمية ، مثل مثال الآيس كريم ، التي يتم حجبها عندما يتم تجميع البيانات معًا. طريقة أخرى هي النظر القيم المتطرفة ومحاولة تحديد ما يجعلها مختلفة عن البيانات الأخرى. في بعض الأحيان يقدم هذا تلميحًا لما يحدث خلف الكواليس. أفضل مسار للعمل هو أن تكون استباقيًا. السؤال الافتراضات وتجارب التصميم بعناية.
لماذا يهم؟
في السيناريو الافتتاحي ، افترض أن عضوًا في الكونغرس حسن النية ولكن غير إحصائيًا اقترح حظر كل الآيس كريم من أجل منع الغرق. مثل هذا القانون من شأنه إزعاج قطاعات كبيرة من السكان ، وإجبار العديد من الشركات على الإفلاس ، وإلغاء آلاف الوظائف مع إغلاق صناعة الآيس كريم في البلاد. على الرغم من أفضل النوايا ، لن يقلل هذا القانون من عدد الوفيات الغارقة.
إذا كان هذا المثال يبدو بعيد المنال قليلاً ، فكر في ما يلي ، والذي حدث بالفعل. في أوائل القرن العشرين ، لاحظ الأطباء أن بعض الرضع يموتون بشكل غامض في نومهم بسبب مشاكل تنفسية محسوسة. كان هذا يسمى موت السرير ويعرف الآن باسم SIDS. الشيء الوحيد الذي توقف عن تشريح الجثث الذي تم إجراؤه على أولئك الذين ماتوا من الدول الجزرية الصغيرة النامية هو تضخم الغدة الصعترية ، وهي غدة تقع في الصدر. من ارتباط تضخم الغدد الصعترية في أطفال الدول الجزرية الصغيرة النامية ، افترض الأطباء أن الغدة الصعترية الكبيرة بشكل غير طبيعي تسبب في التنفس والوفاة بشكل غير صحيح.
كان الحل المقترح هو تقليص الغدة الصعترية باستخدام كميات كبيرة من الإشعاع ، أو إزالة الغدة تمامًا. كان لهذه الإجراءات معدل وفيات مرتفع وأدت إلى المزيد من الوفيات. المحزن هو أنه لم يكن من الضروري إجراء هذه العمليات. وقد أظهرت الأبحاث اللاحقة أن هؤلاء الأطباء كانوا مخطئين في افتراضاتهم وأن الغدة الصعترية ليست مسؤولة عن الدول الجزرية الصغيرة النامية.
الارتباط لا يعني السببية
ما سبق يجب أن يجعلنا نتوقف عندما نعتقد أن الأدلة الإحصائية تستخدم لتبرير أشياء مثل الأنظمة الطبية والتشريعات والمقترحات التعليمية. من المهم أن يتم العمل الجيد في تفسير البيانات ، خاصة إذا كانت النتائج التي تنطوي على الارتباط ستؤثر على حياة الآخرين.
عندما يقول أي شخص ، "تظهر الدراسات أن A هو سبب B وبعض الإحصاءات تدعمه ،" كن مستعدًا الرد ، "الارتباط لا يعني السببية". دائما على اطلاع على ما يكمن تحت البيانات.