أ المفارقة عبارة أو ظاهرة تبدو على السطح متناقضة. تساعد المفارقات على الكشف عن الحقيقة الكامنة تحت سطح ما يبدو سخيفًا. في مجال الإحصائيات ، توضح مفارقة سيمبسون أنواع المشاكل الناتجة عن دمج البيانات من عدة مجموعات.
مع جميع البيانات ، نحتاج إلى توخي الحذر. من أين أتى؟ كيف تم الحصول عليها؟ وماذا تقول حقا؟ هذه كلها أسئلة جيدة يجب أن نطرحها عند تقديم البيانات. توضح لنا حالة المفارقة المفاجئة لمفارقة سيمبسون أن ما يبدو أن البيانات تقوله في بعض الأحيان ليس هو الحال في الواقع.
نظرة عامة على المفارقة
لنفترض أننا نراقب عدة مجموعات ونقيم علاقة أو علاقه مترابطه لكل من هذه المجموعات. تقول مفارقة سيمبسون أنه عندما نجمع كل المجموعات معًا وننظر إلى البيانات في شكل إجمالي ، فقد يعكس الارتباط الذي لاحظناه من قبل نفسه. غالبًا ما يرجع ذلك إلى المتغيرات الكامنة التي لم يتم أخذها في الاعتبار ، ولكن في بعض الأحيان يرجع ذلك إلى القيم العددية للبيانات.
مثال
لفهم مفارقة سيمبسون ، دعنا نلقي نظرة على المثال التالي. في مستشفى معين ، هناك جراحان. يعمل الجراح أ على 100 مريض ، و 95 على قيد الحياة. يعمل الجراح B على 80 مريضًا و 72 على قيد الحياة. نحن نفكر في إجراء جراحة في هذا المستشفى والعيش خلال العملية أمر مهم. نريد أن نختار أفضل الجراحين.
نحن ننظر إلى البيانات ونستخدمها لحساب النسبة المئوية لمرضى الجراح الذين نجوا من عملياتهم ومقارنتها بمعدل البقاء على قيد الحياة لمرضى الجراح B.
- نجا 95 مريضًا من أصل 100 مع الجراح A ، لذلك نجا 95/100 = 95 ٪ منهم.
- نجا 72 مريضا من أصل 80 مع الجراح B ، لذلك نجا 72/80 = 90 ٪ منهم.
من هذا التحليل ، أي جراح يجب أن نختار علاجه؟ يبدو أن الجراح أ هو الرهان الأكثر أمانًا. ولكن هل هذا صحيح حقا؟
ماذا لو قمنا ببعض البحث الإضافي في البيانات ووجدنا أن المستشفى قد فكر في الأصل نوعين مختلفين من العمليات الجراحية ، ولكن بعد ذلك جمع كل البيانات معًا للإبلاغ عن كل منها الجراحين. ليست جميع العمليات الجراحية متساوية ، فقد اعتبر بعضها جراحات طوارئ عالية الخطورة ، في حين أن البعض الآخر كان أكثر طبيعة روتينية تم تحديدها مسبقًا.
من بين 100 مريض عالجهم الجراح أ ، كان 50 منهم عرضة لخطر كبير ، مات منهم ثلاثة. واعتبرت الخمسين الأخرى روتينية ، وتوفي من بين هذين. هذا يعني أنه بالنسبة للجراحة الروتينية ، فإن المريض الذي يعالج من قبل الجراح أ لديه معدل بقاء 48/50 = 96 ٪.
الآن ننظر بعناية أكبر إلى بيانات الجراح B ونجد أن من بين 80 مريضًا ، 40 منهم كانوا عرضة لمخاطر عالية ، مات منهم سبعة. الأربعون الآخرون كانوا روتينية ومات واحد فقط. هذا يعني أن المريض لديه معدل بقاء 39/40 = 97.5٪ للجراحة الروتينية مع الجراح ب.
الآن أي جراح يبدو أفضل؟ إذا كانت الجراحة ستكون روتينية ، فإن الجراح B هو في الواقع الجراح الأفضل. إذا نظرنا إلى جميع العمليات الجراحية التي أجراها الجراحون ، فإن A أفضل. هذا أمر بديهي تمامًا. في هذه الحالة ، يؤثر المتغير الكامن في نوع الجراحة على البيانات المجمعة للجراحين.
تاريخ مفارقة سمبسون
تمت تسمية مفارقة سيمبسون على اسم إدوارد سيمبسون ، الذي وصف لأول مرة هذه المفارقة في ورقة 1951 "تفسير التفاعل في جداول الطوارئ" من مجلة الجمعية الإحصائية الملكية. لاحظ كل من بيرسون ويول تناقضًا مشابهًا قبل نصف قرن من سيمبسون ، لذلك يُشار أحيانًا إلى مفارقة سيمبسون بتأثير سيمبسون-يول.
هناك العديد من التطبيقات واسعة النطاق للمفارقة في مجالات متنوعة مثل الإحصاءات الرياضية و بيانات البطالة. في أي وقت يتم فيه تجميع البيانات ، احترس من ظهور هذا التناقض.