يعد تنظيف البيانات جزءًا مهمًا من تحليل البيانات ، خاصةً عندما تجمع البيانات الكمية الخاصة بك. بعد جمع البيانات ، يجب إدخالها في برنامج كمبيوتر مثل SAS أو SPSS أو Excel. أثناء هذه العملية ، سواء تم ذلك يدويًا أو قام ماسح ضوئي بالكمبيوتر بذلك ، ستكون هناك أخطاء. بغض النظر عن مدى دقة إدخال البيانات ، فإن الأخطاء لا مفر منها. قد يعني هذا ترميزًا غير صحيح ، وقراءة غير صحيحة للرموز المكتوبة ، والاستشعار غير الصحيح للعلامات السوداء ، والبيانات المفقودة ، وما إلى ذلك. تنظيف البيانات هو عملية اكتشاف وتصحيح أخطاء الترميز هذه.
هناك نوعان من تنظيف البيانات يحتاج إلى إجراء مجموعات البيانات. هم ممكن كود التنظيف وتنظيف الطوارئ. يعد كلاهما ضروريًا لعملية تحليل البيانات لأنه إذا تم تجاهله ، فستنتج دائمًا تقريبًا نتائج بحثية مضللة.
ممكن كود التنظيف
سيكون لأي متغير محدد مجموعة محددة من خيارات الإجابات والرموز لمطابقة كل خيار للإجابة. على سبيل المثال ، المتغير جنس سيكون لديك ثلاثة خيارات ورموز لكل إجابة: 1 للذكور ، و 2 للإناث ، و 0 للإجابة. إذا كان لديك مستجيب تم ترميزه بالرمز 6 لهذا المتغير ، فمن الواضح أنه قد حدث خطأ لأن هذا ليس رمز إجابة محتمل. التنظيف المحتمل للكود هو عملية التحقق لمعرفة أن الرموز المعينة لخيارات الإجابات لكل سؤال فقط (الرموز الممكنة) تظهر فقط في ملف البيانات.
تحقق بعض برامج الكمبيوتر وحزم البرامج الإحصائية المتاحة لإدخال البيانات من هذه الأنواع من الأخطاء أثناء إدخال البيانات. هنا ، يحدد المستخدم الرموز الممكنة لكل سؤال قبل إدخال البيانات. ثم ، إذا تم إدخال رقم خارج الإمكانيات المحددة مسبقًا ، فستظهر رسالة خطأ. على سبيل المثال ، إذا حاول المستخدم إدخال الرقم 6 للجنس ، فقد يصدر الكمبيوتر صوتًا ويرفض الكود. برامج الكمبيوتر الأخرى مصممة لاختبار الرموز غير المشروعة في ملفات البيانات المكتملة. أي إذا لم يتم التحقق منها أثناء عملية إدخال البيانات كما هو موضح للتو ، فهناك طرق للتحقق من الملفات بحثًا عن أخطاء الترميز بعد اكتمال إدخال البيانات.
إذا كنت لا تستخدم برنامج كمبيوتر يبحث عن أخطاء الترميز أثناء عملية إدخال البيانات ، يمكنك تحديد بعض الأخطاء ببساطة عن طريق فحص توزيع الردود على كل عنصر في البيانات جلس. على سبيل المثال ، يمكنك إنشاء جدول تردد للمتغير جنس وهنا سترى الرقم 6 الذي تم إدخاله بطريقة خاطئة. يمكنك بعد ذلك البحث عن هذا الإدخال في ملف البيانات وتصحيحه.
تنظيف الطوارئ
النوع الثاني من البيانات يُطلق على التنظيف تنظيف الطوارئ وهو أكثر تعقيدًا قليلاً من التنظيف المحتمل للكود. قد يضع الهيكل المنطقي للبيانات قيودًا معينة على ردود بعض المجيبين أو على متغيرات معينة. التنظيف الطارئ هو عملية التحقق من أن تلك الحالات التي يجب أن تحتوي على بيانات حول متغير معين هي فقط التي لديها بالفعل مثل هذه البيانات. على سبيل المثال ، دعنا نقول أن لديك استبيانا تسأل فيه المجيبين عن عدد المرات التي حملوا فيها. يجب أن يكون لدى جميع المستجيبات استجابة مشفرة في البيانات. ومع ذلك ، يجب ترك الذكور إما فارغًا أو يجب أن يكون لديهم رمز خاص لعدم الرد. إذا تم ترميز أي ذكر في البيانات على أنه يحتوي على 3 حالات حمل ، على سبيل المثال ، فأنت تعلم أن هناك خطأ ويجب تصحيحه.
المراجع
بابي ، إ. (2001). ممارسة البحوث الاجتماعية: الطبعة التاسعة. بيلمونت ، كاليفورنيا: وادسورث طومسون.