كشف مدير البنية التحتية في فيسبوك، سانتوش جاناردهان، في بيان تفصيلي السبب الذي أدى إلى انقطاع خدمات فيسبوك عن العالم، يوم الإثنين.
وقال البيان، الذي نشر عبر مدونة تابعة للشركة، الثلاثاء، إن الانقطاع كان بسبب أمر خاطئ “غير مقصود” تم توجيهه للشبكة الرئيسية العالمية التي “تربط جميع مرافق الحوسبة لدينا معا، والتي تتكون من عشرات الآلاف من الأميال من كابلات الألياف الضوئية التي تعبر الكرة الأرضية وتربط جميع مراكز البيانات لدينا”.
وأوضح أنه “تتم إدارة حركة البيانات بين جميع هذه المراكز بواسطة أجهزة توجيه، وخلال قيام المهندسين بعمل صيانة دورية، فهم يحتاجون إلى فصل بعض أجزاء الشبكة الرئيسية، ربما بهدف إصلاح بعض الكابلات الضوئية، أو تحسين كفاءتها، أو تحديث برامج جهاز التوجيه نفسه”.
وخلال إحدى مهام الصيانة الروتينية، “تم إصدار أمر بهدف اختبار كفاءة الشبكة الرئيسة لمراكز البيانات، والذي أدى عن غير قصد إلى قطع جميع الاتصالات في الشبكة، وفصل مراكز بيانات على مستوى العالم”.
وأوضح أنه رغم تصميم أنظمة الشبكة لمراجعة أوامر مثل هذه لمنع حدوث مثل هذه الأخطاء، “حدث خطأ في أداة التدقيق منعها من إيقاف الأمر بشكل صحيح”.
وبسبب هذا التغيير، حدث “انقطاع كامل لاتصالات بين مراكز البيانات لدينا والإنترنت، وهو ما تسبب في مشكلة ثانية جعلت الأمور أسوأ”.
والمشكلة الثانية تتعلق بما يسمى إدارة أوامر أسماء النطاقات (DNS) التي تسمح لعناوين الويب بنقل المستخدمين إلى وجهاتهم، وقالت إن مراكز البيانات بدأت في رفض الطلبات القادمة من هذه الخوادم مع تعطل الشبكة الرئيسية، ما جعل الخوادم الخاصة بالشركة غير قابلة للوصول على الرغم من أنها كانت لا تزال تعمل، “وهذا جعل من المستحيل على بقية الإنترنت العثور على خوادمنا”.
وقال البيان إن “كل هذا حدث بسرعة كبيرة” فيما عجز مهندسو الشركة عن الوصول إلى مراكز البيانات الخاصة بالشركة من خلال الوسائل العادية لأن شبكاتهم كانت معطلة.
وبسبب هذا العطل، تم إرسال المهندسين إلى مراكز البيانات لتصحيح المشكلة وإعادة تشغيل الأنظمة، وهو ما احتاج إلى الكثير من الوقت لأن هذه المراكز مصممة بدرجة أمان عالية، فهي لا تسمح بإجراء تعديلات حتى مع الدخول إليها، لذلك استغرق الأمر وقتا إضافيا لتنشيط بروتوكولات الوصول الآمن اللازمة لتصحيح المشكلة.
وبعد انقطاع دام حوالي ست ساعات، أعلنت شركة فيسبوك الإثنين، عودة خدماتها إلى العمل، وأنها تبذل جهودا للعودة بالكامل إلى العمليات المنتظمة، مشيرة إلى أن سبب المشكلة التي حدثت، الإثنين، هو تغييرات في إعدادات أجهزة التوجيه (الراوتر).
وأوضحت الشركة أن مهندسيها كشفوا أن سبب العطل الذي واجه مستخدمي منصاتها حول العالم هو “تغييرات في إعدادات أجهزة الراوتر الأساسية التي تنسق حركة مرور الشبكة بين مراكز البيانات لدينا”، مضيفة “كان لهذا الاضطراب في حركة مرور الشبكة تأثير متتالٍ على طريقة تواصل مراكز البيانات لدينا، ما أدى إلى توقف خدماتنا”.
أقرأ ايضاً
- زراعة كربلاء تواصل عمليات التحري عن سوسة النخيل الحمراء
- قريبا :كربلاء ستشهد افتتاح مركز يعنى بالتدريب والتأهيل المهني والعاطلين عن العمل
- عالم أحياء يكشف سبب خطورة القهوة سريعة التحضير