عمليات السحابة المدعومة بالذكاء الاصطناعي: AIOps، الملاحظة والاستجابة التلقائية للحوادث

عمليات السحابة المدعومة بالذكاء الاصطناعي: AIOps، الملاحظة والاستجابة التلقائية للحوادث

مقدمة

تستخدم عمليات السحابة المدعومة بالذكاء الاصطناعي (AIOps) التعلم الآلي والأتمتة لاكتشاف الشذوذات، وربط الأحداث، وتقليل ضوضاء التنبيهات، وتسريع الاستجابة للحوادث، وتحسين الموثوقية على نطاق واسع. يزود هذا البرنامج العملي قادة عمليات السحابة بأساليب حديثة للملاحظة، وسير عمل الحوادث المؤتمتة، والحوكمة—مما يساعد الفرق على تحسين وقت التشغيل، وتقليل MTTR، وتشغيل منصات السحابة بكفاءة وأمان.

أهداف الدورة

بحلول نهاية هذه الدورة، سيتمكن المشاركون من:

  • فهم مفاهيم AIOps وأين يقدم الذكاء الاصطناعي قيمة في العمليات السحابية
  • صمم استراتيجية قابلية الرصد عبر السجلات والمقاييس والآثار والأحداث
  • تطبيق تقنيات الذكاء الاصطناعي لاكتشاف الشذوذ، وربط الأحداث، وتحسين التنبيهات
  • قم ببناء سير عمل وسجلات تشغيل آلية للاستجابة للحوادث مع عناصر تحكم من قبل الإنسان في الحلقة
  • دمج AIOps مع ممارسات ITSM/SRE لتحسين الموثوقية وجودة الخدمة
  • وضع الحوكمة والمقاييس وخارطة طريق التنفيذ للعمليات المدعومة بالذكاء الاصطناعي

الجمهور المستهدف

تم تصميم هذه الدورة ل:

  • مديرو عمليات السحابة، قادة SRE، وقادة عمليات المنصات
  • قادة إدارة الحوادث ومراكز العمليات النووية/العمليات التشغيلية وإدارة الحوادث يعملون في بيئات السحابة
  • مديرو هندسة المنصات وعمليات التطوير
  • قادة إدارة خدمات تكنولوجيا المعلومات (ITSM) مسؤولون عن الحوادث/المشكلة/التغيير
  • مهندسو الملاحظة والمراقبة والموثوقية

منهاج الدورة

اليوم الأول: أساسيات AIOps وجاهزية العمليات السحابية

  • تحديات عمليات السحابة: التوسع، التعقيد، الأنظمة الموزعة، والضوضاء
  • نظرة عامة على AIOps: اكتشاف الشذوذات، الارتباط، التنبؤ، والأتمتة
  • محاذاة SRE/ITSM: أهداف الموثوقية، دورة حياة الحوادث، وإيقاعات التشغيل
  • جاهزية البيانات: جودة القياسات عن بعد، معايير الوسم، ومفاهيم CMDB/خرائط الخدمة
  • النشاط: تقييم جاهزية AIOps (الأدوات، البيانات، نضج العمليات، والفجوات)

اليوم الثاني: استراتيجية الملاحظة ونمذجة الصحة الخدمية

  • أعمدة الملاحظة: السجلات، المقاييس، الآثار، الأحداث—ما الذي يستخدم من أجله كل منها
  • نماذج صحة الخدمة: SLIs/SLOs، ميزانيات الأخطاء، ورحلات المستخدم الحرجة
  • استراتيجية الأجهزة: المعايير، الوسوم، ومفاهيم نشر السياق
  • خرائط خدمة البناء ورؤية الاعتماد لتشخيص أسرع
  • ورشة العمل: تصميم مخطط للرصد (خريطة الخدمة + مجموعة SLI/SLO + خطة القياس عن بعد)

اليوم الثالث: الذكاء الاصطناعي للاكتشاف، والارتباط، وتحسين التنبيهات

  • مفاهيم اكتشاف الشذوذ: الخطوط الأساسية، الموسمية، وضبط العتبة
  • ارتباط الحدث: تجميع التنبيهات، تقليل التكرار، وتحديد الإشارات الجذرية
  • تقليل الضوضاء: تنبيه النظافة، قواعد القمع، والتوجيه بناء على التأثير
  • رؤى تنبؤية: إشارات مخاطر السعة ومفاهيم التنبؤ بالتدهور
  • النشاط العملي: ابن خطة تحسين تنبيه + قواعد ارتباط لسيناريو حالة معينة

اليوم الرابع: الاستجابة التلقائية للحوادث وتنسيق كتاب التشغيل

  • تحديث الاستجابة للحوادث: أتمتة الفرز، الإجراءات المقترحة، والتصعيد
  • دفاتر التشغيل والأتمتة: المحفزات، الموافقات، وضمانات التراجع
  • تصميم الإنسان في الحلقة: متى تعمل الأتمتة مقابل التوصية
  • دمج إدارة المشكلات: تحويل الحوادث إلى إجراءات للوقاية من الأسباب الجذرية
  • دراسة حالة: محاكاة الحوادث (انقطاع كبير) باستخدام نظام الفرز الآلي وسير العمل في دفتر التشغيل

اليوم الخامس: خارطة طريق تنفيذ الحوكمة والمقاييس وAIOps

  • حوكمة AIOps: الأدوار، حقوق اتخاذ القرار، الموافقات، والتحكم في التغيير للأتمتة
  • الضوابط وإدارة المخاطر: الإيجابيات الكاذبة، أخطاء الأتمتة، ومسارات التدقيق
  • مؤشرات النجاح: MTTR، MTTD، حجم التنبيهات، التوفر، الامتثال لمعايير SLO، تقليل الجهد.
  • خطة التبني: اختيار الطيارين، التدريب، إيقاع التشغيل، والتحسين المستمر
There are no items in the curriculum yet.