الوصف الوظيفي
تعال للعمل في مكان حيث تلتقي الابتكار والعمل الجماعي لدعم أكثر المهام إثارة في العالم!
المسمى الوظيفيمهندس موثوقية موقع أول (SRE) – الرصد وDevOps
ملخص الدورنبحث عن مهندس موثوقية موقع أول سيتولى ملكية وتطوير منصتنا للرصد والموثوقية. يجب أن يكون المرشح المثالي لديه أساسيات قوية في لينوكس، وتجربة عملية مع حزم الرصد الحديثة، والقدرة على تصميم أنظمة تنبيه ومقاييس قابلة للتوسع للأنظمة الكبيرة الموزعة.
يتطلب هذا الدور كل من الخبرة التقنية العميقة وعقلية ملكية الإنتاج.
المسؤوليات الرئيسيةالرصد والمراقبة- تصميم وتنفيذ وصيانة الرصد الشامل باستخدام:
- بروميثيوس لجمع المقاييس
- ألت مانجر لتوجيه التنبيهات، وإزالة التكرار، والتصعيد
- غرافيانا للتصور ولوحات المعلومات
- أب دايناميكس لرصد أداء التطبيقات، وتتبع المعاملات، وصحة التطبيقات
- بناء لوحات معلومات قابلة للتنفيذ لـ:
- SLIs وSLOs وميزانيات الأخطاء
- صحة التطبيقات والبنية التحتية والمنصة
- تقليل تعب التنبيهات من خلال تنفيذ تنبيهات قائمة على الإشارة ونماذج شدة مناسبة
منصة البيانات والمقاييس- إدارة وتحسين كليك هاوس لـ:
- مقاييس وحجوزات أو تتبعات عالية الحجم
- الاحتفاظ طويل الأمد واستعلامات تحليلية سريعة
- العمل على تصميم المخططات، وتحسين الأداء، وتقليل التكاليف
الموثوقية والعمليات- تحديد وقياس أفضل ممارسات SRE (SLIs وSLOs وSLAs)
- المشاركة في استجابة الحوادث، التحليلات اللاحقة، وتحليل الأسباب الجذرية
- دفع تحسينات الموثوقية من خلال الأتمتة وتخطيط السعة
الأتمتة والهندسة- تطوير أدوات وأتمتة باستخدام لغة برمجة أو نص واحدة على الأقل
- أتمتة انضمام المراقبة، وتوليد التنبيهات، وإنشاء لوحات المعلومات
- تحسين الكفاءات التشغيلية عبر أدوات DevOps
المهارات التقنية المطلوبة (يجب أن تكون موجودة)المهارات الأساسية- أساسيات قوية في لينوكس
- استكشاف الأخطاء، وتحسين الأداء، والشبكات، والأنظمة الداخلية
- البرمجة / النص (أي واحدة أو أكثر):
- بايثون (مفضل)، باش، غو، أو ما شابه
- أدوات الرصد (تجربة عملية):
- بروميثيوس
- ألت مانجر
- غرافيانا
- أب دايناميكس
- منصة البيانات:
مفاهيم المراقبة والتنبيه- المقاييس مقابل السجلات مقابل التتبع
- الإشارات الذهبية (الكمون، الحركة، الأخطاء، التشبع)
- عتبات التنبيه، سياسات التوجيه، استراتيجيات التصعيد
المهارات المفضلة / الجيدة- مراقبة Kubernetes (مشغل بروميثيوس، kube-state-metrics)
- البنية التحتية ككود (تيرافورم، هيلم)
- رصد CI/CD
- منصات السحابة (AWS / Azure / GCP)
- خبرة في إدارة الرصد على نطاق واسع (100+ خدمات / منصات)
توقعات المستوى الأول- القدرة على تصميم حلول الرصد، وليس فقط تشغيلها
- استكشاف الأخطاء القوية وملكية الحوادث
- توجيه المهندسين المبتدئين
- التأثير على أفضل ممارسات DevOps وSRE عبر الفرق
- التواصل بوضوح مع المطورين والقيادة
الخبرة والمؤهلات- 5-7 سنوات من الخبرة في SRE / DevOps / هندسة الإنتاج
- خبرة في تشغيل أنظمة عالية التوافر وكبيرة النطاق
- خلفية مثبتة في تحسينات الموثوقية المدفوعة بالرصد
لقد تمت ترجمة هذا الإعلان الوظيفي بواسطة الذكاء الاصطناعي وقد يحتوي على بعض الاختلافات أو الأخطاء البسيطة.