الوصف الوظيفي
تبحث ميندريفت عن مهندسي بيانات خراطة بايثون كبار ذوي مهارات عالية لمشروع تندم لدفع سير عمل خراطة البيانات المتخصصة ضمن نظامنا الهجين من الذكاء الاصطناعي + البشر.
في هذه الوظيفة، كطيار ذكاء اصطناعي - هذا هو الاسم الذي نشير به إلى هذه الوظيفة في ميندريفت - ستتعاون مع وكلاء تندم الذين يتعاملون مع المهام المتكررة، بينما تقدم التفكير النقدي، وخبرة المجال، ومراقبة الجودة لتقديم نتائج دقيقة وقابلة للتنفيذ.
هذه الفرصة عن بُعد بدوام جزئي مثالية للمهنيين الفنيين ذوي الخبرة العملية في خراطة الويب، واستخراج البيانات، والمعالجة.
ما نقوم به: تربط منصة ميندريفت المتخصصين بمشاريع الذكاء الاصطناعي من مبتكرين تقنيين رئيسيين.
مهمتنا هي فتح إمكانيات الذكاء الاصطناعي التوليدي من خلال الاستفادة من الخبرة الواقعية من جميع أنحاء العالم.
هذه وظيفة حرة لمشروع تندم.
كمهندس بيانات خراطة بايثون كبير، ستتعامل مع مهام خراطة البيانات التي تتطلب دقة تقنية لاستخراج الويب والمعالجة، باستخدام أدوات متنوعة مثل Apify وOpenRouter المقدمة من قبلنا جنبًا إلى جنب مع أساليبك الخاصة.
المسؤوليات الرئيسية: امتلاك سير عمل استخراج البيانات من البداية إلى النهاية عبر مواقع الويب المعقدة، مع ضمان التغطية الكاملة، والدقة، والتسليم الموثوق لمجموعات البيانات المنظمة.
الاستفادة من الأدوات الداخلية (Apify، OpenRouter) جنبًا إلى جنب مع سير العمل المخصص لتسريع جمع البيانات، والتحقق، وتنفيذ المهام مع تلبية المتطلبات المحددة.
ضمان استخراج موثوق من مصادر الويب الديناميكية والتفاعلية، وتكييف الأساليب حسب الحاجة للتعامل مع المحتوى المعروض بواسطة JavaScript وسلوك الموقع المتغير.
فرض معايير جودة البيانات من خلال فحوصات التحقق، وضوابط الاتساق عبر المصادر، والامتثال لمواصفات التنسيق، والتحقق المنهجي قبل التسليم.
توسيع عمليات الخراطة لمجموعات البيانات الكبيرة باستخدام التجميع الفعال أو التوازي، ومراقبة الفشل، والحفاظ على الاستقرار ضد التغييرات الطفيفة في هيكل الموقع.
المتطلبات: خبرة لا تقل عن 5 سنوات في هندسة البيانات، خراطة الويب، الأتمتة، أو تطوير البرمجيات (مطلوبة).
درجة البكالوريوس أو الماجستير في الهندسة، الرياضيات التطبيقية، علوم الكمبيوتر، أو مجالات تقنية ذات صلة تعتبر ميزة.
يجب أن يكون لدى المرشحين أساس تقني قوي وخبرة عملية في البرمجة النصية، والأتمتة، وسير العمل المدعوم بالذكاء الاصطناعي.
نحن نبحث عن متخصصين يمكنهم حل المشكلات غير التافهة، والعمل بثقة مع نماذج اللغة الكبيرة، وجمع، هيكلة، والتحقق من البيانات من مصادر متنوعة بشكل منهجي.
نهج منهجي، واهتمام بالتفاصيل، والقدرة على العمل بشكل مستقل هي أمور أساسية.
خبرة قوية في خراطة الويب باستخدام بايثون (BeautifulSoup، Selenium أو ما شابه)، بما في ذلك المحتوى الديناميكي (JS، AJAX، التمرير اللانهائي) وواجهات برمجة التطبيقات عبر الوكلاء. القدرة المثبتة على استخراج البيانات من الهياكل المعقدة (الهيراركية، الصفحات المؤرشفة، HTML غير المتسق). خلفية قوية في تنظيف البيانات، والتطبيع، والتحقق، مع تقديم مجموعات بيانات منظمة (CSV، JSON، Google Sheets). خبرة مثبتة في التعامل مع آليات مكافحة الروبوتات والهياكل الديناميكية للمواقع على نطاق واسع. خبرة في البنية التحتية السحابية (AWS أو ما يعادلها) والحاويات (Docker) كجزء من سير العمل الحقيقي. خبرة عملية مع أطر عمل نماذج اللغة الكبيرة (LangChain، OpenRouter، أو ما شابه) المطبقة على مهام الأتمتة. اهتمام قوي بالتفاصيل والتزام بدقة البيانات. أخلاقيات عمل ذاتية التوجيه مع القدرة على استكشاف الأخطاء وإصلاحها بشكل مستقل. رابط إلى GitHub يعتبر ميزة. إتقان اللغة الإنجليزية: مستوى فوق المتوسط (B2) أو أعلى (مطلوب). توقعات وقت المشروع: بالنسبة لهذا المشروع، يُقدّر أن المهام ستتطلب حوالي 10-20 ساعة في الأسبوع خلال المراحل النشطة، بناءً على متطلبات المشروع.
هذه تقديرات، وليست عبء عمل مضمون، وتنطبق فقط أثناء نشاط المشروع.
التعويض: في هذا المشروع، يمكن للمساهمين كسب ما يصل إلى 37 دولارًا في الساعة، اعتمادًا على مستوى مساهمتهم وسرعتها.
يختلف التعويض عبر المشاريع بناءً على النطاق، التعقيد، والخبرة المطلوبة.
يرجى ملاحظة أن المشاريع الأخرى على المنصة قد تقدم مستويات كسب مختلفة بناءً على متطلباتها.
لقد تمت ترجمة هذا الإعلان الوظيفي بواسطة الذكاء الاصطناعي وقد يحتوي على بعض الاختلافات أو الأخطاء البسيطة.