课程概况
مقدمة عن البيانات الضخمة
هل أنت مهتم بزيادة معرفتك بأبرز سمات البيانات الضخمة؟ هذه الدورة التدريبية مخصصة للمستجدين في علوم البيانات والمهتمين بفهم أسباب ظهور عصر البيانات الضخمة. فهي مخصصة لمن يريدون الإلمام بالمصطلحات والمفاهيم الأساسية الخاصة بمشكلات البيانات الضخمة وتطبيقاتها وأنظمتها. إنها لمن يريدون البدء في التفكير بشأن الطريقة التي يمكن أن تفيدهم البيانات الضخمة بها في عملهم أو مسيرتهم المهنية. حيث تتعرض مقدمة عن أحد أكثر أطر العمل الشائعة ألا وهو Hadoop، والذي زاد من سهولة تحليل البيانات الضخمة وإمكانية الوصول إليها، فقد زاد من احتمالية تطوير البيانات الضخمة لعالمنا!
وفي نهاية الدورة التدريبية، ستتمكن مما يلي:
* وصف أبرز سمات البيانات الضخمة بما في ذلك الأمثلة على مشكلات البيانات الضخمة على أرض الواقع التي تتضمن ثلاثة مصادر أساسية للبيانات الضخمة وهي الأفراد والمؤسسات وأدوات الاستشعار.
* شرح خصائص البيانات الضخمة التي تبدأ بالحرف V مثل (volume (الحجم)، وvelocity (السرعة)، وvariety (التنوع)، وveracity (الصحة)، وvalence (التكافؤ)، وvalue (القيمة)) ولماذا تؤثر كل خاصية من تلك الخصائص في جمع البيانات ومتابعتها وتخزينها وتحليلها والإبلاغ عنها
* الاستفادة بقيمة البيانات الضخمة عن طريق استخدام عملية مكونة من 5 خطوات لهيكلة تحليلك.
* تحديد المشكلات التي تندرج تحت البيانات الضخمة والتي لا تندرج تحتها، والقدرة على إعادة تشكيل مشكلات البيانات الضخمة مثل مسائل علوم البيانات.
* تقديم تفسير للمكونات الهندسية والنماذج البرمجية التي تستخدم في التحليل القابل للتوسيع للبيانات الضخمة.
* تلخيص ميزات المكونات الأساسية لمكدس Hadoop وقيمتها بما في ذلك مورد YARN ونظام إدارة الوظائف، ونظام ملفات HDFS، ونموذج برمجة MapReduce.
* تثبيت البرامج وتشغيلها باستخدام إطار عمل Hadoop!
هذه الدورة التدريبية موجهة للمستجدين في علوم البيانات. لا يلزم توافر خبرة برمجية مسبقة، على الرغم من ضرورة توافر القدرة على تثبيت التطبيقات واستخدام الأجهزة الظاهرية لإنجاز الواجبات العملية.
متطلبات الأجهزة:
(أ) معالج رباعي النواة (يوصى بمعالج يدعم ميزة VT-x أو AMD-V)، 64 بت؛ (ب) ذاكرة وصول عشوائي بحجم 8 جيجابايت؛ (ج) مساحة خالية بحجم 20 جيجابايت.
طريقة العثور على معلومات الأجهزة: (نظام Windows): افتح النظام عن طريق الضغط على زر Start (بدء التشغيل)، وانقر بزر الفأرة الأيمن على أيقونة Computer (جهاز الكمبيوتر)، ثم انقر على Properties (خصائص)؛ (نظام Mac): افتح Overview (نظرة عامة) عن طريق الضغط على قائمة Apple والنقر على “About This Mac.” سيتوفر الحد الأدنى من المتطلبات في معظم أجهزة الكمبيوتر ذات الذاكرة العشوائية سعة 8 جيجابايت والتي تم شراؤها في آخر 3 أعوام. وستحتاج إلى سرعة اتصال عالية بالإنترنت لأنك ستقوم بتنزيل ملفات يصل حجمها إلى 4 جيجابايت.
المتطلبات البرمجية: تعتمد هذه الدورة التدريبية على العديد من الأدوات البرمجية مفتوحة المصدر، ومنها Apache Hadoop. ويمكن تنزيل جميع البرامج المطلوبة وتثبيتها مجانًا.
تتضمن المتطلبات البرمجية ما يلي: Windows 7+ أو Mac OS X 10.10+ أو Ubuntu 14.04+ أو CentOS 6+ VirtualBox 5+.
课程大纲
مرحبًا
مرحبًا بكم في تخصص البيانات الضخمة! يسعدنا تعرفكم إلينا ونتطلع إلى التعرف إليكم!
البيانات الضخمة: السبب والمكان
البيانات - إنها موجودة منذ فترة (ولو كانت في صورة رقمية حتى). ما الذي يجعل البيانات "ضخمة" ومن أين تأتي هذه البيانات الضخمة؟
خصائص البيانات الضخمة وأبعاد قابلية التوسع
ربما سمعت عن مصطلح "Big Vs". سوف نعرض مجموعة من الأمثلة والأوصاف للخصائص الخمس التي تتم مناقشتها عادةً. ولكننا نريد أن نطرح خاصية سادسة وسنطلب منك التدريب على كتابة أسئلة البيانات الضخمة التي تستهدف هذه الخاصية، ألا وهي القيمة.
علوم البيانات: الاستفادة بقيمة البيانات الضخمة
نحن نحب العلم ونحب علوم الكمبيوتر، ولكن لا تسيئوا فهمنا. فالحقيقة أننا نهتم بالبيانات الضخمة لأنها يمكن أن تضيف قيمة إلى شركاتنا وحياتنا وعالمنا. سوف نعرض في هذه الوحدة عملية مكونة من 5 خطوات للتعامل مع مشكلات علوم البيانات.
أسس أنظمة البيانات الضخمة وبرمجتها
تتطلب البيانات الضخمة أطرًا وأنظمة جديدة للبرمجة. ونحن لا نقدم معارف أو تجارب في البرمجة في هذه الدورة التدريبية، بل نريد أن نقدم لك معلومات أولية في إطار بعض المفاهيم الأساسية.
الأنظمة: بدء استخدام برنامج Hadoop
لنلقِ نظرة على بعض التفاصيل الخاصة ببرنامج Hadoop ونموذج MapReduce. ثم سننتقل إلى "التدريبات العملية" وننفذ مهمة بسيطة على نموذج MapReduce في الجهاز الظاهري Cloudera VM. نرجو الانتباه إلى أننا سوف نوجهك في "التعلم العملي" بشأن إنشاء المخططات الخاصة بمهام نموذج MapReduce كإحدى مراجعات الأقران.