الصورة تشرح آلية عمل نموذج تعلّم الآلة (Machine
Learning Model Workflow) خطوة
بخطوة، من البيانات الخام حتى تقييم النموذج. فيما يلي شرح تفصيلي لكل جزء وبالترتيب
المنطقي:
1️⃣
Initial Dataset (البيانات الأولية)
هي البيانات الخام التي يتم جمعها من مصدر ما (ملفات، قواعد
بيانات، حساسات…).
- قد تحتوي
على:
- قيم
مفقودة
- ضوضاء
- اختلاف
في المقاييس
- خصائص
غير مفيدة
2️⃣ Exploratory Data Analysis – EDA
التحليل الاستكشافي للبيانات
الغرض منه فهم البيانات قبل بناء النموذج.
يتضمن:
- Mean (المتوسط): القيمة
المتوسطة للبيانات
- Median (الوسيط): القيمة
الوسطى
- STD (الانحراف
المعياري): قياس
التشتت
- Missing Values:
اكتشاف القيم المفقودة
- Correlation (الارتباط): العلاقة
بين المتغيرات
📌 الهدف:
- معرفة شكل
البيانات
- اكتشاف
المشاكل
- تحديد
الخصائص المهمة
3️⃣ PCA و
LDA (تقليل الأبعاد)
🔹 PCA – Principal Component Analysis
- تقنية غير
إشرافية
- تقلل عدد
المتغيرات مع الحفاظ على أكبر قدر من المعلومات
- تستخدم
عند وجود عدد كبير من الخصائص
🔹 LDA – Linear Discriminant Analysis
- تقنية إشرافية
- تقلل
الأبعاد مع تعظيم الفصل بين الفئات
📌 الهدف:
- تبسيط
النموذج
- تقليل
التعقيد
- تحسين
الأداء
4️⃣ Pre-Processed Dataset (البيانات
المعالجة)
ناتج عمليات:
- تنظيف
البيانات
- معالجة
القيم المفقودة
- التطبيع (Normalization / Scaling)
- تقليل
الأبعاد
5️⃣ Input & Output Variables
🔹 Input Variables (المدخلات)
مثل:
- العمر (Age)
- الدخل (Income)
- الجنس (Sex)
- الدرجة (Score)
🔹 Output Variable (المخرج)
- الهدف
الذي نحاول التنبؤ به
مثال: - LOAN = Yes / No
- قيمة
رقمية (في الانحدار)
6️⃣ Split Dataset (تقسيم
البيانات)
يتم تقسيم البيانات إلى:
🟡 70% Training Set (بيانات
التدريب)
تُستخدم لتدريب النموذج.
🔴 30% Test Set (بيانات
الاختبار)
تُستخدم لاختبار أداء النموذج على بيانات لم يرها من قبل.
7️⃣ Learning Algorithms (خوارزميات
التعلم)
الخوارزميات المستخدمة للتعلم من البيانات:
- LR:
Logistic Regression
- SVM:
Support Vector Machine
- KNN:
K-Nearest Neighbors
- DT:
Decision Tree
- RF: Random
Forest
- GB:
Gradient Boosting
📌 اختيار
الخوارزمية يعتمد على:
- نوع
المشكلة
- حجم
البيانات
- طبيعة
المتغيرات
8️⃣ Hyperparameter Optimization
تحسين المعاملات الفائقة
الطرق:
- Grid Search
- Random Search
📌 الهدف:
- إيجاد
أفضل إعدادات للنموذج
- تحسين
الدقة وتقليل الخطأ
9️⃣ Feature Selection (اختيار
الخصائص)
اختيار أهم المتغيرات فقط التي تؤثر على النتيجة.
- يقلل
التعقيد
- يحسن
التفسير
- يمنع
الإفراط في التعلّم (Overfitting)
🔟 Cross Validation (التحقق
المتقاطع)
تقنية لتقييم النموذج على عدة تقسيمات للبيانات.
- تقلل
التحيز
- تعطي أداء
أكثر موثوقية
1️⃣1️⃣
Trained Model (النموذج المدرَّب)
النموذج بعد:
- التدريب
- الضبط
- التحقق
جاهز للتنبؤ.
1️⃣2️⃣
Predicted Y Values (القيم المتوقعة)
القيم التي يتنبأ بها النموذج عند إدخال بيانات جديدة.
1️⃣3️⃣
Evaluate Model Performance
تقييم أداء النموذج
🔹 في مشاكل التصنيف
(Classification):
- Accuracy:
الدقة
- Sensitivity (Recall):
الاستدعاء
- Specificity:
الخصوصية
- MCC: معامل
ماثيو للارتباط
🔹 في مشاكل الانحدار
(Regression):
- MSE: متوسط
مربع الخطأ
- RMSE: الجذر
التربيعي لمربع الخطأ
- R²: معامل
التحديد
📌 الهدف:
- معرفة مدى
جودة النموذج
- اتخاذ
قرار استخدامه أو تحسينه
🔁 الخلاصة العامة
الصورة تمثل خط سير كامل لبناء نموذج تعلم آلة:
من البيانات الخام → الفهم والتنظيف → التدريب → التقييم → التنبؤ
إذا رغبت، أستطيع:
- تبسيط
الشرح أكثر
- شرح كل
مرحلة بأمثلة
- تحويله
إلى ملخص دراسي أو عرض تقديمي

ليست هناك تعليقات