أساسيات علم البيانات - علم البيانات - ثاني ثانوي
1. مقدمة في علم البيانات
2. جمع البيانات والتحقق من صحتها
3. التحليل الاستكشافي للبيانات
4. نمذجة البيانات التنبؤية والتوقع
رابط الدرس الرقمي www.ien.edu.sa الدرس الثالث أساسيات علم البيانات علوم الرياضيات التي تحتاجها لتصبح عالم بيانات Mathematics Needed to Become a Data Scientist تتطلب خوارزميات علم البيانات بالإضافة إلى تنفيذ التحليلات واكتشاف الأفكار من البيانات الموجودة معرفة رياضية، ففي حين أن الرياضيات لا تُعدّ الأداة الوحيدة المطلوبة لعالم البيانات ولكنها من أهم تلك الأدوات. أحد العناصر الأكثر أهمية في سير عمل مشروع علم البيانات تحديد وفهم تحديات الأعمال وتحويلها إلى تحديات رياضية. الجبر الخطي Linear Algebra يهتم الجبر الخطي بالمصفوفات والمتجهات، مما يُعد أمرًا مهمًا للغاية؛ لأنه في نماذج علم البيانات والخوارزميات يتم تحويل جميع الأرقام والمعلومات إلى مصفوفات. ويتم استخدام تقنية أخرى ضرورية في معالجة البيانات الضخمة وترتكز على الجبر الخطي وهي تقنية تقليص الأبعاد. وكذلك تعد رؤية الحاسب (Computer Vision) والبرمجة اللغوية العصبية (NLP) من مجالات علم البيانات التي تعتمد بشكل كبير على الجبر الخطي. الرياضيات المتقطعة Discrete Mathematics تتخصص الرياضيات المتقطعة في طرائق المنطق والاستنتاج، وهي جوانب أساسية ) في تصميم الخوارزميات وتُعد أساس علم البيانات. ومن المجالات المهمة جدًا الخاصة بالرياضيات المتقطعة هي نظرية المخططات. تستخدم المخططات في نمذجة شبكات معقدة للغاية مثل شبكات تنظيم الجينات، وتعد دراسة هذه المخططات في علم البيانات مهمة جدًا للتقدم في بعض المجالات مثل الطب الدقيق وبيولوجيا الأنظمة وغيرها الكثير. و الله الاحتمالات والإحصاء Probability and Statistics عند إنشاء البيانات بعد تحليلها ، يحتاج عالم البيانات إلى معرفة عملية بالإحصاء والاحتمالات لكي يتمكن من فهم وتفسير تلك البيانات. يستخدم علماء البيانات مقاييس مثل التباين والارتباط والانحراف المعياري على نطاق واسع للحصول على نظرة ثاقبة على العلاقات الأساسية لخصائص مجموعة البيانات. التفاضل والتكامل Calculus و الله يُعد تمثيل النتائج من تحليل البيانات أمرًا بالغ الأهمية لتوفير معلومات مستنيرة من خلال إنشاء الرسوم والمخططات البيانية. يُعدُّ التفاضل والتكامل جزءًا لا يتجزأ من الخوارزميات المستخدمة في العمليات الحسابية المعقدة المطلوبة لهذه العملية، ويتم استخدام خصائص مثل الاشتقاق الجزئي، والانحدار الخطي، والنزول الاشتقاقي على نطاق واسع في التطوير والتحسين وحساب الخسارة. 12 021 031 № 11 A وزارة التعليم Ministry of Education 2024-1446 34
علوم الرياضيات التي تحتاجها لتصبح عالم بيانات
الجبر الخطي
الرياضيات المتقطعة
الاحتمالات والإحصاء
التفاضل والتكامل
البايثون في علم البيانات Python for Data Science يفضل محترفو علم البيانات عامة استخدام لغة البايثون في مشروعاتهم المختصة بهذا الجانب، فهي لا لغة برمجة عالية المستوى كائنية التوجه وسهلة التعلم ، ومن السهل البدء في العمل على مشروع ما بحيث يمكنك بدء كتابة كود برمجي بسيط أو تصميم وتنفيذ حل باستخدام مبادئ البرمجة كائنية التوجه (OOP). يوفر استخدام واجهات برمجة التطبيقات (APIS) والمكتبات القياسية الوصول إلى دوال قوية سهلة الاستخدام. توجد العديد من المكتبات الجاهزة للاستخدام في البايثون من قبل المتخصصين في المؤسسات المختلفة تغطي مجموعة متنوعة من الاحتياجات مثل: استخراج البيانات، وإعداد البيانات وتحليلها ، ومعالجة البيانات، والنمذجة التنبؤية، وتمثيل البيانات، وإعداد التقارير كذلك فإن مكتبات البايثون تدعم تطبيقات تعلّم الآلة ومتطلبات الذكاء الاصطناعي المتقدمة بما يتجاوز تطبيقات علم البيانات التقليدية. البايثون (Python) لغة برمجة عالية المستوى تستخدم لأغراض متعددة وقد اكتسبت شعبية متزايدة في علم البيانات وتعلم الآلة. مقدمة إلى مفكرة جوبيتر Intro to Jupyter يمكن كتابة أوامر البايثون النصية في أحد بيئات التطوير المتكاملة (IDE) مثل فيجول ستوديو كود (Visual StudioCode) أو JetBrains PyCharm أو يمكنك كتابتها في مفكرة جوبيتر Jupyter Notebook). تُعدّ مفكرة جوبيتر أحد تطبيقات الويب مفتوحة المصدر المستخدمة لتطوير وتقديم مشروعات علم البيانات باستخدام البايثون. تتيح البيئة التفاعلية لعلماء البيانات إنشاء مفكرات محوسبة، وتدمج مفكرة جوبيتر أوامر البايثون وتخرجها في مستند واحد يجمع بين التمثيلات والنص السردي والمعادلات الرياضية وأشكال البيانات الأخرى بعد تثبيت البرنامج، يمكن تشغيله في متصفح الويب إما عبر الإنترنت أو على حاسب شخصي. تدعم مفكرة جوبيتر إلى جانب البايثون أكثر من 100 لغة برمجة يطلق عليها اسم أنوية (kernels) في بيئة نظام مفكرة جوبيتر بما فيها Java و R و Julia و MATLAB و Octave و Scheme و Processing و Scala وغيرها. يقوم تطبيق مفكرة جوبيتر بتشغيل نواة IPython فقط ولكن يمكن تثبيت أنوية إضافية. ستستخدم هذا البرنامج لتحليل البيانات الاستكشافية لاحقا في هذا الكتاب، ويُعدّ أحدث تطبيق قائم على الويب لاستخدام مفكرة جوبيتر هو تطبيق JupyterLab بحيث تعمل جميع المستندات بنفس الطريقة في كلتا البيئتين. المستخدم Pyclite O ملف مفكرة ↑ ↓ S O مستعرض الويب خادم جوبيتر شكل 1.9 هيكلية مفكرة جوبيتر sqlite.ipynb x + Markdown v 44 Intro.ipynb × B + XD C a An example: visualizing data in the notebook + Below is an example of a code cell. We'll visualize some simple data using two popular packages in Python. We'll use NumPy to create some random data, and Matplotlib to visualize it. Note how the code and the results of running the code are bundled together. Ln 1, Col 1 Intro.ipynb Mode: Command 11 Last Modified a month ago 9 days ago 9 days ago [7]: from matplotlib import pyplot as plt import numpy as np. # Generate 100 random data points along 3 dimensions x, y, scale np.random.randn(3, 1580) fig, ax plt.subplots() #Map each onto a scatterplot we'll create with Matplotlib ax. scatter(x-x, yay, cascale, sunp.abs(scale) 10) ax.set(title="Some random data, created with Jupyter Lab!") plt.show() Some random data, created with JupyterLab! 0 IP[y]: آيبايثون IPython File View Edit Kernel Run Tabs Settings Help - ± C شكل 1.10 : نموذج لقطة شاشة من مفكرة جوبيتر Filter files by name /notebooks/ Name Intro.ipynb Lorenz.ipynb sqlite.ipynb Simple 03 Pyolite | Idle 35 وزارة التعليم Ministry of Education 2024-1446
مقدمة إلى مفكرة جوبيتر
البايتون
البايثون في علم البيانات
أدوات علم البيانات Tools for Data Science علم البيانات عملية معقدة تتطلب الكثير من الخطوات لتوفير حلول لعلم البيانات، ولكل خطوة من خطوات هذه العملية العديد من الأدوات لإنجاز المهمة المطلوبة. يعرض جدول 1.9 الأدوات الأكثر شيوعًا لكل خطوة في علم البيانات. وزارة التعليم Ministry of Education 2024-1446 IBM Cloud Pak for Data Projects / Austin_demo / Data assets BANK CUSTOMERS Description No description. Data quality score 96% 0% Columns 10 Rows 1000 Reviewed Data quality analysis Threshold 80% Analysis status Completed Last analysis Nov 10, 2020 Primary key analysis Analysis status Completed Last analysis Nov 10, 2020 Data asset BANK CUSTOMERS All Search Columns Governance Data quality Data classes Data types Rules Keys Quality score change Data quality dimension results Showing 10 dimensions く Dimension name Data class violations Suspect values # of findings↓ % of findings Delta ⑪ Ignore 333 333 -3% fewer 50 13 fewer 1%- لا Inconsistent capitalization QFind a column Values out of range 4 4 V-1% fewer 0 0 O changes Name (p... Score Delta Suspect values in correlated columns 0 0 O changes O A CUSTOMER_II 100% 0% Missing values 0 0 O changes NAME 100% 71 2% ADDRESS 98% 0% Inconsistent representation of missing values 0 0 O changes ZIP 66% 13% Format violations 0 0 O changes CREDIT_RATI... 99% 1% لا AGE 100% 0% Duplicated values 0 0 O changes CENDED 4.000/ شكل 1.11 لقطة شاشة لنموذج بيانات من خلال IBM Cloud Pak Edit Publish 不 Analyze Download Show chart جدول 1.9 الأدوات الشائعة لعلم البيانات الغرض تخزين البيانات قواعد البيانات حيث يتم تخزين البيانات. أدوات البرمجيات MySQL و SQL Server و MongoDB و Neo4j. الأدوات التي تستعلم عن البيانات التي تريد تحليلها. تحويل صيغة البيانات .Apache TinkerPop 9 SQL 9 Python النمذجة Pandas و NumPy و Apache Spark تحويل البيانات المطلوبة إلى نماذج مناسبة للتحليل. AWS, IBM Watson, PyTorch, Tensorflow .Sagemaker, .R, D3.js, Matplotlib التحليل العملية التي تولّد الرؤى المطلوبة. التصوير تصوير النتائج في الشكل الأمثل. 36
أدوات علم البيانات
الأدوات الشائعة لعلم البيانات
مهن علم البيانات Data Science Jobs علم البيانات هو أحد أسرع التخصصات المتعلقة بعلوم الحاسب نموًا والأكثر طلبا في الوقت الراهن، وقد نشرت مؤسسة مسك مؤخرًا تقريرا عن سوق العمل السعودي ووظائف المستقبل، حيث يركز التقرير على الوظائف الأكثر طلبًا حاليًا، وتبدو الفرص الوظيفية في علم البيانات واعدة بشكل خاص لا سيما الوظائف التي تدعم أهداف رؤية السعودية 2030. الجدول 1.10 المهن المتعلقة بعلم البيانات عالم بيانات مهمته هي إيجاد البيانات ومعالجتها وتحليلها للشركات والمؤسسات يأخذ البيانات الأولية وغير المعالجة ثم يتم استخراج رؤى وأنماط من البيانات تساعد الشركات والمؤسسات على تحليل أدائها واتخاذ قرارات مهمة. مهندس تعلم آلة مسؤول عن تنفيذ حلول وأنظمة تعلم الآلة لتطبيقات معينة. يجب أن يكون على دراية بهندسة البرمجيات وبالإحصاء ليتمكن من اختبار الحلول والحكم على صحة نماذج تعلم الآلة الناتجة. بينما يختص مهندسو تعلُّم الآلة في تطبيق نماذج تعلُّم الآلة، فإن متخصص تعلُّم الآلة يُركز على إيجاد الخوارزميات متخصص تعلم آلة الرياضية المحددة التي تنتج النماذج التي يمكن للمهندسين استخدامها بعد ذلك. معماري تطبيقات يقوم بتصميم نظم المعلومات للمؤسسات والشركات. معماري أنظمة يجمع بين المعرفة التجارية والتقنية، وعلى تواصل مستمر بين أصحاب الأعمال والإدارات الفنية، ويكلف بترجمة المؤسسات الكبيرة احتياجات بيانات الأعمال والمؤسسات إلى مواصفات وحلول تقنية تُرسل إلى الفرق الفنية. معماري بيانات مسؤول عن تخزين وسير المعلومات في شركة أو مؤسسة . يعمل مع علماء ومهندسي البيانات لتطوير طرائق نقل البيانات بصورة مناسبة لإدخال مجموعة البيانات وتحليلها وإخراج النتائج. مهندس بيانات يساعد مهندس البيانات في بناء الإطار الرقمي لجمع البيانات وتخزينها ومعالجتها، والتي سيستخدمها علماء البيانات والمحللون في عملهم. معماري البنية التحتية دوره يختص في إدارة البنية التحتية حيث يجري تخزين البيانات ومعالجتها، ويأخذ بالاعتبار عوامل مثل خصوصية البيانات والحماية وأداء البنية التحتية على الخوادم حيث يجري تحليل البيانات، ولقد أصبحت مشروعات علم البيانات أكثر تعقيدًا بشكل عام ، لذلك يحتاج مهندسو البنية التحتية إلى التأكد من اكتمال معالجة البيانات ضمن الجداول محلل بيانات الزمنية المناسبة. هو محترف يأخذ الرؤى من مجموعات البيانات المعالجة ويُنشئ التقارير والتصورات والتحليلات الأخرى المتنوعة والتي تتماشى مع الأهداف الرئيسة التي ينبغي للحل المبني على علم البيانات تحقيقها. 37 وزارة التعليم Ministry of Education 2024-1446
مهن علم البيانات
المهن المتعلقة بعلم البيانات
مجتمعات علم البيانات عبر الإنترنت Data Science Online Communities يرغب علماء البيانات في البقاء على اتصال مع أقرانهم في هذا المجال أو في المهن المماثلة لتعلم أفكار وطرائق جديدة لأن منهجيات وتقنيات علم البيانات دائمة التغير. وتوفر الموارد عبر الإنترنت لعلماء البيانات الفرصة فقط في الحفاظ على وتيرة معينة، وهنا برزت الحاجة إلى وجود مجتمع من خبراء علم البيانات لدعم هذا العمل وظهور مجموعة متنوعة من المنتديات والمجموعات عبر الإنترنت والتي تمكنهم من الاتصال معًا وتطوير هذا المجال بكفاءة من خلال المشاركة في مجتمعاته عبر الإنترنت تشاهد هنا أبرز المجتمعات رغم أنه يُعدّ مجالا مفتوحًا لظهور مجتمعات جديدة أخرى قد تكون ناجحة أيضًا. = Search + Code Explore and run machine learning code with Kaggle Notebooks. Find help in the Documentation. + New Notebook <> Search public notebooks Sign In Register All notebooks Recently Viewed Python NLP Beginner R Random Forest GPU TPU Competition notebook Scheduled notebook ✰ Trending ལྟ ཏྱཾ ཀྟེ ཤྲཱ སྠཽ སྠཽ བྷི Filters See all (244) كاقل Kaggle كاقل شركة تابعة لقوقل، وهي أكبر مجتمع لعلم البيانات يضم ملايين الأعضاء النشطين ومجموعة واسعة من الموارد ، ويمكن لعلماء البيانات العثور على مجموعات البيانات العامة والموارد التعليمية وبيئة العمل المستندة إلى مجموعة النظراء لدعم عمل تحليل البيانات الخاص بهم. https://www.kaggle.com مجتمع بيانات IBM Data Community IBM مجتمع بيانات IBM عبارة عن منتدى عبر الإنترنـت بـه مدونات مخصصة لعلم البيانات. يستضيف الأوراق البحثية والبث عبر الإنترنت والعروض التقديمية التي يتم تحديثها مع تطور هذا المجال. https://community.ibm.com/community/user/home توجد المزيد من المجتمعات على الإنترنت المدعوم بعضها من قبل الحكومات، ويدير بعضها الآخر متطوعون يركز بعضهم بشكل أكبر على الجانب الاجتماعي من خلال الاجتماعات وجهًا لوجه، بينما يركز بعضهم الآخر على الأكواد البرمجية المطلوبة لمشروعات علم البيانات. Bellabeat Biz Insight with Updated 3 hours ago FitBit Fitness Tracker Data TPS Mar 22: Neural Network by Updated 6 hours ago Tabular Playground Series - May 2022 Fork of Fork of : Igbm classifier Updated 6 hours ago my_talibinstall+1 شكل 1.12: الصفحة الرئيسة لموقع Kaggle.com تذكر دائما أن تتحقق من دقة البيانات أو الأكواد أو الأدوات عبر الإنترنت قبل استخدامها، تحقق أيضا من تصاريح الاستخدام القانونية لكل مجموعة بيانات وحاول تنزيل أدوات البرامج مباشرة من ملفات مطوريها. وزارة التعليم Ministry of Education 2024-1446 https://www.datasciencecentral.com/ https://datascience.stackexchange.com/ https://dssberkeley.com/ https://www.drivendata.org/ https://www.datacommunitydc.org/ https://www.reddit.com/r/datascience/ جدول :1.11 المجتمعات عبر الإنترنت مركز علم البيانات Data Science Central) تبادل المكدس Stack Exchange) مجتمع علم البيانات Data Science Society) بيانات مدفوعة (Driven Data) مجتمع البيانات Data Community) مجتمع ردیت (Reddit Society) 38
مجتمعات علم البيانات عبر الإنترنت
كاقل
مجتمع بيانات
الصفحة الرئيسية لموقع Kaggle.com
المجتمعات عبر الإنترنت
تذكر دائماً أن تتحقق من دقة البيانات أو الأكواد أو الأدوات عبر الإنترنت قبل استخدامها.
1 تمرينات حدد الجملة الصحيحة والجملة الخاطئة فيما يلي: 1. يتم تحويل جميع الأرقام والمعلومات إلى مصفوفات في نماذج وخوارزميات تعلم الآلة. 2. لكي يتمكن عالم البيانات من فهم البيانات وتفسيرها عند إنشاءها ، فإنه يحتاج إلى معرفة عملية بالإحصاء والاحتمالات. 3. تتخصص الرياضيات المتقطعة في طرائق المنطق والاستنتاج ، وهي جوانب أساسية في تصميم الخوارزمية والتي تُعدّ الأساس لتعلم الآلة. 4. بعض المجتمعات على الإنترنت مدعومة من قبل الحكومات، وبعضهم الآخر يديره متطوعون. 5. مهندس الأنظمة هو الشخص الذي يصمم أنظمة المعلومات للمؤسسات والشركات. 6. عالم البيانات هو محترف يأخذ الرؤى من مجموعات البيانات التي تمت معالجتها ويقوم بإنشاء تقارير وتصورات وتحليلات أخرى متنوعة تتماشى مع الأهداف الرئيسة التي تحتاج إلى حل مبني على علم البيانات لتحقيقها. 7 محلل البيانات هو محترف مسؤول عن تخزين وتدفق المعلومات في شركة أو مؤسسة، ويعمل مع علماء ومهندسي البيانات لبناء طرائق نقل البيانات المناسبة لإدخال مجموعة البيانات وتحليلها وإخراج النتائج. صحيحة خاطئة 39 وزارة التعليم Ministry of Education 2024-1446
حدد الجملة الصحيحة والجملة الخاطئة فيما يلي: يتم تحويل جميع الأرقام والمعلومات إلى مصفوفات في نماذج خوارزميات تعلم الآلة
40 2 وضّح كيف تُمكّن لغة البايثون من مساعدة المتخصص في علم البيانات. 3 وضّح كيف يمكن المفكرة جوبيتر مساعدة المتخصص في علم البيانات. 4 عدد أهم أدوات علم البيانات، وكيف يمكن لكل أداة المساهمة في كل خطوة من خطوات علم البيانات؟ وزارة التعليم Ministry of Education 2024-1446
وضح كيف تمكن لغة البايثون من مساعدة المتخصص في علم البيانات
وضح كيف يمكن لجوبيتر نوت بوك مساعدة المتخصص في علم البيانات
عدد أهم أدوات علم البيانات، وكيف يمكن لكل أداة المسامة في كل خطوة من خطوات علم البيانات؟
5 لماذا يُعدّ فهم الإحصاء مهارة أساسية لعالم البيانات؟ وهل يمكنك التفكير في مثال يتضمن تحليل البيانات؟ 6 7 البايثون هي لغة برمجة متعددة الاستخدامات، فهل تُعدّ كافية لمشروعات علوم البيانات؟ ابحث عن ثلاث من مكتبات البايثون تحظى بشعبية كبيرة بين علماء البيانات على الإنترنت، ثم اشرح باختصار سبب ذلك. 41 وزارة التعليم Ministry of Education 2024-1446
لماذا يعتبر فهم الإحصاء مهارة أساسية لعالم البيانات؟ وهل يمكنك التفكير في مثال يتضمن تحليل البيانات؟
البايثون هي لغة برمجة متعددة الاستخدامات، فهل تعد كافية لمشروعات علوم البيانات؟
ابحث عن ثلاث مكتبات البايثون تحظى بشعبية كبيرة بين علماء البيانات على الإنترنت، ثم اشرح باختصار سبب ذلك
قارن بين بيئة التطوير المتكاملة وبيئة مفكرة جوبيتر، ثم اذكر الاختلافات الرئيسة بينهما ؟ على افتراض أنك عالم بيانات جديد تتقن لغة البايثون، فما الأدوات الأخرى التي تحتاج إليها من أدوات علم البيانات؟ 8 يوجد في هذا الدرس قائمة بالمهن المتعلقة بعلم البيانات، فأي منها تفضّل ؟ ولماذا ؟ وما التحديات التي تعتقد بأنك ستواجهها في هذه المهنة؟ 9 10 قم بزيارة أحد مجتمعات علم البيانات عبر الإنترنت وابحث عن دورة تدريبية بسيطة للدراسة الذاتية لتعزيز معرفتك بعلم البيانات، ثم قم بتقييم مدى ملاءمة الدورة التدريبية لمستوى معرفتك. وزارة التعليم Ministry of Education 2024-1446 11 42