| |||||||||||||||||||||||||
מבוא למדעי הנתונים למהנדסים
Introduction to Data Science |
0555-3121-01 | ||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
הנדסה | תואר ראשון - הנדסה ביו-רפואית | |||||||||||||||||||||||||
|
מבוא למדעי הנתונים למהנדסים
שעור: 3
תרגול: 1
שעות: 4 משקל: 3.5
דרישות קדם:
· סטטיסטיקה
· תכנות 1 (פייתון)
· אלגברה לינארית
· אינפי
בקורס נעשה שימוש בשפת פייטון ואנו מניחים שהתלמידים מכירים את השפה או מרגישים בנוח ללמוד אותה לבד.
סילבוס: בקורס נכיר את תחום מדעי הנתונים. נלמד על סוגי הבעיות שאותן ניתן לפתור באמצעות מדעי הנתונים ונבין את תהליך הפיתוח החל מאיסוף הנתונים, עיבוד בסיסי, הצגת נתונים, שימוש בכלי למידת מכונה, למידה עמוקה, ניתוח תוצאות ובדיקת הנאותות האתית.
לקורס שני מוקדים עיקריים: מוקד אחד הוא היכרות עם שיטת העבודה וכלי העבודה בתחום - לשם כך במהלך הקורס יעשה שימוש בפייטון בסביבת Jupyter, ספריות כגון pandas, כלי למידת מכונה וכלים ללמידה עמוקה. במהלך הקורס יהיו תרגילי בית ופרוייקט סיום שיתרכזו בתירגול כיילים אלו.
מוקד שני של הקורס הוא הבנה של העקרונות הבסיסיים של התחום כגון סיבתיות, קורלציה, שגיאות אימון והכללה, טיפוסי בעיות (סיווג, רגרסיה, המלצה, זיהוי חריגים, ...), הטיות ועוד. נושאים אלו ילדמו במהלך הקורס ויעמדו במרכז המבחן.
הציון בקורס יבוסס על עבודות הבית (30%) פרויקט סיום (20%) ומבחן (50%).
תוכנית שבועית:
שבוע
נושא
פירוט
1
מדעי הנתונים
מה זה מדעי הנתונים? למה זה משמש? התהליך המרכזי
2
סיבתיות וקורלציה
הגדרות, הבדלים, טעויות אופיניות, ניסוי טבעי, AB testing, קריית נתונים מהאינטרנט
3
עיבוד נתונים בסיסי והצגתו
Jupyter notebook, pandas, pyplotlib, descriptive statistics, hypothesis testing
4
למידה לא מונחה
Clustering, k-means, agglomerative clustering, PCA
5
תורת האינפורמציה
אנטרופיה, אינפורמציה הדדית, KL-diversion, דחיסה
6
הכללה
ריגרסיה וקליסיפיקציה, שגיאת אימון, שגיאת הכללה, כלל ביאס, שגיאה מסוג ראשון ושגיאה מסוג שני,overfit, underfit, cross validation
7
רגרסיה לינארית
ריגרסיה לינארית
8
קלסיפיקציה
מחלקת מושגים סופית, חסם האיחוד, חסם הופדינג, Structural Risk Minimization
9
המפריד הלינארי
Logistic regression, gradient descent, regularization, Loss function
10
עצי החלטה
Tree learning, random forest, bagging, boosted trees
11
אתיקה
הטיות, הוגנות, פרטיות, סיכון, שקיפות, ...
12
רשתות נוירונים
Feed forward neural networks, activation function, Convolution, Pooling
13
רשתות נוירונים 2
Dropouts, batch normalization, back propagation, auto-encoder
14
מודלים נוספים
מערכות המלצה, זיהוי חריגים, לימוד מחיזוקים