סילבוס הקורס למידה ממוחשבת מחיזוקים - תשע"ט, פקולטה למדעים מדויקים, אוניברסיטת ת"א

שנה"ל תשע"ט

למידה ממוחשבת מחיזוקים
Reinforcement Learning

0368-3075-01

מדעים מדויקים


סמ' ב'	1000-1300	'ד	001	כיתות דן-דוד	שיעור	פרופ מנצור ישי

D:\Inetpub\shared\yedion\syllabus\03\2018\0368\0368307501_desc.txt סילבוס מקוצר Introduction, Optimal Policy, Planning MDP (Bellman optimality equations), Value iteration, Policy iteration, Dynamic Programming, Learning MDP (small state spaces), TD Learning, Model base learning, Model free: Q learning, Policy gradient, Actor critic, Learning MDP (large state spaces), Deep Learning, Multi-Arm Bandit, Inverse RL, POMDP

ש"ס: 4.0

סילבוס מקוצר

Introduction, Optimal Policy, Planning MDP (Bellman optimality equations), Value iteration,

Policy iteration, Dynamic Programming, Learning MDP (small state spaces), TD Learning,

Model base learning, Model free: Q learning, Policy gradient, Actor critic,

Learning MDP (large state spaces), Deep Learning, Multi-Arm Bandit,

Inverse RL, POMDP