一、時(shí)間差分(TD)方法
優(yōu)勢(shì):非完整情節(jié)學(xué)習(xí): TD不需要完整的情節(jié),可以在線學(xué)習(xí),適用于持續(xù)性任務(wù)。偏差-方差平衡: TD通過引入引導(dǎo)估計(jì),平衡了偏差和方差,通常更穩(wěn)定。效率: TD通常較MC更高效,因?yàn)樗褂玫臄?shù)據(jù)更少。劣勢(shì):可能的偏差: TD可能產(chǎn)生偏差,因?yàn)樗腔趯?duì)未來回報(bào)的估計(jì)。二、蒙特卡洛(MC)方法
優(yōu)勢(shì):無偏估計(jì): MC方法提供了對(duì)值函數(shù)的無偏估計(jì),收斂性好。簡(jiǎn)單: MC方法相對(duì)簡(jiǎn)單直接,易于理解和實(shí)現(xiàn)。適用于離線學(xué)習(xí): 可以從離線數(shù)據(jù)中學(xué)習(xí),不依賴具體的環(huán)境模型。劣勢(shì):方差較高: 由于基于完整情節(jié)的樣本,MC的方差可能較高。完整情節(jié)要求: 需要完整的情節(jié)來估計(jì)值函數(shù),對(duì)于持續(xù)性或長(zhǎng)情節(jié)任務(wù)可能不適合。常見問答:
Q1: TD和MC在什么場(chǎng)景下選擇使用?
答: TD適用于需要在線學(xué)習(xí)和持續(xù)性任務(wù)的場(chǎng)景,而MC則更適用于可以訪問完整情節(jié)和離線學(xué)習(xí)的環(huán)境。
Q2: MC方法的方差為何較高?
答: MC基于完整情節(jié)的樣本估計(jì)值函數(shù),每個(gè)樣本可能帶來較大的變化,因此方差可能較高。
Q3: 為何說TD方法在偏差和方差之間取得平衡?
答: TD方法通過部分使用引導(dǎo)信息(基于當(dāng)前策略的未來回報(bào)估計(jì))來減少方差,但可能引入偏差,從而在偏差和方差之間取得平衡。