你好
我們十幾年前應用ADABOOST的時候,沒有特別在介紹bagging and boost的東西,可能在用詞上沒有特別注意。
1. 我其實沒看懂這段英文想表達的,如果抽出來跟原始訓練資料一樣多,(假設分類器都是LDA),那你怎麼抽訓練出來的資料都長一樣,訓練出來的分類器也都一樣,這樣的ensemble好像也沒意義。可能我看的原文書不夠多,不太清楚Bagging的定義。
假設訓練資料有N筆
我抽n<N這樣,每一次抽都有可能因為資料不同訓練出來的分類器不同。
但如果抽N筆出來,那第一次N筆,第二次都N筆,資料都長一樣,如果去訓練機器學習模型結果都會一樣。
除非上NN用batch learning才有可能有差異,但上NN其實random batch就是一種bagging的概念。
2. 不能隨意冠上【弱】字。
https://www.geeksforgeeks.org/bagging-vs-boosting-in-machine-learning/
我不太清楚為什麼弱這個字只能在adaboost上,我也是在網路上找資料。
A weak classifier is one whose error rate is only slightly better than random guessing. [https://v2.moodle.ncku.edu.tw/pluginfile.php/1294309/mod_resource/content/1/10%20Boostring%20and%20Additive%20Trees.pdf]
資料挑不好訓練出來的分類器就有可能是這樣的定義,也就是弱分類器。
The motivation for boosting was a procedure that combines the outputs of many “weak” classifiers to produce a powerful “committee.”