Расширяет ли knn обучающую выборку за счет тестовых значений во время предсказания?

Question 1

Допустим, у меня есть 100 значений в моем наборе данных, и я разделяю их: 80% для обучения и 20% для теста. Когда я предсказываю последнее значение, основан ли прогноз на предыдущих 99 (80 тестовых + 19 уже предсказанных значений) или только на первоначальных 80 значениях для обучения?
Например, если используется kd-дерево, добавляется ли каждая точка данных в дерево во время прогноза?

Можно ли использовать k-ближайших соседей для следующего сценария? У меня есть 20 обучающих значений, когда я добавляю новое наблюдение, я классифицирую его и добавляю в набор данных для обучения, так что получается 21 значение; в следующий раз, когда я добавлю новое значение, я классифицирую его, основываясь на 21 значении в наборе данных. Я понимаю, что это, вероятно, не так, как должно быть сделано, но представьте, что я добавляю до 50 тыс. значений, так что последнее классифицируется по предыдущим 49 999 значениям.

Другой упрощенный пример, который я придумал. n=2: на картинках 1, 2, 3 мы видим точки, как они были обучены, и одну новую зеленую точку, которая будет классифицирована. Затем мы берем новое наблюдение, расстояния рассчитываются к точкам, как в 4а или как в 4б. ссылка на визуализацию
Представьте, что это модуль sklearn в Python, выполняющий классификацию. До картинки 1 мы вызвали .fit(X_train, y_train), где тестовый набор данных состоял из 4 точек. Затем вызвали .predict(X_test), который включал 2 точки.

Question 2

Это зависит от того, какой сценарий вы выбрали.

Когда вы обучаете любую модель науки о данных, она больше не изменяется. Например, если вы обучаете K-Means, вы получите в результате центроиды каждого кластера. Если вы обучаете случайный лес, вы получите в результате деревья.

Затем, когда вы применяете свою модель, она дает ответ, основываясь на этом. Ответ всегда будет одинаковым, если вход одинаковый.

Таким образом, если вы обучили свою модель на 80 образцах, после тестирования на оставшихся 20, модель остается такой же, обученной на 80 образцах, и даст точно такой же ответ, если вы снова протестируете ее на тех же 20 образцах.

Однако, возможно повторно обучить свою модель: Вы проводите все свои тесты с 80-20, и после нахождения хороших параметров, обучаете новую модель на своих 100 образцах, так что она будет более точной, если ей придется классифицировать новые образцы.

То, что вы хотите сделать, — это избегать повторного обучения вашей модели, но включать результат новых образцов каждый раз, когда вы сталкиваетесь с одним: это сложно, не все модели могут это сделать, и это совсем не для начального уровня. Это также поднимает много вопросов (я не буду вдаваться в подробности)

Я бы предложил вам вручную установить порог для повторного обучения вашей модели. Пример: не повторно обучать вашу модель, пока у вас не будет 1000 новых образцов для вставки, или повторно обучать вашу модель каждый месяц в определенную дату, с данными, которые вы знаете к этому времени.

Расширяет ли knn обучающую выборку за счет тестовых значений во время предсказания?

Вопрос или проблема

Ответ или решение