PCA и K-средние в контексте машинного обучения

Question 1

У меня есть вопрос относительно машинного обучения. Я в основном занимаюсь исследовательским анализом данных (EDA) больших наборов данных ‘омиков’. Я недавно подал рукопись, основанную на метаболомике, и один из рецензентов остался недоволен моим анализом данных. Я думаю, что он неправильно понял концепцию машинного обучения, но я могу ошибаться. Я добавил один из многих примеров, где он упоминает машинное обучение.

Рецензент: “PCA, K-means и любые другие методы многомерного анализа машинного обучения должны применяться к группам, специфичным для пола”

Я всегда считал, что машинное обучение используется для классификации и прогнозирования, но я не могу найти четкое определение. В любом случае, у меня три вопроса:

Может кто-то определить, что такое машинное обучение?
Является ли PCA машинным обучением? Я всегда думал, что это метод уменьшения размерности, который стремится объяснить наблюдаемую изменчивость? Он не заботится о метках или группах, а также не предсказывает и не классифицирует ничего. Может кто-то объяснить, где я ошибаюсь?
Является ли кластеризация K-means по определению машинным обучением? Этот алгоритм существует с конца 60-х годов, задолго до того, как машинное обучение стало чем-то. Я понимаю, что этот алгоритм применим в машинном обучении, но линейная регрессия и логистическая регрессия тоже – но мы не называем это машинным обучением.

Я был бы признателен за ваше мнение по этому вопросу?

Question 2

Всегда довольно сложно определить Интеллект и Обучение, поскольку это очень абстрактные концепции.

На мой взгляд, оба алгоритма являются машинным обучением, и я постараюсь объяснить почему.

Обучение – это (для меня и Википедии) действие улучшения выполнения задачи без явного программирования. В нашем случае оба алгоритма улучшаются в выполнении своей задачи по мере того, как мы подаем им больше данных. И мы не кодируем их явно, а вместо этого ставим им цель: минимизация функции потерь.

Это вполне похоже на то, как учатся люди. Когда мы учимся читать, мы становимся быстрее и лучше представляем, что написано, чем больше читаем. Тем не менее, мы не знаем точно, как читать быстрее, мы просто знаем целевую функцию: минимизация времени, необходимого для понимания. Таким образом, наш мозг учится на своем опыте (который похож на данные, которые мы подаем алгоритмам машинного обучения).

Еще один признак, который указывает на обучение для меня, заключается в том, что оба этих алгоритма не дадут одни и те же результаты дважды, если мы инициализируем их случайными значениями. Если снова сравнить с людьми, у каждого человека есть свой способ улучшения в задаче: мы все становимся лучше, но у каждого есть свои трюки для этой задачи.

В любом случае, это всего лишь мое мнение по этому вопросу, и я не претендую на то, что оно имеет смысл для всех.

Вот еще одна интересная тема о PCA на Stack, если вы хотите почитать больше.

Надеюсь, мой ответ поможет вам в вашей философской размышлении о этой сложной теме.

Question 3

Хорошие и непростые вопросы! Прежде всего, я категорически не согласен с вашим утверждением, что машинное обучение используется только для классификации и прогнозирования. Вам может быть интересно, почему я не согласен с вашим мнением: существует общая категоризация машинного обучения: контролируемое и неконтролируемое обучение. Похоже, вы считаете контролируемое обучение самим машинным обучением, в то время как неконтролируемое обучение, целью которого является выявление закономерностей и признаков из набора данных, остаётся без внимания. Да, PCA и K-Means не помогут вам предсказать результат набора данных, но вы все равно сможете узнать больше о наборе данных, используя их.

Если вы спрашиваете о определении машинного обучения, я бы сказал, что это основанный на данных и вызванный данными вид ИИ, а ИИ – это вычислительная симуляция человеческих действий и интеллекта.

Поэтому, поскольку PCA является методом уменьшения размерности, применяемым к набору данных, а K-Means – методом кластеризации, другими словами, они отражают человеческое желание понять данные простым способом, их существование в какой-то мере моделирует манеру людей упрощать данные и извлекать ценную информацию из набора данных. Так что снова, PCA и K-Means абсолютно находятся в области машинного обучения.

Вы упомянули, что PCA возникло до появления ИИ/машинного обучения, но что вы пропустили, так это то, что наша теория также развивается. Следующая теория всегда должна удовлетворять предыдущему определению, в то время как предварительная категория может быть включена в более широкую область. Например, имеет ли смысл сказать, что корень числа два не принадлежит множеству иррациональных чисел, потому что он был найден до определения иррационального числа?

PCA и K-средние в контексте машинного обучения

Вопрос или проблема

Ответ или решение

PCA и K-Means в контексте машинного обучения

Определение машинного обучения

Является ли PCA машинным обучением?

Является ли K-Means машинным обучением?

Заключение