Вопрос или проблема
У меня есть вопрос относительно машинного обучения. Я в основном занимаюсь исследовательским анализом данных (EDA) больших наборов данных ‘омиков’. Я недавно подал рукопись, основанную на метаболомике, и один из рецензентов остался недоволен моим анализом данных. Я думаю, что он неправильно понял концепцию машинного обучения, но я могу ошибаться. Я добавил один из многих примеров, где он упоминает машинное обучение.
Рецензент: “PCA, K-means и любые другие методы многомерного анализа машинного обучения должны применяться к группам, специфичным для пола”
Я всегда считал, что машинное обучение используется для классификации и прогнозирования, но я не могу найти четкое определение. В любом случае, у меня три вопроса:
- Может кто-то определить, что такое машинное обучение?
- Является ли PCA машинным обучением? Я всегда думал, что это метод уменьшения размерности, который стремится объяснить наблюдаемую изменчивость? Он не заботится о метках или группах, а также не предсказывает и не классифицирует ничего. Может кто-то объяснить, где я ошибаюсь?
- Является ли кластеризация K-means по определению машинным обучением? Этот алгоритм существует с конца 60-х годов, задолго до того, как машинное обучение стало чем-то. Я понимаю, что этот алгоритм применим в машинном обучении, но линейная регрессия и логистическая регрессия тоже – но мы не называем это машинным обучением.
Я был бы признателен за ваше мнение по этому вопросу?
Всегда довольно сложно определить Интеллект и Обучение, поскольку это очень абстрактные концепции.
На мой взгляд, оба алгоритма являются машинным обучением, и я постараюсь объяснить почему.
Обучение – это (для меня и Википедии) действие улучшения выполнения задачи без явного программирования. В нашем случае оба алгоритма улучшаются в выполнении своей задачи по мере того, как мы подаем им больше данных. И мы не кодируем их явно, а вместо этого ставим им цель: минимизация функции потерь.
Это вполне похоже на то, как учатся люди. Когда мы учимся читать, мы становимся быстрее и лучше представляем, что написано, чем больше читаем. Тем не менее, мы не знаем точно, как читать быстрее, мы просто знаем целевую функцию: минимизация времени, необходимого для понимания. Таким образом, наш мозг учится на своем опыте (который похож на данные, которые мы подаем алгоритмам машинного обучения).
Еще один признак, который указывает на обучение для меня, заключается в том, что оба этих алгоритма не дадут одни и те же результаты дважды, если мы инициализируем их случайными значениями. Если снова сравнить с людьми, у каждого человека есть свой способ улучшения в задаче: мы все становимся лучше, но у каждого есть свои трюки для этой задачи.
В любом случае, это всего лишь мое мнение по этому вопросу, и я не претендую на то, что оно имеет смысл для всех.
Вот еще одна интересная тема о PCA на Stack, если вы хотите почитать больше.
Надеюсь, мой ответ поможет вам в вашей философской размышлении о этой сложной теме.
Хорошие и непростые вопросы! Прежде всего, я категорически не согласен с вашим утверждением, что машинное обучение используется только для классификации и прогнозирования. Вам может быть интересно, почему я не согласен с вашим мнением: существует общая категоризация машинного обучения: контролируемое и неконтролируемое обучение. Похоже, вы считаете контролируемое обучение самим машинным обучением, в то время как неконтролируемое обучение, целью которого является выявление закономерностей и признаков из набора данных, остаётся без внимания. Да, PCA и K-Means не помогут вам предсказать результат набора данных, но вы все равно сможете узнать больше о наборе данных, используя их.
Если вы спрашиваете о определении машинного обучения, я бы сказал, что это основанный на данных и вызванный данными вид ИИ, а ИИ – это вычислительная симуляция человеческих действий и интеллекта.
Поэтому, поскольку PCA является методом уменьшения размерности, применяемым к набору данных, а K-Means – методом кластеризации, другими словами, они отражают человеческое желание понять данные простым способом, их существование в какой-то мере моделирует манеру людей упрощать данные и извлекать ценную информацию из набора данных. Так что снова, PCA и K-Means абсолютно находятся в области машинного обучения.
Вы упомянули, что PCA возникло до появления ИИ/машинного обучения, но что вы пропустили, так это то, что наша теория также развивается. Следующая теория всегда должна удовлетворять предыдущему определению, в то время как предварительная категория может быть включена в более широкую область. Например, имеет ли смысл сказать, что корень числа два не принадлежит множеству иррациональных чисел, потому что он был найден до определения иррационального числа?
Ответ или решение
PCA и K-Means в контексте машинного обучения
Машинное обучение (ML) — это обширное поле знаний, охватывающее различные методы и алгоритмы, которые позволяют компьютерам извлекать закономерности из данных и принимать решения на основе этих закономерностей, часто без явного программирования для каждой задачи. Давайте подробнее рассмотрим ваши вопросы, касающиеся метода главных компонент (PCA) и алгоритма K-средних (K-Means) в контексте машинного обучения.
Определение машинного обучения
Машинное обучение можно определить как область, занимающуюся разработкой алгоритмов, способных обучаться на данных и улучшать свою производительность без явного программирования. Эта область охватывает как контролируемые, так и неконтролируемые методы обучения. Основная цель ML заключается в выявлении и моделировании паттернов в данных, что также включает в себя возможность делать выводы и принимать решения.
Является ли PCA машинным обучением?
Метод главных компонент (PCA) — это метод уменьшения размерности, который позволяет упрощать сложные наборы данных, сохраняя при этом их основную структуру и информацию. PCA действительно не требует меток или группировок данных, однако это не исключает его из области машинного обучения. PCA предназначен для анализа и извлечения информации из многомерных данных, что соответствует более широкой концепции машинного обучения.
PCA может рассматриваться как метод предварительной обработки данных в контексте машинного обучения. Хотя он и не предсказывает или классифицирует данные, он существенно помогает упростить задачу классификации, сохраняя важные характеристики наборов данных. Так что, несмотря на его происхождение и методологию, PCA можно отнести к инструментам машинного обучения, особенно в контексте анализа больших данных и структурирования информации.
Является ли K-Means машинным обучением?
Алгоритм K-средних (K-Means) используется для кластеризации данных, группируя его в K кластеров на основе сходства. Несмотря на то что K-Means существует с 1960-х годов, это подтверждает его функциональность и полезность в практике данных. K-Means можно считать алгоритмом неконтролируемого обучения, поскольку он не требует меток для данных и выполняет кластеризацию на основе структурных характеристик.
Важно отметить, что K-Means, как и PCA, выполняет свою задачу на основе данных и может улучшать свои результаты по мере добавления данных — что является важным признаком машинного обучения. Это делает его не просто статистическим методом, а частью практики, где данные могут динамично влиять на результаты.
Заключение
Таким образом, и PCA, и K-Means можно охарактеризовать как методы, относящиеся к области машинного обучения. Эти подходы помогают в анализе и извлечении информации из данных, что важно для понимания и прогнозирования в контексте более сложных алгоритмов машинного обучения. Неправильно было бы исключать их из обсуждения ML, так как они играют значительную роль в предварительной обработке данных и исследовательском анализе.
Надеюсь, это объяснение помогло прояснить ваши сомнения и расширить понимание роли PCA и K-Means в контексте машинного обучения.