pca
Data Science
Вопрос или проблема PMI-матрица и уменьшение с использованием PCA: На основе количества раз, когда 2 слова появляются вместе (в определенном заранее заданном окне), и индивидуальной частоты слов, мы строим PMI-матрицу. Затем уменьшаем ее с помощью PCA
Data Science
Вопрос или проблема Это может быть очень широкий и нишевый вопрос, но я в тупике. Чтобы ввести в курс дела, я очень начинающий специалист по работе с данными, у меня больше знаний в области программного обеспечения, чем в области обработки данных, поэтому
Data Science
Вопрос или проблема У меня есть вопрос о методе главных компонент (PCA). Я знаю, что если у вас есть коррелированные переменные (x1, x2, x3, x4), то хорошо провести PCA, чтобы получить новые некоррелированные переменные (pc1, pc2), которые используются
Data Science
Вопрос или проблема В настоящее время я работаю над проектом, в котором у меня есть набор данных, состоящий из ряда образцов крови и количества различных биологических соединений в каждом образце. Образцы разделены на три группы — тяжелое заболевание
Data Science
Вопрос или проблема Я использовал снижение размерности методом PCA на наборах данных, которые довольно линейны, и теперь мне поручили сделать то же самое на наборах данных, которые в значительной степени изогнуты в пространстве.
Data Science
Вопрос или проблема У меня есть следующая проблема: у меня есть некоторые данные (которые я не могу опубликовать здесь, но они в виде точек с координатами XYZ), и я могу представить их как коллекцию графов, то есть $Q = \{G_1, G_2 …
Data Science
Вопрос или проблема Я анализирую, могут ли 15 книг быть сгруппированы по 6 переменным (из 15 книг 2 написаны одним автором, 6 другим и 7 – другим). Я посчитал количество вхождений переменных и вычислил процент. Затем я использовал программное обеспечение
Data Science
Вопрос или проблема Я приведу простой пример. Предположим, вас наняла транспортная компания предсказать, сколько лет прослужат их грузовики. У них есть инвентарь из 200 грузовиков, и компания требует от вас использования 80 характеристик в вашей модели.
Data Science
Вопрос или проблема У меня есть набор данных с более чем 25000 признаков. Я выполнил удаление шума с использованием гистограммного подхода, и этот набор данных сократился до более чем 5000 признаков. Есть два класса: здоровые и инфицированные.
Data Science
Вопрос или проблема У меня есть простая программа для выполнения PCA-анализа на наборе данных. Цель состоит в том, чтобы умножить набор данных на вектор признаков в конце программы. import pandas as pd import numpy as np from numpy import linalg as LA def main(): s = pd.
Data Science
Вопрос или проблема Цель состоит в оценке сходства и различия между 6 известными группами. Исходные данные начинались с 6 известных групп и 2700+ переменных, все на шкале от 0 до 100. Я выполнил PCA, чтобы уменьшить более чем 2700 переменных до 5 главных
Data Science
Вопрос или проблема Я хочу обучить модель для распознавания лицевых эмоций. Я использовал набор данных из 213 образцов. Сначала я извлекаю признаки с помощью фильтра Габора. Затем я уменьшаю размерность данных с помощью PCA и генетического алгоритма.
Data Science
Вопрос или проблема У меня есть набор данных с 10 столбцами, которые являются моими признаками, и 1732 строками, которые представляют собой мои регистрации. Эти регистрации разделены на 15 классов, так что у меня есть несколько регистраций для каждого
Data Science
Вопрос или проблема Название может быть не самым подходящим для обращения к моему вопросу. Вот моя проблема У меня есть набор данных с 21 признаком. Я хочу кластеризовать данные, чтобы понять, есть ли какие-либо идеи, которые я могу получить, кластеризуя данные.
Data Science
Вопрос или проблема Я использую pySpark и настраиваю свою конфигурацию следующим образом: spark = (SparkSession.builder.master("local[*]") .config("spark.driver.memory", "20g") .config("spark.executor.memory", "10g") .config("spark.
Data Science
Вопрос или проблема Я изучаю визуальную аналитику и у меня есть теоретический вопрос по этой теме. Мой профессор представил эту схему на своем слайде. Для соединения данных с визуализацией. Некоторые темы очень легко понять и они касаются представления
Data Science
Вопрос или проблема Хорошая ли идея применять PCA к атрибутам, полученным с помощью Tf-Idf? Tf-idf возвращает много атрибутов, поэтому в этом случае я считаю, что применять PCA, чтобы уменьшить количество измерений, – хорошая идея.
Data Science
Вопрос или проблема В моем наборе данных, точка данных по сути представляет собой временной ряд из 6 характеристик за год по месяцам, так что в итоге получается 6*12=72 характеристики. Мне нужно найти классовые выбросы, поэтому я выполняю сокращение размерности
Data Science
Вопрос или проблема Все мы знаем, что PCA (Анализ главных компонент) – это популярный статистический инструмент для уменьшения размерности в наборе данных. SMOTE (Метод синтетического увеличения выборки для меньшинства) позволяет генерировать данные
Data Science
Вопрос или проблема Работая с набором данных Всемирного отчета о счастье, у меня есть N стран с M признаками и баллом счастья. Это параметр, по которому я выделил 3 класса: счастливые, средние, несчастные (числовые интервалы баллов счастья).