dimensionality-reduction - ответы на вопросы

Data Science

Можно ли использовать метод главных компонент (PCA) для уменьшения размерности данных, закодированных методом One-Hot-Encoding?

00

Вопрос или проблема Я читал пару раз, что метод PCA используется для сокращения размерности для данных, закодированных с помощью One-Hot-Encoding. Однако, также были комментарии, что использование PCA не является хорошей идеей, так как One-Hot-Encoded

Data Science

Снижение размерности изогнутых структурных данных

00

Вопрос или проблема Я использовал снижение размерности методом PCA на наборах данных, которые довольно линейны, и теперь мне поручили сделать то же самое на наборах данных, которые в значительной степени изогнуты в пространстве.

Data Science

Как использовать данные описания в многоклассовой классификации (снижение размерности)

00

Вопрос или проблема В настоящее время я работаю с набором данных из 55 тысяч записей и семи столбцов (один целевой переменной), три из которых являются номинальными категориальными. Другие три – это поля ‘описания’

Data Science

Как уменьшить изменения положения после снижения размерности?

00

Вопрос или проблема Отказ от ответственности: Я начинающий в машинном обучении. Я работаю над визуализацией многомерных данных (текст как векторы tdidf) в 2D-пространство. Моя цель – маркировать/модифицировать эти точки данных и пересчитывать их

Data Science

Важный выбор признаков с использованием алгоритмов уменьшения размерности.

00

Вопрос или проблема У меня есть набор данных с более чем 25000 признаков. Я выполнил удаление шума с использованием гистограммного подхода, и этот набор данных сократился до более чем 5000 признаков. Есть два класса: здоровые и инфицированные.

Data Science

Ошибка низкой памяти при выполнении регрессии полинома второй степени на массиве размером (3000*1835)

00

Вопрос или проблема Я работаю над задачей предсказания дохода, который может сгенерировать фильм. Некоторые из доступных характеристик в наборе данных – это json-коллекция для команды, актеров, которые работали над фильмом.

Data Science

кластеризация k-средних по столбцам, а не строкам

00

Вопрос или проблема У меня есть таблица с более чем 100K строк и более 100 числовых столбцов. Вместо того чтобы использовать метод k-means для кластеризации строк вместе (и создания нового столбца category, который помечает каждую строку), я хочу кластеризовать

Data Science

Как выполнить отбор признаков с категориальными переменными и непрерывной целевой переменной, если данные не распределены нормально?

00

Вопрос или проблема Я пытаюсь использовать модель множественной линейной регрессии для прогноза зарплат сотрудников. У меня есть всего 88 зависимых характеристик, из которых 19 категориальные, а остальные – непрерывные. Я смог уменьшить количество

Data Science

Keras – Автокодировщик, отличающийся от кодировщика + декодировщика

00

Вопрос или проблема Я строю 1D автоэнкодер на основе CNN в Keras, следуя совету в этом вопросе на SO, где кодировщик и декодировщик отделены. Моя цель – повторно использовать декодировщик, как только автоэнкодер будет обучен. Центральный слой моего автоэнкодера –

Data Science

Как эффективно уменьшить размерности категориальных значений, закодированных методом one-hot?

00

Вопрос или проблема В настоящее время я работаю над проектом, в котором использую LSTM для обучения и предсказания последовательностей категориальных данных. Мой набор данных состоит из последовательностей переменной длины элементов $s_i = [x_{i_0}, x_{i_1}, …

Data Science

PCA в визуальной аналитике

00

Вопрос или проблема Я изучаю визуальную аналитику и у меня есть теоретический вопрос по этой теме. Мой профессор представил эту схему на своем слайде. Для соединения данных с визуализацией. Некоторые темы очень легко понять и они касаются представления

Data Science

Почему я получаю другой ответ в методе главных компонент для уменьшения размерности?

00

Вопрос или проблема Проблема: Рассмотрите двумерные образы (2, 1), (3, 5), (4, 3), (5, 6), (6, 7), (7, 8). Вычислите главную компоненту, используя алгоритм PCA. Используйте алгоритм PCA для преобразования образа (2, 1) на собственный вектор.

Data Science

С несколькими идентичными данными, следует ли мне установить UMAP min_dist = 0?

00

Вопрос или проблема Большинство (если не все) реализаций/примеров снижения размерности UMAP, которые я видел, используют значение min_dist, немного превышающее ноль, чтобы избежать слишком плотного кластеризования точек. Это имеет смысл, но я заметил

Data Science

Насколько эффективен псевдообратный оператор Мура-Пенроуза для решения задач регрессии с переопределенной системой уравнений?

00

Вопрос или проблема Для регрессионных задач с #Предикторами > #наблюдений я недавно читал о псевдообратной матрице Мура-Пенроуза, которая решает проблему невозвратимой матрицы в МНК для регрессионных задач. Насколько хорошо это “

Data Science

Хорошо ли t-SNE справляется с кластеризацией экземпляров с одинаковым трендом?

00

Вопрос или проблема У меня есть набор данных временных рядов с 50 тысячами примеров и длиной 90, как показано на изображениях ниже: Мне интересно, смогут ли t-SNE или любой тип уменьшения размерности сгруппировать экземпляры, которые я показал выше, исходя из тренда, например.

Data Science

Почему мы не сталкиваемся с проклятием размерности в машинном обучении?

00

Вопрос или проблема Это вопрос, который долго меня озадачивал. Я обученный статистик, и я знаю, что некоторые вещи невозможно сделать в высоких размерностях (или, по крайней мере, вы не получите то, что хотите, хотя можете получить что-то другое).

Data Science

Снижение размерности для корреляции большого количества переменных

00

Вопрос или проблема Итак, у меня есть набор данных с примерно 750 переменными (столбцами) и 50 000 строк записей. Я хотел бы уменьшить размерность набора данных до 25-50-100 размерностей и затем вычислить матрицу корреляции между этими размерностями.

Data Science

Какой алгоритм можно использовать для уменьшения размерности нескольких временных рядов?

00

Вопрос или проблема В моем наборе данных, точка данных по сути представляет собой временной ряд из 6 характеристик за год по месяцам, так что в итоге получается 6*12=72 характеристики. Мне нужно найти классовые выбросы, поэтому я выполняю сокращение размерности

Data Science

Расширение NMF на 3D

00

Вопрос или проблема Насколько я знаю, Негативная матричная факторизация (NMF) — это процедура поиска матриц $A$ и $B$ такие, что $$Data_{ik} = \sum_j A_{ij} B_{jk}$$ Моя матрица данных на самом деле 3D. Я хотел бы подогнать к моим данным следующую модель

Data Science

Многомерное шкалирование, дающее различные результаты для разных начальных условий.

00

Вопрос или проблема Я взял данные с здесь и хотел поиграть с многомерным шкалированием на этих данных. Данные выглядят следующим образом: В частности, я хочу отложить города в 2D-пространстве и посмотреть, насколько это соответствует их реальному расположению