dimensionality-reduction
Data Science
Вопрос или проблема Я читал пару раз, что метод PCA используется для сокращения размерности для данных, закодированных с помощью One-Hot-Encoding. Однако, также были комментарии, что использование PCA не является хорошей идеей, так как One-Hot-Encoded
Data Science
Вопрос или проблема Я использовал снижение размерности методом PCA на наборах данных, которые довольно линейны, и теперь мне поручили сделать то же самое на наборах данных, которые в значительной степени изогнуты в пространстве.
Data Science
Вопрос или проблема В настоящее время я работаю с набором данных из 55 тысяч записей и семи столбцов (один целевой переменной), три из которых являются номинальными категориальными. Другие три – это поля ‘описания’
Data Science
Вопрос или проблема Отказ от ответственности: Я начинающий в машинном обучении. Я работаю над визуализацией многомерных данных (текст как векторы tdidf) в 2D-пространство. Моя цель – маркировать/модифицировать эти точки данных и пересчитывать их
Data Science
Вопрос или проблема У меня есть набор данных с более чем 25000 признаков. Я выполнил удаление шума с использованием гистограммного подхода, и этот набор данных сократился до более чем 5000 признаков. Есть два класса: здоровые и инфицированные.
Data Science
Вопрос или проблема Я работаю над задачей предсказания дохода, который может сгенерировать фильм. Некоторые из доступных характеристик в наборе данных – это json-коллекция для команды, актеров, которые работали над фильмом.
Data Science
Вопрос или проблема У меня есть таблица с более чем 100K строк и более 100 числовых столбцов. Вместо того чтобы использовать метод k-means для кластеризации строк вместе (и создания нового столбца category, который помечает каждую строку), я хочу кластеризовать
Data Science
Вопрос или проблема Я пытаюсь использовать модель множественной линейной регрессии для прогноза зарплат сотрудников. У меня есть всего 88 зависимых характеристик, из которых 19 категориальные, а остальные – непрерывные. Я смог уменьшить количество
Data Science
Вопрос или проблема Я строю 1D автоэнкодер на основе CNN в Keras, следуя совету в этом вопросе на SO, где кодировщик и декодировщик отделены. Моя цель – повторно использовать декодировщик, как только автоэнкодер будет обучен. Центральный слой моего автоэнкодера –
Data Science
Вопрос или проблема В настоящее время я работаю над проектом, в котором использую LSTM для обучения и предсказания последовательностей категориальных данных. Мой набор данных состоит из последовательностей переменной длины элементов $s_i = [x_{i_0}, x_{i_1}, …
Data Science
Вопрос или проблема Я изучаю визуальную аналитику и у меня есть теоретический вопрос по этой теме. Мой профессор представил эту схему на своем слайде. Для соединения данных с визуализацией. Некоторые темы очень легко понять и они касаются представления
Data Science
Вопрос или проблема Проблема: Рассмотрите двумерные образы (2, 1), (3, 5), (4, 3), (5, 6), (6, 7), (7, 8). Вычислите главную компоненту, используя алгоритм PCA. Используйте алгоритм PCA для преобразования образа (2, 1) на собственный вектор.
Data Science
Вопрос или проблема Большинство (если не все) реализаций/примеров снижения размерности UMAP, которые я видел, используют значение min_dist, немного превышающее ноль, чтобы избежать слишком плотного кластеризования точек. Это имеет смысл, но я заметил
Data Science
Вопрос или проблема Для регрессионных задач с #Предикторами > #наблюдений я недавно читал о псевдообратной матрице Мура-Пенроуза, которая решает проблему невозвратимой матрицы в МНК для регрессионных задач. Насколько хорошо это “
Data Science
Вопрос или проблема У меня есть набор данных временных рядов с 50 тысячами примеров и длиной 90, как показано на изображениях ниже: Мне интересно, смогут ли t-SNE или любой тип уменьшения размерности сгруппировать экземпляры, которые я показал выше, исходя из тренда, например.
Data Science
Вопрос или проблема Это вопрос, который долго меня озадачивал. Я обученный статистик, и я знаю, что некоторые вещи невозможно сделать в высоких размерностях (или, по крайней мере, вы не получите то, что хотите, хотя можете получить что-то другое).
Data Science
Вопрос или проблема Итак, у меня есть набор данных с примерно 750 переменными (столбцами) и 50 000 строк записей. Я хотел бы уменьшить размерность набора данных до 25-50-100 размерностей и затем вычислить матрицу корреляции между этими размерностями.
Data Science
Вопрос или проблема В моем наборе данных, точка данных по сути представляет собой временной ряд из 6 характеристик за год по месяцам, так что в итоге получается 6*12=72 характеристики. Мне нужно найти классовые выбросы, поэтому я выполняю сокращение размерности
Data Science
Вопрос или проблема Насколько я знаю, Негативная матричная факторизация (NMF) — это процедура поиска матриц $A$ и $B$ такие, что $$Data_{ik} = \sum_j A_{ij} B_{jk}$$ Моя матрица данных на самом деле 3D. Я хотел бы подогнать к моим данным следующую модель
Data Science
Вопрос или проблема Я взял данные с здесь и хотел поиграть с многомерным шкалированием на этих данных. Данные выглядят следующим образом: В частности, я хочу отложить города в 2D-пространстве и посмотреть, насколько это соответствует их реальному расположению