transformation - ответы на вопросы

Data Science

00

Вопрос или проблема Когда я создаю конвейер преобразования данных для набора данных, я постоянно получаю ошибку: “все размеры входного массива, за исключением оси конкатенации, должны точно совпадать, но по измерению 0, массив в индексе 0 имеет размер 1”

Data Science

Помощь в преобразовании данных

00

Вопрос или проблема У меня время реакции как зависимая переменная и возраст как независимая переменная. Я хочу провести анализ с использованием линейной смешанной модели. Мои данные не имеют нормального распределения. Должен ли я преобразовать данные?

Data Science

Как разработать JSON-схему для отображения данных опроса из файла CSV с сложными типами вопросов?

00

Вопрос или проблема Я работаю с большим набором данных, содержащим ответы на опросы, хранящиеся в CSV-файле с более чем 100 столбцами. Я хочу сопоставить эти данные с JSON-схемой для лучшей структуры и последующей обработки. Однако я не уверен в лучших

Data Science

Эффект логарифмических шансов на искаженные данные

00

Вопрос или проблема Приведение логарифма шансов устанавливает линейность между шансами зависимой переменной и независимыми переменными, устраняя асимметрию в данных? Является ли это одной из причин, по которой мы используем логарифм шансов в логистической регрессии?

Data Science

Порядок трансформации и импутации

00

Вопрос или проблема Я предварительно обрабатываю свои данные для использования в модели линейной регрессии. Мои признаки сильно искажены, и я хотел бы применить трансформацию Йео-Джонсона к некоторым из моих признаков, а логарифмическую трансформацию к другим.

Вопросы и ответы

Сравнение двух колонок дат, чтобы указать, произошло ли событие после другого.

00

Вопрос или проблема У меня есть датафрейм, в котором я хочу вернуть количество (долю) пациентов, которые прошли последующий осмотр после диагноза заболевания. Исходный ДФ (пример 1 пациента) | patient_id | app_date | diag_date | cancer_yn | |------------|------------|------------|-----------|

Вопросы и ответы

Существует ли эффективный способ (или пакет) для динамической фильтрации набора данных по времени между датами?

00

Вопрос или проблема Предположим, есть набор данных с дублированными PersonID и несколькими датами. PersonID Дата 1 2024-01-01 1 2024-01-02 1 2024-01-09 1 2024-01-15 2 2024-08-05 2 2024-08-06 3 2024-01-07 3 2024-01-08 3 2024-01-15 Я хочу оставить только

Data Science

Масштабирование и нессимметричные преобразования признаков для классификации

00

Вопрос или проблема Я хочу преобразовать некоторые значения признаков в своей модели, используя кубический корень, чтобы уменьшить некоторую асимметрию в своих данных. Однако я заметил, что после того, как я применяю кубический корень к определенным признакам

Data Science

Сжать матрицу значений в один столбец?

00

Вопрос или проблема У меня есть набор данных, в котором я ненужно дублировал переменные столбцов, и я хочу его сократить. Я бы хотел, чтобы выходные данные не были такими громоздкими, и мне уже пришлось выполнить некоторую работу, чтобы преобразовать

Data Science

Обработка смещения и эксцесса данных

00

Вопрос или проблема У меня есть набор данных, где переменные имеют высокую асимметрию (> ±1) и куртозис (> ±5). Я попытался удалить выбросы и выполнить логарифмическое преобразование с основанием 10, но асимметрия и куртозис по-прежнему высоки.

Data Science

Стандартная нормализация после логарифмического преобразования

00

Вопрос или проблема У меня есть быстрый вопрос о том, нужно ли стандартизировать признаки после логарифмического преобразования. У меня есть один признак, который сильно скошен и требует логарифмического преобразования, для остальных признаков я применяю