dataset - ответы на вопросы - Page 6 of 7

Data Science

Является ли набор данных линейно разделимым, если его можно разделить только с помощью нескольких гиперпланов?

00

Вопрос или проблема Например, в статье Википедии о линейной разделимости приведен следующий пример: Говорится: “Следующий пример требует двух прямых линий и, следовательно, не является линейно разделимым”. С другой стороны, в книге Бишопа “

Data Science

Что означает, что обучающие данные генерируются вероятностным распределением по наборам данных?

00

Вопрос или проблема Я читал книгу “Глубокое обучение” и наткнулся на следующий абзац (страница 109, второй абзац): Данные для обучения и тестирования генерируются распределением вероятностей по наборам данных, называемым процессом генерации данных.

Data Science

Как можно генерировать аномалии в наборе данных?

00

Вопрос или проблема Я создаю модель TensorFlow для выявления аномалий в данных смарт-метра электроэнергии и использую набор данных UK-DALE. Как я могу ввести аномалии в данные, чтобы протестировать модель? Аномалии обычно означают точки данных, которые

Data Science

Поиск предсказаний из 4 наборов данных

00

Вопрос или проблема Четвёртый набор данных содержит (train_data, test_data, previous_data и information_history_data). Цель состоит в том, чтобы найти рейтинг пользователя по кредиту в банке. Я запутался с первым шагом в этом процессе, потому что существует

Data Science

Как обеспечить обобщение при наличии очень-очень маленьких данных?

00

Вопрос или проблема У меня есть 21 наблюдение с более чем 10000 признаков. Проблема заключается в бинарной классификации, и данные сбалансированы. Используя метод выбора признаков, я нашел 5 признаков. Теперь у меня есть 21 наблюдение с 5 признаками.

Data Science

Исследовательский анализ данных на наборе, разделенном на победителей и проигравших

00

Вопрос или проблема У меня есть набор данных о характеристиках победителей теннисных турниров и о характеристиках проигравших: возраст_победителя, рейтинг_победителя / возраст_проигравшего, рейтинг_проигравшего Чтобы провести надлежащий EDA, мне нужно

Data Science

Низкоразмерные бинарные классификационные наборы данных

00

Вопрос или проблема Если кто-то хочет изучить аспекты нейронных сетей (например, в академической статье) и хочет экспериментировать с бинарной классификацией векторов в низкоразмерном пространстве (например, размерность = 2 или размерность < 6);

Data Science

Какой лучший подход к работе с пропущенными данными в наборе данных?

00

Вопрос или проблема У меня есть набор данных, содержащий пропущенные значения в некоторых столбцах. Я хотел бы знать, какой лучший подход для работы с этими недостающими данными. Следует ли мне удалять строки с пропущенными данными или заполнять отсутствующие

Data Science

Методы выборки для текстовых наборов данных (NLP)

00

Вопрос или проблема Я работаю с двумя наборами текстовых данных, один из которых содержит 68 тысяч образцов текста, а другой – 100 тысяч образцов. Я закодировал текстовые наборы в векторы BERT. Образец текста > 'Я работаю с NLP' ==>

Data Science

Какие наборы данных помогут предсказать (экспоненциальные) рыночные тренды?

00

Вопрос или проблема Какие наборы данных используют такие сайты, как MeetGlimpse, trends.co, explodingtopics.com, чтобы обнаружить экспоненциальные рыночные тренды? Мне они нравятся (не аффилирован) и я хотел бы лучше понять, как они работают.

Data Science

Pyspark Dataframes в Pandas и ML Ops – Задержка при параллельном выполнении?

00

Вопрос или проблема Если я преобразую Spark DataFrame в Pandas DataFrame, а затем применю операции Pandas и модели sklearn к набору данных в Databricks, будут ли операции из Pandas и sklearn распределены по кластеру? Или мне нужно использовать операции

Data Science

Кластеризация нескольких CSV-файлов, которые не помещаются в ОЗУ

00

Вопрос или проблема У меня есть несколько файлов CSV, каждый из которых содержит не менее 200 МБ данных по 12 столбцам. Каждый CSV файл, возможно, может принадлежать к 4 категориям или меткам. Я пытаюсь выяснить, в какие кластеры попадает каждый из этих файлов.

Data Science

Учитывая модель регрессии с множеством переменных признаков, какие инструменты вы бы использовали, чтобы определить, какие переменные признаков добавляют наибольшую дисперсию?

00

Вопрос или проблема Предположим, что у нас есть гипотетический набор данных {S} с 100 переменными признаков X и 10 предсказанными переменными Y. X1 … X100 Y1 …. Y10 1 .. 2 3 .. 4 4 .. 3 2 .. 1 Предположим, я хочу повысить точность Y1.

Data Science

Сравнение наборов данных – Нужно ли использовать один и тот же тестовый набор данных?

01

Вопрос или проблема Я обучаю модель ML CNN. Я хочу сравнить различные наборы изображений. Эти наборы имеют разные характеристики (переведенные или нет, повернутые или нет и т.д.). Я не изменяю модель ML между обучением на разных наборах данных.

Data Science

Набор данных с несколькими вариантами ответов для дообучения

00

Вопрос или проблема Надеюсь, здесь можно задавать вопросы, но я ищу набор данных (формат не так важен), который похож на SQuAD, но также содержит ложные ответы на вопросы. Я хочу использовать его для дообучения GPT-3, и все, что я нахожу, это либо вопросы

Data Science

LSTM – Как подготовить обучение из набора данных, содержащего множественные наблюдения для различных событий.

00

Вопрос или проблема Я использую LSTM в проекте, связанном с набором данных MobiFall, который содержит падения и повседневные активности – такие как ходьба, сидение и т. д. – измеренные с помощью акселерометра, гироскопа и датчиков ориентации по осям x, y, z.

Data Science

Модель глубокого обучения для классификации кожных заболеваний

00

Вопрос или проблема Я планирую создать модель глубокого обучения, которая классифицирует кожные заболевания (около 5-7 заболеваний). Пожалуйста, посоветуйте мне хорошую модель глубокого обучения для этого. Я собираюсь интегрировать эту модель в мобильное приложение.

Data Science

Обработка данных: Кластеризация на основе клик для сравнения в анализе социальных сетей

00

Вопрос или проблема Я совсем новичок в области добычи данных. Я хочу работать над методом кластеризации на основе клик. Я хочу провести сравнение между различными наборами данных для анализа социальных сетей или выявления сообществ в анализе социальных сетей.

Data Science

Как мне рассчитать матрицу сходства с использованием ядра Стюдента-t?

00

Вопрос или проблема Как указано в заглавии, как мне рассчитать матрицу сходства с ненормализованным ядром Стюдента? Я пытаюсь рассчитать дивергенцию Кульбака-Лейблера для различных запусков t-SNE, но для этого мне нужна матрица Q.

Data Science

Предобработка данных

00

Вопрос или проблема Я просто хочу знать, как определить, следует ли удалять отсутствующие значения или заполнять их средним, медианой или модой. Обычно я удаляю отсутствующие значения, но это уменьшает размер датасета более чем на 50%.