dataset
Data Science
Вопрос или проблема Например, в статье Википедии о линейной разделимости приведен следующий пример: Говорится: “Следующий пример требует двух прямых линий и, следовательно, не является линейно разделимым”. С другой стороны, в книге Бишопа “
Data Science
Вопрос или проблема Я читал книгу “Глубокое обучение” и наткнулся на следующий абзац (страница 109, второй абзац): Данные для обучения и тестирования генерируются распределением вероятностей по наборам данных, называемым процессом генерации данных.
Data Science
Вопрос или проблема Я создаю модель TensorFlow для выявления аномалий в данных смарт-метра электроэнергии и использую набор данных UK-DALE. Как я могу ввести аномалии в данные, чтобы протестировать модель? Аномалии обычно означают точки данных, которые
Data Science
Вопрос или проблема Четвёртый набор данных содержит (train_data, test_data, previous_data и information_history_data). Цель состоит в том, чтобы найти рейтинг пользователя по кредиту в банке. Я запутался с первым шагом в этом процессе, потому что существует
Data Science
Вопрос или проблема У меня есть 21 наблюдение с более чем 10000 признаков. Проблема заключается в бинарной классификации, и данные сбалансированы. Используя метод выбора признаков, я нашел 5 признаков. Теперь у меня есть 21 наблюдение с 5 признаками.
Data Science
Вопрос или проблема У меня есть набор данных о характеристиках победителей теннисных турниров и о характеристиках проигравших: возраст_победителя, рейтинг_победителя / возраст_проигравшего, рейтинг_проигравшего Чтобы провести надлежащий EDA, мне нужно
Data Science
Вопрос или проблема Если кто-то хочет изучить аспекты нейронных сетей (например, в академической статье) и хочет экспериментировать с бинарной классификацией векторов в низкоразмерном пространстве (например, размерность = 2 или размерность < 6);
Data Science
Вопрос или проблема У меня есть набор данных, содержащий пропущенные значения в некоторых столбцах. Я хотел бы знать, какой лучший подход для работы с этими недостающими данными. Следует ли мне удалять строки с пропущенными данными или заполнять отсутствующие
Data Science
Вопрос или проблема Я работаю с двумя наборами текстовых данных, один из которых содержит 68 тысяч образцов текста, а другой – 100 тысяч образцов. Я закодировал текстовые наборы в векторы BERT. Образец текста > 'Я работаю с NLP' ==>
Data Science
Вопрос или проблема Какие наборы данных используют такие сайты, как MeetGlimpse, trends.co, explodingtopics.com, чтобы обнаружить экспоненциальные рыночные тренды? Мне они нравятся (не аффилирован) и я хотел бы лучше понять, как они работают.
Data Science
Вопрос или проблема Если я преобразую Spark DataFrame в Pandas DataFrame, а затем применю операции Pandas и модели sklearn к набору данных в Databricks, будут ли операции из Pandas и sklearn распределены по кластеру? Или мне нужно использовать операции
Data Science
Вопрос или проблема У меня есть несколько файлов CSV, каждый из которых содержит не менее 200 МБ данных по 12 столбцам. Каждый CSV файл, возможно, может принадлежать к 4 категориям или меткам. Я пытаюсь выяснить, в какие кластеры попадает каждый из этих файлов.
Data Science
Вопрос или проблема Предположим, что у нас есть гипотетический набор данных {S} с 100 переменными признаков X и 10 предсказанными переменными Y. X1 … X100 Y1 …. Y10 1 .. 2 3 .. 4 4 .. 3 2 .. 1 Предположим, я хочу повысить точность Y1.
Data Science
Вопрос или проблема Я обучаю модель ML CNN. Я хочу сравнить различные наборы изображений. Эти наборы имеют разные характеристики (переведенные или нет, повернутые или нет и т.д.). Я не изменяю модель ML между обучением на разных наборах данных.
Data Science
Вопрос или проблема Надеюсь, здесь можно задавать вопросы, но я ищу набор данных (формат не так важен), который похож на SQuAD, но также содержит ложные ответы на вопросы. Я хочу использовать его для дообучения GPT-3, и все, что я нахожу, это либо вопросы
Data Science
Вопрос или проблема Я использую LSTM в проекте, связанном с набором данных MobiFall, который содержит падения и повседневные активности – такие как ходьба, сидение и т. д. – измеренные с помощью акселерометра, гироскопа и датчиков ориентации по осям x, y, z.
Data Science
Вопрос или проблема Я планирую создать модель глубокого обучения, которая классифицирует кожные заболевания (около 5-7 заболеваний). Пожалуйста, посоветуйте мне хорошую модель глубокого обучения для этого. Я собираюсь интегрировать эту модель в мобильное приложение.
Data Science
Вопрос или проблема Я совсем новичок в области добычи данных. Я хочу работать над методом кластеризации на основе клик. Я хочу провести сравнение между различными наборами данных для анализа социальных сетей или выявления сообществ в анализе социальных сетей.
Data Science
Вопрос или проблема Как указано в заглавии, как мне рассчитать матрицу сходства с ненормализованным ядром Стюдента? Я пытаюсь рассчитать дивергенцию Кульбака-Лейблера для различных запусков t-SNE, но для этого мне нужна матрица Q.
Data Science
Вопрос или проблема Я просто хочу знать, как определить, следует ли удалять отсутствующие значения или заполнять их средним, медианой или модой. Обычно я удаляю отсутствующие значения, но это уменьшает размер датасета более чем на 50%.