Data Science
Является ли набор данных линейно разделимым, если его можно разделить только с помощью нескольких гиперпланов?
00
Вопрос или проблема Например, в статье Википедии о линейной разделимости приведен следующий пример: Говорится: “Следующий пример требует двух прямых линий и, следовательно, не является линейно разделимым”. С другой стороны, в книге Бишопа “
Data Science
Что означает, что обучающие данные генерируются вероятностным распределением по наборам данных?
00
Вопрос или проблема Я читал книгу “Глубокое обучение” и наткнулся на следующий абзац (страница 109, второй абзац): Данные для обучения и тестирования генерируются распределением вероятностей по наборам данных, называемым процессом генерации данных.
Data Science
Как можно генерировать аномалии в наборе данных?
00
Вопрос или проблема Я создаю модель TensorFlow для выявления аномалий в данных смарт-метра электроэнергии и использую набор данных UK-DALE. Как я могу ввести аномалии в данные, чтобы протестировать модель? Аномалии обычно означают точки данных, которые
Data Science
Поиск предсказаний из 4 наборов данных
00
Вопрос или проблема Четвёртый набор данных содержит (train_data, test_data, previous_data и information_history_data). Цель состоит в том, чтобы найти рейтинг пользователя по кредиту в банке. Я запутался с первым шагом в этом процессе, потому что существует
Data Science
Как обеспечить обобщение при наличии очень-очень маленьких данных?
00
Вопрос или проблема У меня есть 21 наблюдение с более чем 10000 признаков. Проблема заключается в бинарной классификации, и данные сбалансированы. Используя метод выбора признаков, я нашел 5 признаков. Теперь у меня есть 21 наблюдение с 5 признаками.
Data Science
Исследовательский анализ данных на наборе, разделенном на победителей и проигравших
00
Вопрос или проблема У меня есть набор данных о характеристиках победителей теннисных турниров и о характеристиках проигравших: возраст_победителя, рейтинг_победителя / возраст_проигравшего, рейтинг_проигравшего Чтобы провести надлежащий EDA, мне нужно
Data Science
Низкоразмерные бинарные классификационные наборы данных
00
Вопрос или проблема Если кто-то хочет изучить аспекты нейронных сетей (например, в академической статье) и хочет экспериментировать с бинарной классификацией векторов в низкоразмерном пространстве (например, размерность = 2 или размерность < 6);
Data Science
Какой лучший подход к работе с пропущенными данными в наборе данных?
00
Вопрос или проблема У меня есть набор данных, содержащий пропущенные значения в некоторых столбцах. Я хотел бы знать, какой лучший подход для работы с этими недостающими данными. Следует ли мне удалять строки с пропущенными данными или заполнять отсутствующие
Data Science
Методы выборки для текстовых наборов данных (NLP)
00
Вопрос или проблема Я работаю с двумя наборами текстовых данных, один из которых содержит 68 тысяч образцов текста, а другой – 100 тысяч образцов. Я закодировал текстовые наборы в векторы BERT. Образец текста > 'Я работаю с NLP' ==>
Data Science
Какие наборы данных помогут предсказать (экспоненциальные) рыночные тренды?
00
Вопрос или проблема Какие наборы данных используют такие сайты, как MeetGlimpse, trends.co, explodingtopics.com, чтобы обнаружить экспоненциальные рыночные тренды? Мне они нравятся (не аффилирован) и я хотел бы лучше понять, как они работают.
Data Science
Pyspark Dataframes в Pandas и ML Ops – Задержка при параллельном выполнении?
00
Вопрос или проблема Если я преобразую Spark DataFrame в Pandas DataFrame, а затем применю операции Pandas и модели sklearn к набору данных в Databricks, будут ли операции из Pandas и sklearn распределены по кластеру? Или мне нужно использовать операции
Data Science
Кластеризация нескольких CSV-файлов, которые не помещаются в ОЗУ
00
Вопрос или проблема У меня есть несколько файлов CSV, каждый из которых содержит не менее 200 МБ данных по 12 столбцам. Каждый CSV файл, возможно, может принадлежать к 4 категориям или меткам. Я пытаюсь выяснить, в какие кластеры попадает каждый из этих файлов.
Data Science
Учитывая модель регрессии с множеством переменных признаков, какие инструменты вы бы использовали, чтобы определить, какие переменные признаков добавляют наибольшую дисперсию?
00
Вопрос или проблема Предположим, что у нас есть гипотетический набор данных {S} с 100 переменными признаков X и 10 предсказанными переменными Y. X1 … X100 Y1 …. Y10 1 .. 2 3 .. 4 4 .. 3 2 .. 1 Предположим, я хочу повысить точность Y1.
Data Science
Сравнение наборов данных – Нужно ли использовать один и тот же тестовый набор данных?
01
Вопрос или проблема Я обучаю модель ML CNN. Я хочу сравнить различные наборы изображений. Эти наборы имеют разные характеристики (переведенные или нет, повернутые или нет и т.д.). Я не изменяю модель ML между обучением на разных наборах данных.
Data Science
Набор данных с несколькими вариантами ответов для дообучения
00
Вопрос или проблема Надеюсь, здесь можно задавать вопросы, но я ищу набор данных (формат не так важен), который похож на SQuAD, но также содержит ложные ответы на вопросы. Я хочу использовать его для дообучения GPT-3, и все, что я нахожу, это либо вопросы
Data Science
LSTM – Как подготовить обучение из набора данных, содержащего множественные наблюдения для различных событий.
00
Вопрос или проблема Я использую LSTM в проекте, связанном с набором данных MobiFall, который содержит падения и повседневные активности – такие как ходьба, сидение и т. д. – измеренные с помощью акселерометра, гироскопа и датчиков ориентации по осям x, y, z.
Data Science
Модель глубокого обучения для классификации кожных заболеваний
00
Вопрос или проблема Я планирую создать модель глубокого обучения, которая классифицирует кожные заболевания (около 5-7 заболеваний). Пожалуйста, посоветуйте мне хорошую модель глубокого обучения для этого. Я собираюсь интегрировать эту модель в мобильное приложение.
Data Science
Обработка данных: Кластеризация на основе клик для сравнения в анализе социальных сетей
00
Вопрос или проблема Я совсем новичок в области добычи данных. Я хочу работать над методом кластеризации на основе клик. Я хочу провести сравнение между различными наборами данных для анализа социальных сетей или выявления сообществ в анализе социальных сетей.
Data Science
Как мне рассчитать матрицу сходства с использованием ядра Стюдента-t?
00
Вопрос или проблема Как указано в заглавии, как мне рассчитать матрицу сходства с ненормализованным ядром Стюдента? Я пытаюсь рассчитать дивергенцию Кульбака-Лейблера для различных запусков t-SNE, но для этого мне нужна матрица Q.
Data Science
Предобработка данных
00
Вопрос или проблема Я просто хочу знать, как определить, следует ли удалять отсутствующие значения или заполнять их средним, медианой или модой. Обычно я удаляю отсутствующие значения, но это уменьшает размер датасета более чем на 50%.