dataset
Data Science
Вопрос или проблема Я работаю с двумя наборами текстовых данных, один из которых содержит 68 тысяч образцов текста, а другой – 100 тысяч образцов. Я закодировал текстовые наборы в векторы BERT. Образец текста > 'Я работаю с NLP' ==>
Data Science
Вопрос или проблема Какие наборы данных используют такие сайты, как MeetGlimpse, trends.co, explodingtopics.com, чтобы обнаружить экспоненциальные рыночные тренды? Мне они нравятся (не аффилирован) и я хотел бы лучше понять, как они работают.
Data Science
Вопрос или проблема Если я преобразую Spark DataFrame в Pandas DataFrame, а затем применю операции Pandas и модели sklearn к набору данных в Databricks, будут ли операции из Pandas и sklearn распределены по кластеру? Или мне нужно использовать операции
Data Science
Вопрос или проблема У меня есть несколько файлов CSV, каждый из которых содержит не менее 200 МБ данных по 12 столбцам. Каждый CSV файл, возможно, может принадлежать к 4 категориям или меткам. Я пытаюсь выяснить, в какие кластеры попадает каждый из этих файлов.
Data Science
Вопрос или проблема Предположим, что у нас есть гипотетический набор данных {S} с 100 переменными признаков X и 10 предсказанными переменными Y. X1 … X100 Y1 …. Y10 1 .. 2 3 .. 4 4 .. 3 2 .. 1 Предположим, я хочу повысить точность Y1.
Data Science
Вопрос или проблема Я обучаю модель ML CNN. Я хочу сравнить различные наборы изображений. Эти наборы имеют разные характеристики (переведенные или нет, повернутые или нет и т.д.). Я не изменяю модель ML между обучением на разных наборах данных.
Data Science
Вопрос или проблема Надеюсь, здесь можно задавать вопросы, но я ищу набор данных (формат не так важен), который похож на SQuAD, но также содержит ложные ответы на вопросы. Я хочу использовать его для дообучения GPT-3, и все, что я нахожу, это либо вопросы
Data Science
Вопрос или проблема Я использую LSTM в проекте, связанном с набором данных MobiFall, который содержит падения и повседневные активности – такие как ходьба, сидение и т. д. – измеренные с помощью акселерометра, гироскопа и датчиков ориентации по осям x, y, z.
Data Science
Вопрос или проблема Я планирую создать модель глубокого обучения, которая классифицирует кожные заболевания (около 5-7 заболеваний). Пожалуйста, посоветуйте мне хорошую модель глубокого обучения для этого. Я собираюсь интегрировать эту модель в мобильное приложение.
Data Science
Вопрос или проблема Я совсем новичок в области добычи данных. Я хочу работать над методом кластеризации на основе клик. Я хочу провести сравнение между различными наборами данных для анализа социальных сетей или выявления сообществ в анализе социальных сетей.
Data Science
Вопрос или проблема Как указано в заглавии, как мне рассчитать матрицу сходства с ненормализованным ядром Стюдента? Я пытаюсь рассчитать дивергенцию Кульбака-Лейблера для различных запусков t-SNE, но для этого мне нужна матрица Q.
Data Science
Вопрос или проблема Я просто хочу знать, как определить, следует ли удалять отсутствующие значения или заполнять их средним, медианой или модой. Обычно я удаляю отсутствующие значения, но это уменьшает размер датасета более чем на 50%.
Data Science
Вопрос или проблема Я пытаюсь создать график для ранжирования каждой страны с 2002 по 2023 год. Я создал этот набор данных, загрузив каждый файл csv за соответствующий год, который содержит столбцы Страны и Ранжирование, и объединив эти отдельные наборы
Data Science
Вопрос или проблема Я пытаюсь использовать последние данные о COVID-19 с сайта итальянской гражданской защиты, но они используют довольно сложный формат времени, который вызывает у меня трудности как у новичка при создании графика.
Data Science
Вопрос или проблема Как говорит заголовок: Мне поставили задачу предсказать центры затрат для данных о грузоперевозках. Я совершенно не представляю, как это сделать. Уникальное количество центров затрат превышает 5000, а количество признаков составляет около 100.