Data Science
Методы выборки для текстовых наборов данных (NLP)
00
Вопрос или проблема Я работаю с двумя наборами текстовых данных, один из которых содержит 68 тысяч образцов текста, а другой – 100 тысяч образцов. Я закодировал текстовые наборы в векторы BERT. Образец текста > 'Я работаю с NLP' ==>
Data Science
Какие наборы данных помогут предсказать (экспоненциальные) рыночные тренды?
00
Вопрос или проблема Какие наборы данных используют такие сайты, как MeetGlimpse, trends.co, explodingtopics.com, чтобы обнаружить экспоненциальные рыночные тренды? Мне они нравятся (не аффилирован) и я хотел бы лучше понять, как они работают.
Data Science
Pyspark Dataframes в Pandas и ML Ops – Задержка при параллельном выполнении?
00
Вопрос или проблема Если я преобразую Spark DataFrame в Pandas DataFrame, а затем применю операции Pandas и модели sklearn к набору данных в Databricks, будут ли операции из Pandas и sklearn распределены по кластеру? Или мне нужно использовать операции
Data Science
Кластеризация нескольких CSV-файлов, которые не помещаются в ОЗУ
00
Вопрос или проблема У меня есть несколько файлов CSV, каждый из которых содержит не менее 200 МБ данных по 12 столбцам. Каждый CSV файл, возможно, может принадлежать к 4 категориям или меткам. Я пытаюсь выяснить, в какие кластеры попадает каждый из этих файлов.
Data Science
Учитывая модель регрессии с множеством переменных признаков, какие инструменты вы бы использовали, чтобы определить, какие переменные признаков добавляют наибольшую дисперсию?
00
Вопрос или проблема Предположим, что у нас есть гипотетический набор данных {S} с 100 переменными признаков X и 10 предсказанными переменными Y. X1 … X100 Y1 …. Y10 1 .. 2 3 .. 4 4 .. 3 2 .. 1 Предположим, я хочу повысить точность Y1.
Data Science
Сравнение наборов данных – Нужно ли использовать один и тот же тестовый набор данных?
01
Вопрос или проблема Я обучаю модель ML CNN. Я хочу сравнить различные наборы изображений. Эти наборы имеют разные характеристики (переведенные или нет, повернутые или нет и т.д.). Я не изменяю модель ML между обучением на разных наборах данных.
Data Science
Набор данных с несколькими вариантами ответов для дообучения
00
Вопрос или проблема Надеюсь, здесь можно задавать вопросы, но я ищу набор данных (формат не так важен), который похож на SQuAD, но также содержит ложные ответы на вопросы. Я хочу использовать его для дообучения GPT-3, и все, что я нахожу, это либо вопросы
Data Science
LSTM – Как подготовить обучение из набора данных, содержащего множественные наблюдения для различных событий.
00
Вопрос или проблема Я использую LSTM в проекте, связанном с набором данных MobiFall, который содержит падения и повседневные активности – такие как ходьба, сидение и т. д. – измеренные с помощью акселерометра, гироскопа и датчиков ориентации по осям x, y, z.
Data Science
Модель глубокого обучения для классификации кожных заболеваний
00
Вопрос или проблема Я планирую создать модель глубокого обучения, которая классифицирует кожные заболевания (около 5-7 заболеваний). Пожалуйста, посоветуйте мне хорошую модель глубокого обучения для этого. Я собираюсь интегрировать эту модель в мобильное приложение.
Data Science
Обработка данных: Кластеризация на основе клик для сравнения в анализе социальных сетей
00
Вопрос или проблема Я совсем новичок в области добычи данных. Я хочу работать над методом кластеризации на основе клик. Я хочу провести сравнение между различными наборами данных для анализа социальных сетей или выявления сообществ в анализе социальных сетей.
Data Science
Как мне рассчитать матрицу сходства с использованием ядра Стюдента-t?
00
Вопрос или проблема Как указано в заглавии, как мне рассчитать матрицу сходства с ненормализованным ядром Стюдента? Я пытаюсь рассчитать дивергенцию Кульбака-Лейблера для различных запусков t-SNE, но для этого мне нужна матрица Q.
Data Science
Предобработка данных
00
Вопрос или проблема Я просто хочу знать, как определить, следует ли удалять отсутствующие значения или заполнять их средним, медианой или модой. Обычно я удаляю отсутствующие значения, но это уменьшает размер датасета более чем на 50%.
Data Science
Как создать график конкретной строки с каждым столбцом с помощью Python и какой пакет выбрать: Matplotlib или Seaborn?
00
Вопрос или проблема Я пытаюсь создать график для ранжирования каждой страны с 2002 по 2023 год. Я создал этот набор данных, загрузив каждый файл csv за соответствующий год, который содержит столбцы Страны и Ранжирование, и объединив эти отдельные наборы
Data Science
Преобразование формата данных
00
Вопрос или проблема Я пытаюсь использовать последние данные о COVID-19 с сайта итальянской гражданской защиты, но они используют довольно сложный формат времени, который вызывает у меня трудности как у новичка при создании графика.
Data Science
Помощь в прогнозировании центров затрат
00
Вопрос или проблема Как говорит заголовок: Мне поставили задачу предсказать центры затрат для данных о грузоперевозках. Я совершенно не представляю, как это сделать. Уникальное количество центров затрат превышает 5000, а количество признаков составляет около 100.