dataset - ответы на вопросы - Page 3 of 7

Data Science

00

Вопрос или проблема Я ищу статистику, чтобы понять, как изменялся размер (публичного) набора данных на протяжении лет. Я только что нашел следующую статистику: Опрос KDnuggets, который на самом деле показывает, что на протяжении лет следующее: Гигабайты

Data Science

Построить датафрейм с несколькими CSV

00

Вопрос или проблема Я собираю метрики по 6 REST-сервисам из архитектуры микросервисов. Для каждого собранного момента я извлекаю два CSV-файла из каждого сервиса. Один CSV содержит три метрики задержки (99-й процентиль, 50-й процентиль, среднее значение).

Data Science

Многопроцессная загрузка данных в Colab

00

Вопрос или проблема Я хочу конвертировать набор данных Mozilla Common Voice из mp3 в wav. Но этот набор данных большой, и конвертация занимает много времени. Как я могу сделать эту конвертацию в Colab с помощью многопроцессорности, чтобы сократить время конвертации?

Data Science

Какова основная концепция использования лексического, лингвистического, семантического или синтаксического подхода в обработке естественного языка для борьбы с кибербуллингом?

00

Вопрос или проблема Мне действительно нужно объяснение, я работаю над инструментом обнаружения кибербуллинга на основе обработки естественного языка (NLP), который я разверну в Интернете с использованием фреймворка Django, однако застрял на какой-то идее

Data Science

Как подготовить обучающие данные для моделей глубокого обучения

00

Вопрос или проблема Я работаю над проектом, который включает применение моделей глубокого обучения. Я собрал обучающие данные. На собранных изображениях у меня больше одного объекта интереса. Я не совсем понимаю, как пометить эти изображения.

Data Science

Набор данных анализа логов с помеченными проблемами кибербезопасности

00

Вопрос или проблема Я ищу набор данных с файловыми журналами, которые содержат помеченные проблемы в области кибербезопасности. Поскольку я пытаюсь создать модель анализа журналов кибербезопасности, предпочтений по типу журналов нет, но предпочтительным

Data Science

Как разделить набор данных на обучающую и тестовую выборки для временных рядов (многократное прогнозирование с несколькими выходами)?

00

Вопрос или проблема Я пытаюсь использовать нейронную сеть LSTM для многошагового / многовыходного прогнозирования (я предсказываю несколько значений за одно время, зная некоторые значения из прошлого). Но я осознал, что должен быть осторожным при разделении

Data Science

На каких данных оценивать модель детекции объектов? (на аналогичных или реальных данных?)

00

Вопрос или проблема Я обучаю модель обнаружения объектов (SSD300) для распознавания и классификации поз тела на термографических изображениях. Несмотря на то, что у меня есть более 2 тысяч различных поз, фон не меняется значительно (у меня только 5 различных точек зрения).

Data Science

XGboost с учетом групповых и индивидуальных данных

00

Вопрос или проблема Мой набор данных состоит из комбинации двух баз данных. Одна база данных содержит индивидуальные данные о характеристиках и компенсации пяти главных исполнительных директоров крупных американских компаний. Вторая база данных содержит

Data Science

Могу ли я изменить разделение данных после создания модели?

00

Вопрос или проблема Я создал модель, но понял, что неправильно разделил данные между обучающим и тестовым наборами, поэтому точность предсказания низкая. Неэтично ли начать моделирование заново и изменить разделение данных? Сначала вы правильно рандомизировали свой набор данных?

Data Science

Как продвигаться с токенизированным текстовым контентом, который представлен в числовом виде?

00

Вопрос или проблема У меня есть один набор данных с отзывами клиентов, но текстовые данные представлены в виде токенизированных чисел. Я не знаю, как дальше поступить, подскажите, пожалуйста, как действовать? Так как я сталкиваюсь с таким набором данных

Data Science

Нормально ли, что мой набор данных по компьютерному зрению состоит просто из множества кадров и изображений вместо видео?

00

Вопрос или проблема Я новичок в области компьютерного зрения, и у меня есть набор данных с последовательными кадрами видео. Я хочу спросить, это нормально? Как вы будете работать с этим, чтобы вывести видео с некоторыми обнаружениями? Да –

Data Science

Нормализация валюты для прогнозирования зарплаты

00

Вопрос или проблема У меня есть набор данных (350 тысяч данных) о сотрудниках из разных регионов за последние 10 лет. Набор данных состоит из их навыков, региона, в котором они находятся, отрасли, их текущей роли, их зарплаты в соответствующей валюте.

Data Science

Какой подходящий хранилище данных для последовательных данных переменной длины для использования в PyTorch?

00

Вопрос или проблема У меня есть большое количество последовательностей – потенциально сотни тысяч – каждая из которых состоит из 100 до 10 000 элементов, которые, в свою очередь, состоят примерно из 5 вещественных чисел.

Data Science

Как удалить предыдущие строки базы данных на основе совпадающего значения в столбце?

00

Вопрос или проблема Я в настоящее время пытаюсь отсортировать фрейм данных, содержащий классы атрибутов и значения команд. Однако в моих данных есть несколько строк с разными классами и значениями одного и того же ID команды/ID атрибута.

Data Science

Как найти хороший словарь ругательств для английских слов

00

Вопрос или проблема Я ищу словарь нецензурной лексики для проекта по безопасности музыки. Я уже нашел хороший набор данных (https://github.com/surge-ai/profanity), но мне все еще нужны данные в этом формате, которые содержат больше категорий плохих слов

Data Science

Число единиц для первого слоя в модели Keras Sequential

00

Вопрос или проблема У меня есть огромный набор данных в формате CSV. Я передаю этот набор данных в последовательную модель Keras. У меня вопрос: может ли моя модель иметь количество единиц больше, чем количество входных признаков?

Data Science

Связь между основной функцией и основной функцией вероятностного распределения данных.

00

Вопрос или проблема Я слышал и читал множество раз следующие утверждения и с течением времени испытал много путаницы. Утверждение 1: Цель машинного обучения заключается в том, чтобы получить функцию на основе данных. Утверждение 2: Цель машинного обучения

Data Science

Как я могу использовать свой собственный набор данных для сегментации изображений с использованием TensorFlow?

00

Вопрос или проблема У меня есть огромная проблема с использованием своего собственного созданного набора данных для сегментации изображений с использованием Tensorflow. Набор данных, который я создал, содержит изображения, похожие на то, что показано

Data Science

Нормализация батчей для нескольких наборов данных?

00

Вопрос или проблема Я работаю над задачей генерации синтетических данных, чтобы помочь обучению моей модели. Это означает, что обучение проводится на синтетических + реальных данных, а тестирование — на реальных данных. Мне сказали, что слои пакетной