Data Science
Размер наборов данных за годы
00
Вопрос или проблема Я ищу статистику, чтобы понять, как изменялся размер (публичного) набора данных на протяжении лет. Я только что нашел следующую статистику: Опрос KDnuggets, который на самом деле показывает, что на протяжении лет следующее: Гигабайты
Data Science
Построить датафрейм с несколькими CSV
00
Вопрос или проблема Я собираю метрики по 6 REST-сервисам из архитектуры микросервисов. Для каждого собранного момента я извлекаю два CSV-файла из каждого сервиса. Один CSV содержит три метрики задержки (99-й процентиль, 50-й процентиль, среднее значение).
Data Science
Многопроцессная загрузка данных в Colab
00
Вопрос или проблема Я хочу конвертировать набор данных Mozilla Common Voice из mp3 в wav. Но этот набор данных большой, и конвертация занимает много времени. Как я могу сделать эту конвертацию в Colab с помощью многопроцессорности, чтобы сократить время конвертации?
Data Science
Какова основная концепция использования лексического, лингвистического, семантического или синтаксического подхода в обработке естественного языка для борьбы с кибербуллингом?
00
Вопрос или проблема Мне действительно нужно объяснение, я работаю над инструментом обнаружения кибербуллинга на основе обработки естественного языка (NLP), который я разверну в Интернете с использованием фреймворка Django, однако застрял на какой-то идее
Data Science
Как подготовить обучающие данные для моделей глубокого обучения
00
Вопрос или проблема Я работаю над проектом, который включает применение моделей глубокого обучения. Я собрал обучающие данные. На собранных изображениях у меня больше одного объекта интереса. Я не совсем понимаю, как пометить эти изображения.
Data Science
Набор данных анализа логов с помеченными проблемами кибербезопасности
00
Вопрос или проблема Я ищу набор данных с файловыми журналами, которые содержат помеченные проблемы в области кибербезопасности. Поскольку я пытаюсь создать модель анализа журналов кибербезопасности, предпочтений по типу журналов нет, но предпочтительным
Data Science
Как разделить набор данных на обучающую и тестовую выборки для временных рядов (многократное прогнозирование с несколькими выходами)?
00
Вопрос или проблема Я пытаюсь использовать нейронную сеть LSTM для многошагового / многовыходного прогнозирования (я предсказываю несколько значений за одно время, зная некоторые значения из прошлого). Но я осознал, что должен быть осторожным при разделении
Data Science
На каких данных оценивать модель детекции объектов? (на аналогичных или реальных данных?)
00
Вопрос или проблема Я обучаю модель обнаружения объектов (SSD300) для распознавания и классификации поз тела на термографических изображениях. Несмотря на то, что у меня есть более 2 тысяч различных поз, фон не меняется значительно (у меня только 5 различных точек зрения).
Data Science
XGboost с учетом групповых и индивидуальных данных
00
Вопрос или проблема Мой набор данных состоит из комбинации двух баз данных. Одна база данных содержит индивидуальные данные о характеристиках и компенсации пяти главных исполнительных директоров крупных американских компаний. Вторая база данных содержит
Data Science
Могу ли я изменить разделение данных после создания модели?
00
Вопрос или проблема Я создал модель, но понял, что неправильно разделил данные между обучающим и тестовым наборами, поэтому точность предсказания низкая. Неэтично ли начать моделирование заново и изменить разделение данных? Сначала вы правильно рандомизировали свой набор данных?
Data Science
Как продвигаться с токенизированным текстовым контентом, который представлен в числовом виде?
00
Вопрос или проблема У меня есть один набор данных с отзывами клиентов, но текстовые данные представлены в виде токенизированных чисел. Я не знаю, как дальше поступить, подскажите, пожалуйста, как действовать? Так как я сталкиваюсь с таким набором данных
Data Science
Нормально ли, что мой набор данных по компьютерному зрению состоит просто из множества кадров и изображений вместо видео?
00
Вопрос или проблема Я новичок в области компьютерного зрения, и у меня есть набор данных с последовательными кадрами видео. Я хочу спросить, это нормально? Как вы будете работать с этим, чтобы вывести видео с некоторыми обнаружениями? Да –
Data Science
Нормализация валюты для прогнозирования зарплаты
00
Вопрос или проблема У меня есть набор данных (350 тысяч данных) о сотрудниках из разных регионов за последние 10 лет. Набор данных состоит из их навыков, региона, в котором они находятся, отрасли, их текущей роли, их зарплаты в соответствующей валюте.
Data Science
Какой подходящий хранилище данных для последовательных данных переменной длины для использования в PyTorch?
00
Вопрос или проблема У меня есть большое количество последовательностей – потенциально сотни тысяч – каждая из которых состоит из 100 до 10 000 элементов, которые, в свою очередь, состоят примерно из 5 вещественных чисел.
Data Science
Как удалить предыдущие строки базы данных на основе совпадающего значения в столбце?
00
Вопрос или проблема Я в настоящее время пытаюсь отсортировать фрейм данных, содержащий классы атрибутов и значения команд. Однако в моих данных есть несколько строк с разными классами и значениями одного и того же ID команды/ID атрибута.
Data Science
Как найти хороший словарь ругательств для английских слов
00
Вопрос или проблема Я ищу словарь нецензурной лексики для проекта по безопасности музыки. Я уже нашел хороший набор данных (https://github.com/surge-ai/profanity), но мне все еще нужны данные в этом формате, которые содержат больше категорий плохих слов
Data Science
Число единиц для первого слоя в модели Keras Sequential
00
Вопрос или проблема У меня есть огромный набор данных в формате CSV. Я передаю этот набор данных в последовательную модель Keras. У меня вопрос: может ли моя модель иметь количество единиц больше, чем количество входных признаков?
Data Science
Связь между основной функцией и основной функцией вероятностного распределения данных.
00
Вопрос или проблема Я слышал и читал множество раз следующие утверждения и с течением времени испытал много путаницы. Утверждение 1: Цель машинного обучения заключается в том, чтобы получить функцию на основе данных. Утверждение 2: Цель машинного обучения
Data Science
Как я могу использовать свой собственный набор данных для сегментации изображений с использованием TensorFlow?
00
Вопрос или проблема У меня есть огромная проблема с использованием своего собственного созданного набора данных для сегментации изображений с использованием Tensorflow. Набор данных, который я создал, содержит изображения, похожие на то, что показано
Data Science
Нормализация батчей для нескольких наборов данных?
00
Вопрос или проблема Я работаю над задачей генерации синтетических данных, чтобы помочь обучению моей модели. Это означает, что обучение проводится на синтетических + реальных данных, а тестирование — на реальных данных. Мне сказали, что слои пакетной