Data Science
Сравните неизвестные спектры с эталоном.
00
Вопрос или проблема В настоящее время я использую Orange Data Mining для анализа спектров Рамана. Мне нужно проанализировать порошки неизвестных соединений, и у меня есть несколько спектров известных соединений (референсов). Я хотел бы знать, возможно
Data Science
Как объединить два временно зависимых набора данных?
00
Вопрос или проблема Я совершенно новый в области науки о данных, так что, пожалуйста, будьте снисходительны. У меня есть набор данных, который содержит записи о случаях возникновения пожаров за последние 35 лет (+-700.000 строк).
Data Science
Как написать пользовательский алгоритм деидентификации на Python?
00
Вопрос или проблема Я попробовал простой алгоритм для анонимизации своих данных, используя технику деидентификации. Но код не работает для меня. Я хочу анонимизировать данные, слегка изменив значения. Образец данных доступен здесь import pandas as pd
Data Science
Почему неправильно обучать и тестировать модель на одном и том же наборе данных?
00
Вопрос или проблема Каковы подводные камни такого подхода и почему это плохая практика? Может ли так случиться, что модель начинает запоминать изображения “наизусть” вместо того, чтобы понимать лежащую в основе логику?
Data Science
Почему было бы неправильно вычислять и использовать средние значения тестового набора?
00
Вопрос или проблема У меня есть 2 вопроса касательно всей темы набора данных в машинном обучении, и я был бы рад получить ответ 🙂 1. Почему неправильно вычислять и использовать средние значения и стандартные отклонения тестового набора?
Data Science
Удаление выбросов из многомерного набора данных и Увеличение данных
00
Вопрос или проблема Удаление выбросов из одноберных данных можно легко выполнить, убирая точки, которые находятся за пределами диапазона IQR. Но как должен проходить процесс обнаружения и удаления выбросов, если набор данных состоит из нескольких измерений?
Data Science
Как я могу выявить шаблоны и/или ключевые слова или фразы?
00
Вопрос или проблема Я собираю данные в базе данных через php из apache. Меня интересует обнаружение паттернов в каждом столбце на данный момент. Например, ручное исследование данных показывает, что паттерн phpmyadmin встречается в различных формах и написании
Data Science
Структура проекта – многие проекты используют один и тот же большой набор данных.
00
Вопрос или проблема У меня есть множество проектов для работы, которые в значительной степени не связаны друг с другом, за исключением того, что они используют одни и те же данные, которые занимают довольно много места на диске в формате csv.
Data Science
Обучение нейронной сети с ДВУМЯ возможными правильными выходами для одного входа
00
Вопрос или проблема У меня есть система в виде черного ящика, которая имеет два правильных вывода для одного входного образца. Теперь я хочу обучить нейронную сеть, чтобы она генерировала хотя бы один из правильных выводов для этого входного образца.
Data Science
Как на нормализацию влияют выбросы? И как их избежать?
00
Вопрос или проблема У меня есть набор данных, который сводится к трем столбцам: 1. Название поставщика 2. Количество транзакций с поставщиком 3. Общая стоимость этих транзакций. Я пытаюсь найти лучший способ ранжирования всех поставщиков на основе этих
Data Science
Импорт файла C4.5 в датафрейм R
00
Вопрос или проблема Я хочу преобразовать входные данные, доступные в формате файла C4.5, в дата-фрейм R. Набор данных можно скачать по следующей ссылке https://archive.ics.uci.edu/ml/machine-learning-databases/communities/ и он доступен в виде файлов .
Data Science
Набор данных с чрезвычайно низкоразмерными изображениями для PCA
00
Вопрос или проблема Я ищу публичный набор данных изображений, которые отличаются друг от друга лишь незначительно, так что после применения PCA их можно будет реконструировать с небольшой ошибкой из очень небольшого количества коэффициентов PCA.
Data Science
Как построить модель, в которой несколько точек данных способствуют результату
00
Вопрос или проблема Я пытаюсь разобраться, как обработать данные и смоделировать следующий сценарий: Посетители ресторана оценивают качество обслуживания по шкале от 1 до 10. У меня есть данные о взаимодействиях между официантами и клиентами.
Data Science
В чем разница между Pachyderm и Git?
00
Вопрос или проблема Я узнал, что такие инструменты, как Pachyderm, версионируют данные, но я не вижу никакой разницы между этим инструментом и Git. Я узнал из этого поста, что: Он хранит все ваши данные в центральном доступном месте Он обновляет все зависимые
Data Science
Набор данных для многомасштабного управления с высокими дискретными и низкими непрерывными управлениями
00
Вопрос или проблема Мне нужен набор данных с дискретными контролями на более высоком уровне и непрерывными на более низком. Примером могут служить робототехника или автономия, где решения на более высоком уровне – это такие действия, как остановка или поворот.
Data Science
Как правильно обучаться на расширенном наборе данных
00
Вопрос или проблема Я обучил свой классификатор на изображениях с смесью нескольких классов на каждом изображении, например, A-F. Классификатор способен (почти) правильно сегментировать эти классы на изображениях. Теперь у меня есть больше данных с изображениями, показывающими класс G.
Data Science
Должен ли я удалить дубликаты по признакам, но без цели?
00
Вопрос или проблема Я веду дебаты с кем-то по поводу проблемы, где есть дубликаты по признакам (т.е. $ X_1 = X_2 $, но $ Y_1 != Y_2 $). С моей точки зрения, мы должны сохранить эти данные, так как они могут быть показательными и, следовательно, интересными
Data Science
Как подделать данные на основе условия и веса
00
Вопрос или проблема Я пытаюсь создать поддельные данные для кафе. У меня есть две характеристики: возраст и меню. Меню включает в себя различные типы напитков, таких как кофе [латте, эспрессо, мокко и т.д.], чай [молочный чай, лимонный чай], молоко [свежие
Data Science
разный диапазон целевых значений в нейронной сети
00
Вопрос или проблема Я работаю над кодом регрессии с использованием нейронной сети. Набор данных включает 14 признаков в диапазоне значений от -1 до 1, в то время как целевая переменная изменяется от (0.000759) до (1100). Целевые значения масштабируются тремя методами.
Data Science
Как обрабатывать столбец значений типа int, разделенных запятыми, как строку в наборе данных для обучения модели?
00
Вопрос или проблема Я работаю над проектом машинного обучения для прогнозирования победителя матчей по кабадди с использованием набора данных. Одной из важных характеристик является состав команды. У меня есть столбец в DataFrame, который содержит идентификаторы