data
Unix-подобные системы
Вопрос или проблема У меня есть файл .fam в формате plink, он выглядит так 1 I001.HO 0 0 1 1 2 I002.HO 0 0 1 1 3 IREJ-T006.HO 0 0 1 1 4 IREJ-T009.HO 0 0 1 1 5 IREJ-T022.HO 0 0 1 1 6 IREJ-T023.HO 0 0 1 1 7 IREJ-T026.HO 0 0 1 […]
Data Science
Вопрос или проблема Я начинаю проект в области машинного обучения, который требует обширного набора данных о деталях автомобилей. Цель состоит в том, чтобы обучить модель, которая сможет идентифицировать и классифицировать различные автомобильные детали
Data Science
Вопрос или проблема Каковы подводные камни такого подхода и почему это плохая практика? Может ли так случиться, что модель начинает запоминать изображения “наизусть” вместо того, чтобы понимать лежащую в основе логику?
Data Science
Вопрос или проблема Удаление выбросов из одноберных данных можно легко выполнить, убирая точки, которые находятся за пределами диапазона IQR. Но как должен проходить процесс обнаружения и удаления выбросов, если набор данных состоит из нескольких измерений?
Data Science
Вопрос или проблема Моя команда (7 человек) переходит на git, используя Azure Devops. Я немного запутался, как это настроить для команды по работе с данными. Я использовал его для личных проектов, которые довольно просты: разрабатываешь в одной ветке
Data Science
Вопрос или проблема Стоит ли изучать корреляцию пропусков между столбцами? Если у вас сильно коррелированные отсутствующие значения (скажем, между двумя столбцами, A и B), как это изменит или повлияет на ваш взгляд на данные? Добавляет ли это новую информацию при анализе данных?
Программное обеспечение
Вопрос или проблема Я хотел бы поддерживать наборы данных о продуктах и визуализировать их связь с блюдами. Авокадо я бы использовал в салате или на кусочке хлеба. Апельсин я бы использовал для приготовления свежевыжатого сока или в салате.
Data Science
Вопрос или проблема Я пытаюсь выполнить кросс-валидацию с использованием классификации одного класса – я использую библиотеку PyOD – но не знаю, делаю ли я это правильно. Точность слишком низка, и я также не могу вывести среднее и стандартное отклонение F1.
Data Science
Вопрос или проблема Я разделил свой набор данных на обучающую (80%) и тестовую (20%) выборки. Обучил модель логистической регрессии на обучающем наборе. Теперь хочу проверить адекватность модели с помощью хи-квадрат теста на согласие, на каком наборе
Data Science
Вопрос или проблема У меня есть множество проектов для работы, которые в значительной степени не связаны друг с другом, за исключением того, что они используют одни и те же данные, которые занимают довольно много места на диске в формате csv.
Data Science
Вопрос или проблема Я пытаюсь создать модель предсказания оттока клиентов, которая будет определять клиентов, которые, вероятно, уйдут. Я определяю ушедшего пользователя как того, кто не совершал транзакций в течение 60 дней. 90% всех транзакций происходят
Data Science
Вопрос или проблема У меня есть набор данных, который сводится к трем столбцам: 1. Название поставщика 2. Количество транзакций с поставщиком 3. Общая стоимость этих транзакций. Я пытаюсь найти лучший способ ранжирования всех поставщиков на основе этих
Data Science
Вопрос или проблема Я узнал, что такие инструменты, как Pachyderm, версионируют данные, но я не вижу никакой разницы между этим инструментом и Git. Я узнал из этого поста, что: Он хранит все ваши данные в центральном доступном месте Он обновляет все зависимые
Data Science
Вопрос или проблема Я исследую мир фриланса и хотел бы услышать от тех, кто только начинает или недавно начал. Хотя у меня еще нет профессионального опыта в области Data Science, я участвовал в нескольких дататонах и хакатонах и принимал участие во многих проектах.
Data Science
Вопрос или проблема Я работаю в офисе, где SQL Server является основой всего, что мы делаем, от обработки данных до их очистки и трансформации. Мой коллега специализируется на написании сложных функций и хранимых процедур для методической обработки входящих
Программное обеспечение
Вопрос или проблема В кратце, для чего используется программное обеспечение Мы управляем обширным сбором данных, обрабатываем сложные формы и опросы, а также предоставляем безопасную платформу для пользователей, чтобы они могли отправлять запросы, модификации и обязательные отчеты.
Data Science
Вопрос или проблема Итак, у меня 16 лет опыта в развитии бизнеса, и в течение последних 8 лет я работал в компаниях, которые предлагают аутсорсинг услуг в области аналитики больших данных и исследования рынка. Если честно, эта область меня действительно
Data Science
Вопрос или проблема У меня нет проблем с импортом данных формата Excel в R/R Studio и использованием всех других пакетов R, которые я использую. Но, когда я хочу использовать пакет glmnet для разработки модели регуляризации, я неизменно сталкиваюсь со
Data Science
Вопрос или проблема Я веду дебаты с кем-то по поводу проблемы, где есть дубликаты по признакам (т.е. $ X_1 = X_2 $, но $ Y_1 != Y_2 $). С моей точки зрения, мы должны сохранить эти данные, так как они могут быть показательными и, следовательно, интересными
Программное обеспечение
Вопрос или проблема Эксперты выразили серьезную озабоченность по поводу политики конфиденциальности Yahoo Mail, поскольку она изменяется их новой материнской компанией, Oath. Обычно рекомендуется перейти на другого провайдера веб-почты.