Запись небольших данных против больших данных на SSD.

Question 1

Я создаю программу для перемещения разделов для развлечения. Она находит раздел, считывая схему разделов, такую как GPT или MBR, затем считывает сектор (512B) из раздела и записывает его на новое место. Но по какой-то причине этот процесс очень медленный, этот диск поддерживает скорость до 2GB/s, однако процесс идет только на 700KB/s. Это потому что мне следует считывать/записывать более крупные объемы данных за раз, и почему? Есть ли какие-нибудь другие приемы, которые я могу использовать для ускорения?

Question 2

С маленьким размером (512 байт), где нужно перемещать как минимум сотни мегабайт, вы сталкиваетесь с проблемой секторов размером 4096 байт — в реальном сценарии вы читаете 4096 байт исходных данных, затем читаете данные целевого сектора (4096 B), добавляете ваши 512 байт к этому и записываете снова 4096 байт. У SSD дисков секторы по 4096, поэтому, когда вы перемещаете только 512 байт, диску нужно будет читать 4096 байт. Это так и задумывалось.

Также, при перемещении мегабайт данных, вы должны учитывать, перемещаете ли вы данные вперед или назад. Если назад — вы не должны перезаписывать следующие данные, которые будут перемещены. Если вперед — тут проблем нет. Это решается в инструкции memcpy для ассемблера, которая, если целевые данные находятся раньше в RAM (здесь на диске), перемещает данные с конца, а не с начала.

Так что ваше решение — перемещать намного больше данных, я предлагаю 100 МБ за раз. Перестаньте перемещать столько данных, когда дойдете до конца раздела, перемещайте только часть тогда. И наконец, если вы перемещаете данные назад, вы должны перемещать их с конца, а не с начала. Только если вы перезаписываете то же пространство, из которого читали.

При перемещении 512 байт вы теряете много времени на две вещи:

доступ к нужным секторам на диске (наносекунды, но множество операций дают низкую производительность)
чтение данных из-за размера секторов (вы перемещаете 512 байт, но диск должен читать и записывать 4096 байт)

Question 3

Скорее всего, основная часть вашего времени уходит на выполнение запросов чтения/записи, а не на само чтение/запись.

Если мои расчеты верны, то 2 ГБ/с переводятся в примерно 0,3 мкс для чтения 512 байт, но всегда есть ненулевой лаг для каждого запроса, который, по моему мнению, составляет около 100 мкс? — так что если вы читаете один мегабайт с помощью отдельных запросов по 512 байт (0,3×2048 + 100×2048), то 99,997% вашего общего времени “тратится” на выполнение запросов.

Между тем, если вы делаете один запрос на чтение 1 мегабайта (0,3×2048 + 100×1), то затраты на выполнение запроса составляют всего 14%, а для чтения 128 МБ это всего 0,1%. [Это очень приблизительные цифры.]

(Для жестких дисков это будет аналогично медленно — современный SATA HDD может читать или записывать ~200 МБ/с, если он читает непрерывный блок, но если вы заставите его переходить от ‘места чтения’ к ‘месту записи’ каждый раз, то легко 90% от общего времени будет тратиться на перемещение головок, а не на само чтение/запись.)

Так что “трюк” заключается в том, чтобы делать более крупные запросы и меньшее их количество.

Запись небольших данных против больших данных на SSD.

Вопрос или проблема

Ответ или решение

Теория

Пример

Применение