Подсчитайте запросы из журнала доступа за последние 7 дней.

Question 1

Я бы хотел разобрать файл журнала доступа и получить количество запросов за последние 7 дней. У меня есть такая команда

cut -d'"' -f3 /var/log/apache/access.log | cut -d' ' -f2 | sort | uniq -c | sort -rg

К сожалению, эта команда возвращает количество запросов с момента создания файла и сортирует их по категориям HTTP-кодов. Я хотел бы только число, без категорий, и только за последние 7 дней.

Question 2

Я бы настроил ротацию журналов ежедневно (как это сделать, будет зависеть от вашей ОС), а затем применил ту же команду к 7 самым последним журналам. Что касается вашего существующего журнала, вы можете использовать инструмент вроде grep, чтобы извлечь только те дни, которые вам нужны, или разделить этот журнал на журналы за каждый день.

Если вы хотите что-то более элегантное, я бы просто посмотрел на одно из множества инструментов для разбора журналов, которые уже существуют.

Вот пример, как разделить ваш существующий журнал:
Разделить файл access.log по датам с помощью командной строки

Question 3

Это утилита Microsoft, так что, вероятно, это не то, что вам нужно, но есть утилита под названием LogParser (ссылка), которая анализирует файлы журналов Apache и позволяет использовать синтаксис в стиле SQL для фильтрации, агрегации и т.д.

Вам нужно будет указать параметр формата ввода как NCSA.

Question 4

Это должно быть возможно, но я застрял в вложенности команд Bash, которая не работает, и я не понимаю, почему.

Концептуально, сделайте это:

Найдите дату 7 дней назад в формате, который есть в вашем журнале Apache
1. date -d "-7 days" +%d\/%b\/%Y -> 10/Oct/2013
Удалите от первой строки до первого упоминания этой даты
1. sed '1,/~pattern~/d' access_log
Пустите результат в wc, чтобы получить подсчет.
1. | wc -l

Таким образом, должен быть способ объединить вышеописанное в одну команду:

$ sed '1,/10\Oct\/2013/d' access_log | wc -l
29
$ sed '1,/$(date -d "-7 days" +%d\/%b\/%Y)/d' access_log | wc -l
$

Где-то во вложенности моя команда date и sed не работают вместе. И все, что я пробую с различными комбинациями кавычек и экранированием, не имеет значения.

Что я упускаю?

Question 5

Как насчет анализа инструментов, таких как Splunk или Loggly? Loggly имеет бесплатный пробный период, Splunk Storm (http://splunkstorm.com) является бесплатной подпиской, и если ваши журналы не превышают их лимиты, то индексировать ваши журналы и выполнять различные статистики по запросам за последние 7 дней (или в различных других временных рамках) должно быть тривиально.

Question 6

Я предлагаю изменить вашу ротацию журналов syslog на ежедневную, тогда ниже приведенный скрипт будет работать


#!/bin/bash

ZCAT=$(cat access.log.1 | egrep "GET|POST" | awk '{ print $11 }' ; zcat access.log.[2-7].gz | egrep "GET|POST" | awk '{ print 
$11 }')

#echo подсчет загрузок страниц за неделю. это может занять некоторое время
for path in `echo "$ZCAT" | sort -u`
do
   echo "$path" >&2
   echo `echo "$ZCAT" | egrep "^$path$" | wc -l` " :: $path"
done | sort -n > "stats.log"

Подсчитайте запросы из журнала доступа за последние 7 дней.

Вопрос или проблема

Ответ или решение

1. Определение даты 7 дней назад

2. Фильтрация логов

3. Подсчет количества запросов

Объединенный скрипт

Дополнительные рекомендации

Альтернативные инструменты