GCP Load Balancer возвращает 503: Нет здоровых верхних серверов в GKE, NGINX с бекендом на Flask

Question

У меня возникают проблемы с настройкой глобального балансировщика нагрузки GCP, используя GKE, NGINX (обслуживание фронтенда React) и бэкенд Flask. Балансировщик нагрузки постоянно возвращает 503 No Healthy Upstream, хотя сервисы, похоже, работают корректно внутри кластера.

Содержание

Настройка:
Проблема:
Детали конфигурации:
Конфигурация NGINX:
Dockerfile для NGINX/Фронтенда:
Dockerfile для бэкенда (Flask):
Service YAML (Бэкенд):
Что я уже попробовал:
Текущее поведение:
Вопросы:
Ответ
Причины проблемы и их решение
Защита от ошибок 503 No Healthy Upstream
Заключение

Настройка:

Фронтенд: React, обслуживаемый через NGINX
Бэкенд: Flask (Python 3.11), работающий на GKE
Балансировщик нагрузки: Глобальный HTTP(S) балансировщик нагрузки GCP с SSL

Проблема:

Несмотря на то, что всё выглядит функциональным внутри кластера, балансировщик нагрузки продолжает отмечать мои экземпляры бэкенда как нездоровые, что приводит к ошибке 503. Выполнение curl для бэкенд-сервиса изнутри кластера работает без проблем, но балансировщик нагрузки неправильно передает трафик.

Детали конфигурации:

Конфигурация NGINX:

server {
    listen 80;
    server_name localhost;

    location / {
        root /usr/share/nginx/html;
        index index.html;
        try_files $uri /index.html;
    }

    location /health {
        proxy_pass http://backend-service.default.svc.cluster.local:80/health;
        proxy_set_header Host $host;
        proxy_set_header X-Real-IP $remote_addr;
        proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
        proxy_set_header X-Forwarded-Proto $scheme;
    }

    error_page 404 /404.html;
    location = /404.html {
        root /usr/share/nginx/html;
    }
}

Dockerfile для NGINX/Фронтенда:

# Стадия 1: Построение приложения React
FROM node:16-alpine AS build
WORKDIR /app
COPY package.json package-lock.json ./
RUN npm install
COPY . ./
RUN npm run build

# Стадия 2: Обслуживание через NGINX
FROM nginx:alpine
COPY --from=build /app/build /usr/share/nginx/html
COPY nginx.conf /etc/nginx/nginx.conf
EXPOSE 80
CMD ["nginx", "-g", "daemon off;"]

Dockerfile для бэкенда (Flask):

FROM python:3.11-slim
WORKDIR /app
COPY . /app
RUN pip install -r requirements.txt
EXPOSE 80
CMD ["gunicorn", "--bind", "0.0.0.0:80", "run:app"]

Service YAML (Бэкенд):

apiVersion: v1
kind: Service
metadata:
  name: backend-service
spec:
  type: LoadBalancer
  ports:
    - port: 80
      targetPort: 80
  selector:
    app: backend
status:
  loadBalancer:
    ingress:
      - ip: 1.2.3.4

Что я уже попробовал:

Проверки работоспособности:
- Проверки работоспособности настроены на обращение к /health на порту 80, и они работают внутри кластера (200 OK).
- Внешние проверки работоспособности от балансировщика нагрузки терпят неудачу, отмечая все экземпляры как нездоровые.
Правила брандмауэра:
- Правила входящего трафика настроены для разрешения входящего трафика на портах 80 и 443 от всех IP.
Конфигурация SSL:
- SSL-сертификат выдан и активен для домена.
- Обращение к HTTPS конечной точке напрямую приводит к ошибке 503 с сообщением no healthy upstream.
Тестирование внутри кластера:
- Обращение к бэкенд-сервису из фронтенд-пода работает без проблем:
```
kubectl exec -it frontend-pod -- curl http://backend-service.default.svc.cluster.local/health
{"status":"ok"}
```
DNS и SSL:
- Домен настроен с использованием GCP Cloud DNS, указывающим на правильный IP (1.2.3.4).
- SSL-сертификат успешно выдан для домена.

Текущее поведение:

Внутренние проверки работоспособности от GCP продолжают терпеть неудачу.
Обращение к бэкенд-сервису изнутри кластера работает, но балансировщик нагрузки считает экземпляры нездоровыми.
Любая попытка доступа к сервису извне через балансировщик нагрузки приводит к ошибке 503 (no healthy upstream).

Вопросы:

Почему балансировщик нагрузки постоянно отмечает бэкенд как нездоровый, даже несмотря на то, что внутренние проверки работоспособности проходят?
Существует ли конкретная настройка GKE или балансировщика нагрузки, которую я могу пропустить?
Как я могу решить проблему 503 No Healthy Upstream с этой конфигурацией?