Back to overview
Downtime

{{es}}Incidente captcha Turnstile{{/es}}{{en}}Turnstile captcha incident{{/en}}

Nov 18 at 11:47am UTC
Affected services
Cloudflare Turnstile

Resolved
Nov 18 at 03:06pm UTC

{{es}}
Estimados clientes, lamentamos el incidente provocado por la caída global de Cloudflare que afectó la cadena de suministro de Captcha para los formularios. A continuación daremos detalles y próximos pasos para mitigar estas situaciones en el futuro:

Videsk tiene a Cloudflare como su principal proveedor de infraestructura edge (borde), lo que permite proteger y enrutar el tráfico hacia nuestra infraestructura en Google Cloud.

Nuestra cuenta actual con Cloudflare presenta un alto nivel de disponibilidad, catalogada como Enterprise, lo que nos permite separar configuraciones y cambios y aislar nuestra cuenta del resto de clientes.

En este caso, se produjeron incidentes en cascada que afectaron a múltiples productos de Cloudflare. Uno de ellos es Captcha Turnstile, que Videsk utiliza para mitigar bots en formularios y otros flujos.

El incidente de Cloudflare provocó que el script utilizado para validar no estuviese disponible, lo que inhibió generar tokens captcha válidos, desencadenando que las llamadas nunca llegasen a nuestro servidor. En episodios anteriores se implementó un interruptor que nos permite activar el bypass de captcha en caso de que el proveedor presente problemas de infraestructura. En este caso fue una falla total (lo cual es anómalo).

Nuestro equipo, rápidamente al detectar esta situación, comenzó a diseñar un parche para hacer un bypass desde nuestros productos web, de esta manera, forzar un bypass client y server side. Adicionalmente, se contactó individualmente a todo cliente que tuviese activos formularios para desactivarlos temporalmente mientras la incidencia estuviese activa.

Una vez implementado, debemos purgar caché para que los cambios se propagen en 30 segundos o menos a nivel global. Allí, nuestro equipo se enfrentó a que no tenía acceso al panel para purgar la caché. Dado ello, contactamos a Cloudflare para una purga de emergencia, pero, dado el incidente global, la prioridad de ellos estaba centrada en restablecer el sistema, incluso posteriormente indicándonos que, de haber purgado la caché, nuestra cuenta completa se hubiese sido afectada por completo, dejando inoperativa nuestra infraestructura edge.

Dado ello, nuestro equipo solo podía esperar a que el tiempo de vida (TTL) del caché expirara naturalmente, o bien el incidente de Cloudflare fuese resuelto, permitiéndonos purgar caché desde el panel. Finalmente, el tiempo de vida (TTL) caducó y el parche quedó activo en adelante.

Mitigaciones

Esta situación puso a prueba la resiliencia de nuestra infraestructura y tiempos de respuesta, permitiendo tener una operación degradada sin tiempo, permitiendo aplicar medidas temporales para la continuidad operacional.

En este escenario, hemos evaluado comenzar con la implementación de un servicio captcha interno sin dependencias de terceros, evitando que el punto de acceso a llamadas o agendamientos pueda verse afectado por caídas de servicios de terceros, lo cual adicionalmente nos entregará mayor control sobre la seguridad contra bots.

Adicionalmente, hemos instruido a todo el equipo de ingeniería en el uso de la API de Cloudflare para la purga de caché manualmente. Esto se debió a que, si bien en algunos momentos la API de Cloudflare procesaba solicitudes, por reglas de seguridad no se permite el acceso manual (solo CI/CD). En este caso, no se contaba con tokens de purga de caché global, lo cual ya nos llevó a implementar mecanismos automatizados para poder purgar caché a solicitud interna.

Lamentamos profundamente la situación ocurrida y somos conscientes de la oportunidad de mejora para ofrecer el mejor servicio.

Gracias por confiar en Videsk.
{{/es}}
{{en}}
Dear customers, we regret the incident caused by the global Cloudflare outage that affected the Captcha supply chain for forms. Below, we provide details and next steps to mitigate these situations in the future:

Videsk uses Cloudflare as its primary edge infrastructure provider, which allows us to protect and route traffic to our infrastructure on Google Cloud.

Our current Cloudflare account has a high level of availability, categorized as Enterprise, which allows us to separate configurations and changes and isolate our account from other customers.

In this case, a cascading incident occurred that affected multiple Cloudflare products. One of these is Captcha Turnstile, which Videsk uses to mitigate bots in forms and other flows.

The Cloudflare incident caused the script used for validation to become unavailable, preventing the generation of valid captcha tokens and resulting in the requests never reaching our server. In previous incidents, we implemented a switch that allows us to activate the captcha bypass in case the provider experiences infrastructure problems. In this case, it was a complete failure (which is unusual).

Our team quickly detected this situation and began designing a patch to bypass the captcha from our web products, thus forcing a client-side and server-side bypass. Additionally, we contacted each client with active forms individually to temporarily deactivate them while the incident was ongoing.

Once implemented, we needed to purge the cache so that the changes would propagate globally in 30 seconds or less. Our team then encountered the problem of not having access to the panel to purge the cache. Therefore, we contacted Cloudflare for an emergency purge, but given the global incident, their priority was restoring the system. They later informed us that purging the cache would have completely affected our account, rendering our edge infrastructure inoperable.

Given this, our team could only wait for the cache's Time to Live (TTL) to expire naturally, or for the Cloudflare incident to be resolved, allowing us to purge the cache from the dashboard. Ultimately, the TTL expired, and the patch became active going forward.

Mitigations

This situation tested the resilience of our infrastructure and response times, resulting in a degraded operation without downtime. This allowed us to implement temporary measures to ensure business continuity.

In this scenario, we have evaluated implementing an internal captcha service without third-party dependencies. This will prevent the call or scheduling access point from being affected by third-party service outages and will also give us greater control over bot security.

We deeply regret the situation and recognize the opportunity for improvement to provide the best possible service.

Thank you for trusting Videsk.
{{/en}}

Updated
Nov 18 at 02:00pm UTC

{{es}}
El incidente con Cloudflare Captcha ha finalizado; nuestro equipo está dando rollback dentro de un par de horas en caso de que el incidente vuelva a estar activo.
{{/es}}
{{en}}
The Cloudflare Captcha incident has ended; our team is rolling back the issue within a couple of hours in case the incident becomes active again.
{{/en}}

Updated
Nov 18 at 01:16pm UTC

{{es}}
El caché ha expirado. Las llamadas ya no tienen obligatoriedad de captcha mientras esta incidencia está activa.
{{/es}}
{{en}}
The cache has expired. Calls no longer require a captcha during this Cloudflare outage.
{{/en}}

Updated
Nov 18 at 01:07pm UTC

{{es}}
Estimados clientes, no hemos conseguido respuesta a la brevedad por parte de Cloudflare, dado que el soporte se encuentra con alta demanda global debido al incidente. El caché edge está estimado en que pueda expirar dentro de 1 hora (TTL).

Recordarles que desactivando formularios pueden continuar con la operación sin problemas. Para evitar la pérdida de datos, se recomienda activar formularios de agentes; de esta manera, podrán obtener los datos manualmente, pero sin pérdidas.
{{/es}}
{{en}}
Dear customers, we haven't received a prompt response from Cloudflare, as their support team is experiencing high global demand due to the incident. The Edge cache is estimated to expire within one hour (TTL).

Please remember that disabling forms will allow you to continue operations without issues. To prevent data loss, we recommend enabling agent forms; this way, you can retrieve the data manually without any data loss.
{{/en}}

Updated
Nov 18 at 11:55am UTC

{{es}}
Sugerimos a todos nuestros clientes desactivar los formularios mientras esta incidencia global está activa.

La razón se debe a que los formularios dependen de un flujo captcha para invalidar bots, lo que provoca que en este momento no se puedan realizar llamadas.

Nuestro equipo está trabajando para entregar un bypass temporal de captcha.
{{/es}}
{{en}}
We suggest all our customers disable their forms while this global issue is active.

This is because the forms rely on a captcha flow to invalidate bots, which is currently preventing calls from being made.

Our team is working to provide a temporary captcha bypass.
{{/en}}

Updated
Nov 18 at 11:53am UTC

{{es}}
Hemos identificado que nuestro proveedor, Cloudflare, está presentando fallas a nivel global.

En este momento, nuestro servicio a nivel general no ha sido afectado, dada la segregación de cuenta a nivel Enterprise, permitiéndonos seguir operando.

El sistema de captcha Turnstile depende de la infraestructura Cloudflare, la cual sí está siendo afectada en este momento.
{{/es}}
{{en}}
We have identified that our provider, Cloudflare, is experiencing a global outage.

At this time, our overall service is not affected, thanks to the account segregation at the Enterprise level, allowing us to continue operating.

The Turnstile captcha system relies on Cloudflare infrastructure, which is currently experiencing outages.
{{/en}}

Created
Nov 18 at 11:47am UTC

{{es}}
Estimados clientes, nuestro principal proveedor de captcha está presentando problemas de carga y respuesta. Estamos investigando la situación.
{{/es}}
{{en}}
Dear customers, our main captcha provider is experiencing loading and response issues. We are investigating the situation.
{{/en}}