ClawBench svela il limite degli agenti AI: perché falliscono il 67% dei task reali e cosa devono fare le aziende nel 2026

Il punto non è più teorico. È misurabile.
Con il paper ClawBench: Can AI Agents Complete Everyday Online Tasks?, Yuxuan Zhang e il suo team introducono uno dei benchmark più realistici mai costruiti per testare agenti AI su attività quotidiane online.

153 task. 144 siti reali. Zero simulazioni.

Il risultato? Anche i modelli più avanzati riescono a completare solo una frazione limitata dei compiti, con Claude Sonnet 4.6 fermo al 33,3% di successo.

L’illusione dell’autonomia: perché gli agenti AI affogano nel web reale

Ci avevano promesso un maggiordomo digitale pronto a risolvere ogni nostra incombenza, ma la realtà è che siamo ancora noi a litigare con i form della prenotazione voli. Nonostante i video dimostrativi mozzafiato che inondano i nostri feed, delegare la nostra vita digitale a un’intelligenza artificiale rimane, per ora, un azzardo.

A dircelo non è una sensazione a pelle, ma ClawBench, un test spietato condotto dai ricercatori della University of British Columbia e del Vector Institute. Questo benchmark ha messo i modelli più avanzati del momento, incluso il celebrato Claude Sonnet 4.6, davanti al caos vero di Internet.

I risultati sono una doccia fredda che ci riporta con i piedi per terra: l’automazione totale non è dietro l’angolo, è ancora incagliata tra un pop-up e un cookie banner.

Oltre le simulazioni: cos’è davvero ClawBench

Per anni abbiamo misurato l’intelligenza artificiale in “laboratorio”. I modelli venivano testati su ambienti simulati, sandbox controllate dove ogni variabile era prevedibile.

In quegli acquari, gli agenti AI sembravano squali infallibili.

ClawBench ha deciso di rompere il vetro e gettare gli agenti nell’oceano aperto.

Il benchmark si distingue per tre pilastri fondamentali:

Zero Simulazioni: I test avvengono su 144 siti web reali attualmente online.
Attività quotidiane (End-to-End): Non si chiede all’AI di risolvere un puzzle, ma di completare compiti come prenotare una visita medica, inviare una candidatura di lavoro o filtrare e acquistare un prodotto specifico.
Ambiente Dinamico: I siti web cambiano, i layout si caricano in modo asincrono, i bottoni si spostano. È il mondo reale, non un file JSON pulito.

Con 153 task complessi, ClawBench non misura la capacità di “ragionare” dell’IA, ma la sua capacità di agire con successo.

E qui, il mito dell’agente autonomo subisce un brusco arresto.

L’anatomia di un fallimento: il tetto del 33%

Il dato che sta facendo discutere i laboratori di ricerca di tutto il mondo è quel 33,3%. È il tasso di successo ottenuto da Claude Sonnet 4.6, il modello che oggi rappresenta lo stato dell’arte per le capacità agentiche.

In termini brutali: l’agente fallisce due volte su tre.

Se guardiamo alla concorrenza, il quadro è ancora più cupo. Modelli come GPT-5.4 o le versioni precedenti di Gemini faticano a superare la soglia del 15-20% in compiti multi-step.

Ma perché un’intelligenza capace di superare l’esame da avvocato o di scrivere codice in Rust crolla davanti alla prenotazione di un volo su una compagnia low-cost?

La tabella della realtà: Performance a confronto

Capacità	Ambiente Controllato (Simulazione)	Ambiente Reale (ClawBench)
Comprensione Testuale	98%	85% (disturbata da adv e popup)
Esecuzione Click	100%	45% (errori di puntamento/DOM)
Completamento Task	85%	33.3%
Affidabilità Dati	Alta	Bassa (errori di trascrizione)

Caso d’uso: L’incubo del bonifico fantasma

Per capire perché un tasso di successo del 33% sia un problema serio, usciamo dai laboratori e immaginiamo uno scenario quotidiano nel 2026.

Marco è un architetto freelance che gestisce decine di fornitori. Per risparmiare tempo, istruisce il suo agente AI basato su Claude 4.6: “Paga la fattura di EdilNord che ho appena ricevuto via mail”. L’agente apre il PDF, legge i dati e si collega al portale della banca di Marco.

Qui iniziano le sabbie mobili.

La fattura ha un layout leggermente creativo: l’IBAN è diviso su due righe per ragioni grafiche. L’agente, nel “copiare” il codice nel modulo bancario, interpreta uno zero come una “O” maiuscola o, peggio, salta una cifra a causa di un refresh improvviso della pagina della banca che sposta il cursore.

L’agente non prova “dubbio”. Non ha la memoria muscolare di un umano che si accorge che il numero di cifre è sbagliato. Vede un campo, inserisce ciò che crede sia corretto e clicca su “Conferma”. La banca restituisce un errore generico: “Dati non validi”.

L’agente, invece di analizzare l’errore, entra in loop e riprova a inserire gli stessi dati per tre volte, finché l’account bancario di Marco non viene temporaneamente bloccato per attività sospetta.

Il risultato?

Marco ha perso due ore al telefono con l’assistenza clienti, il fornitore non è stato pagato e la fiducia nell’agente è azzerata. Questo è il fallimento “nel mondo reale” che ClawBench quantifica.

I tre muri strutturali che l’IA non riesce a scalare

Dall’analisi del paper emerge che il fallimento degli agenti non è dovuto a una mancanza di “conoscenza”, ma a tre criticità strutturali che rendono il web un terreno ostile.

1. Il trasferimento di contesto (Context Fragility)

Per un essere umano, leggere un dato su un PDF e inserirlo in un modulo web è un’operazione banale. Per un agente AI, questo passaggio richiede di mantenere la precisione assoluta mentre cambia il formato dei dati. ClawBench dimostra che gli agenti spesso “allucinano” o modificano leggermente codici fiscali, indirizzi o preferenze durante il passaggio da una finestra all’altra.

Nel mondo reale, un errore di una sola cifra in un numero di passaporto invalida l’intera operazione.

2. La tirannia dei processi multi-step

Prenotare un volo non è un’azione, è una coreografia. Bisogna scegliere le date, declinare l’assicurazione, evitare l’upgrade del bagaglio, inserire i dati di pagamento e gestire l’eventuale autenticazione a due fattori. Ogni passaggio è un “punto di rottura”. Se l’agente sbaglia lo step 4 di 10, raramente è in grado di tornare indietro e correggere l’errore in modo logico; tende invece a ripetere l’azione o a bloccarsi in un loop infinito.

3. L’incubo della GUI (Graphic User Interface)

Le interfacce web sono progettate per gli occhi umani, non per i parser degli algoritmi.

Shadow DOM e layout dinamici: Elementi che appaiono solo dopo uno scroll o un hover.
Iper-reattività: Menu che scompaiono se il mouse (o il puntatore virtuale) non è esattamente sopra.
Barriere anti-bot: Spesso i siti reali confondono l’agente AI con un attacco malevolo, attivando protezioni che interrompono il flusso.

Il “Click Fantasma”: l’innovazione metodologica

Uno dei contributi più interessanti di ClawBench non è solo il dato statistico, ma il modo in cui è stato ottenuto. Come si può testare un acquisto reale senza svuotare i conti correnti della ricerca o creare ordini fantasma nei magazzini di Amazon?

I ricercatori hanno introdotto il concetto di Interceptor Transaction. L’agente AI opera sul sito reale, riempie il carrello, inserisce i dati (fittizi o di test controllati) e arriva fino al pulsante “Acquista”. In quel momento, il sistema intercetta l’azione finale: valida se il click sarebbe andato a buon fine, ma blocca la transazione effettiva.

Questo permette di misurare l’intenzionalità e la precisione dell’agente senza le conseguenze economiche, rendendo ClawBench scalabile e applicabile su larga scala.

Il paradosso dell’eccellenza inutile

Ci troviamo di fronte a una contraddizione affascinante. Abbiamo modelli che possono analizzare bilanci aziendali in secondi, ma che si arrendono davanti a un selettore di date difettoso su un sito di prenotazioni ferroviarie.

Questo accade perché l’IA moderna eccelle nel pensiero sistemico e strutturato, ma fatica nel caos non deterministico.

Il web è il regno dell’imprevedibile: un aggiornamento del sito proprio mentre l’agente è attivo, un banner pubblicitario che copre il tasto “Invia”, una latenza di rete che carica male un CSS. Per noi sono piccoli fastidi; per un agente AI sono muri invalicabili.

Una riflessione:

Se un assistente umano fallisse il 67% delle commissioni, verrebbe licenziato prima della pausa caffè. Eppure, nell’AI, quel 33% è visto come un punto di partenza eroico. È fondamentale calibrare le aspettative aziendali su questa discrepanza.

Cosa significa questo per il business e lo sviluppo

Se sei un marketer, un product manager o un founder che sta pianificando di sostituire il customer service o i processi di acquisto con agenti autonomi, ClawBench ti lancia tre avvertimenti chiari:

L’automazione “Set and Forget” è un mito: Almeno per ora, ogni agente AI necessita di una supervisione umana (Human-in-the-Loop). L’agente può preparare il carrello, ma il “click finale” e la verifica dei dati critici devono restare in mano all’utente.
Il rischio reputazionale è reale: Un agente che sbaglia una prenotazione o inserisce dati errati in un modulo governativo non è solo un intoppo tecnico, è un danno d’immagine (e potenzialmente legale) enorme.
L’ibridazione è la chiave: Le aziende che vinceranno nel 2026 non sono quelle che automatizzano tutto, ma quelle che creano interfacce “agenti-friendly”. Se il tuo sito web è leggibile agevolmente da un agente AI, avrai un vantaggio competitivo immenso rispetto ai competitor i cui siti sono labirinti per gli algoritmi.

Cosa fare domani mattina: prepara il tuo sito all’invasione (gentile) degli agenti

Se il 67% dei fallimenti degli agenti dipende dalla struttura caotica del web, significa che esiste un’opportunità enorme per chi decide di rendere il proprio sito “leggibile” non solo dagli umani, ma anche dagli algoritmi. Non è solo questione di SEO, è questione di Agent-Optimization.

Ecco 4 azioni concrete per smettere di essere un ostacolo e diventare un partner per l’AI:

Punta tutto sull’Accessibilità (A11y): Sembra paradossale, ma il miglior amico di un agente AI è il protocollo per i non vedenti. Gli agenti navigano il web in modo simile agli screen reader. Usare correttamente i tag HTML5 (<button> invece di un <div> cliccabile), definire gli attributi aria-label e mantenere una gerarchia pulita dei titoli permetterà all’AI di capire cosa sta facendo senza tirare a indovinare.
Implementa i Dati Strutturati (Schema.org): Non limitarti a scrivere il prezzo o la disponibilità di un prodotto nel testo della pagina. Usa il markup di Schema.org per dichiarare esplicitamente al codice: “Questo è il prezzo”, “Questa è la data del volo”, “Questo è l’IBAN per il bonifico”. Più dati strutturati offri, meno l’agente dovrà “interpretare”, azzerando il rischio di allucinazioni.
Semplifica il tunnel di conversione: Se il tuo processo di acquisto prevede tre popup diversi, un sondaggio opzionale e due banner di iscrizione alla newsletter prima di arrivare al pagamento, l’agente AI si bloccherà quasi certamente. Crea percorsi lineari. Una “corsia preferenziale” (fast track) nel design non aiuta solo l’utente umano pigro, ma è l’unico modo per permettere a un assistente digitale di completare il compito.
Aggiorna la tua politica anti-bot: Molti siti bloccano preventivamente qualsiasi attività automatizzata. È una strategia che nel 2026 rischia di diventare un autogol, impedendo ai tuoi clienti di usare i loro assistenti per acquistare da te. Inizia a valutare l’implementazione di file robots.txt o intestazioni specifiche che permettano agli agenti certificati (come quelli di Anthropic o OpenAI) di interagire con il sito in modo sicuro, distinguendoli dagli attacchi malevoli.

Il futuro: verso il 70% di successo?

ClawBench non è una bocciatura definitiva, ma un punto di riferimento. Proprio come il benchmark ImageNet ha spinto la computer vision a superare le capacità umane nel riconoscimento delle immagini, ClawBench costringerà gli sviluppatori di modelli (Anthropic, OpenAI, Google) a smettere di ottimizzare i chatbot per la “chiacchiera” e iniziare a ottimizzarli per l’azione.

Cosa aspettarsi nei prossimi 12-18 mesi?

Sistemi di self-healing: Agenti capaci di accorgersi di aver cliccato sul tasto sbagliato e ricaricare la pagina.
Vision-Language Models (VLM) più integrati: Modelli che “vedono” la pagina web come la vede un umano, invece di limitarsi a leggere il codice HTML sottostante.
Standardizzazione dei siti web: Una spinta verso un web più semantico, non per SEO, ma per facilitare l’accesso agli assistenti digitali.

Riprendiamoci il click finale

Gli agenti AI sono il futuro, ma il futuro è meno spettacolare e più lento di quanto le slide dei keynote suggeriscano. Claude Sonnet 4.6 è un prodigio della tecnica, ma davanti al caos di Internet è ancora un turista smarrito in una metropoli straniera.

Il consiglio pratico?

Lascia pure che l’AI faccia il lavoro sporco: filtrare i prodotti, confrontare i prezzi, riempire le bozze dei moduli. Ma quando si tratta di dare la conferma definitiva, di spostare denaro o di inviare un documento ufficiale, assicurati che il dito sul tasto sia ancora il tuo. La fiducia si guadagna sul campo, e ClawBench ci dice che l’IA ha ancora molta strada da fare prima di meritarsi la nostra carta di credito.

L’attuale tasso di fallimento del 67% su compiti reali non è un bug dell’intelligenza, è un bug della nostra aspettativa. È tempo di passare dall’entusiasmo cieco a un’implementazione consapevole.

👉Sicurezza degli Agenti AI: Perché un Modello “Bravo” può Distruggere la tua Azienda

👉AI Scheming: che cos’è e perché l’intelligenza artificiale impara a mentire

👉Agentic misalignment: quando l’IA diventa una minaccia interna autonoma

👉Prompt fantasma: come comandi nascosti manipolano l’IA

👉Oltre la brand safety: IA vs moderazione umana

👉Blackout cognitivo: cosa succede se si ferma il cervello dell’IA globale

👉La stanchezza da marshmallow: quando il controllo cede