Il thread dell'AI

A quanto pare i recenti problemi ai servizi Amazon, sono frutto dell’utilizzo di codice generato con l’AI non verificato da programmatori umani.

https://www.hdblog.it/amazon/articoli/n651470/amazon-blackout-ai-cosa-successo-perche/

Questo problema non è un problema di IA ma un problema di procedure e di adattamento.

Nessuno darebbe in mano un servizio critico e pieni poteri su di esso a un jr.
Però lo si fa allegramente con un agente.

Capite da soli che il problema non è l’agente, vero?

1 Mi Piace

Io di sicuro, ma a quanto pare molti quadri e dirigenti molto meno.
Sono strumenti indubbiamente utili, efficaci ma di certo tutt’altro che perfetti. E ci vuole gente esperta per valutare i risultati ottenuti, me accorgo con i miei progetti. Certo tra difficoltà e tempi stretti difficile fare una revisione completa ma purtroppo servirebbe sempre…

Alla fine si torna sempre a tre questioni dominanti:

Quando puoi scrivi articoli che riguardino l’AI, specialmente se puoi incolparla di qualcosa :upside_down_face:
Un agente resta uno strumento, deve essere seguito per verificare cosa fa.
Quando integri nel sistema nuovo codice, devi sapere cosa stai facendo e verificarne il funzionamento.

Invece si torna sempre a vedere qualunque sviluppo informatico come qualcosa di “magico” :face_with_raised_eyebrow:

1 Mi Piace

Guarda, ci sta anche questo. Siamo ai primi giorni dell’IA, e dobbiamo ancora capirne vantaggi, svantaggi e rischi.

Qui c’è un post che è molto interessante, lo traduco per i non anglofoni.

Capite cosa sta succedendo in Amazon in questo momento?

A quanto pare, Kiro, il loro agente di programmazione basato sull’IA, ha “deciso” che il modo più rapido per risolvere un errore di configurazione fosse eliminare l’intero ambiente di produzione. Sparito. Un’interruzione di 6 ore. 6,3 milioni di ordini persi.

Il vicepresidente senior di Amazon ha convocato migliaia di ingegneri per una riunione obbligatoria questa settimana. Non per discutere di strategia. Per discutere di gestione dei danni.

Ora ecco la mia previsione, e voglio che facciate uno screenshot:

Amazon non si limiterà a vietare il codice generato dall’IA. Renderà ogni ingegnere personalmente responsabile del codice generato dall’IA che approva. Altre grandi aziende tecnologiche seguiranno l’esempio entro 6 mesi.

Pensate a cosa significa.

Le stesse aziende che hanno licenziato migliaia di ingegneri per “ristrutturare attorno all’IA” stanno per dire a quelli rimasti… ora siete legalmente responsabili del codice che non avete scritto, che non comprendete appieno e che vi è stato chiesto di rilasciare più velocemente.

Atlassian ha licenziato 1.600 persone stamattina per puntare tutto sull’intelligenza artificiale. Replit sta assumendo ragazzi che sanno programmare per istinto. E Amazon, l’azienda che ha CREATO uno di questi agenti di programmazione basati sull’IA, ha appena visto la sua produzione andare in tilt.

L’era della programmazione per istinto non sta finendo. Ma l’era del “muoviti in fretta e lascia che l’IA rompa le cose” sta per sbattere contro un muro. E quel muro si chiama responsabilità.

Le aziende volevano che l’IA sostituisse gli ingegneri. Ora hanno bisogno di ingegneri che facciano da babysitter all’IA. E hanno già licenziato i babysitter.

Gira un post da qualche parte, credo nel meraviglioso social dei tecno-entusiasti chiamato linkedementin, che racconta dell’uomo con la bandiera davanti alle auto. E critica questo fatto, senza capirlo.

Quando una cosa è nuova, devi capirla, prima di imparare a usarla e a farlo bene. Il che son già tre passaggi.
Ci sta, sono passaggi. Nessuno sa, oggi, come usare intelligentemente questi strumenti. Neanche voi che siete super cauti, neanche chi non li usa o ne usa il 20%. Perché non abbiamo una esperienza, come mente collettiva, di tutto quello che può fare e quello che può succedere.

Ergo: il problema siamo noi.

Poi si, c’è chi sperimenta in modo autolesionistico, chi rincorrendo la produttività a tutti i costi senza pensare alle conseguenze (nota a margine: che succede se claude si rompe per una mezza giornata?), chi scommettendo che “non succederà mai nulla” e poi quando succede mettendo una pezza.

Tempi interessanti. Attendo di vedere la faccia di tutti quelli che abbandonano ChatGPT o codex per buttarsi su Claude perché “funziona menglio, ha più token, non si blocca mai” (non è vero, siamo già a incidenti intermittenti, e sarà sempre peggio più la gente molla gli altri per gli incidenti intermittenti).

Tempi molto interessanti.

1 Mi Piace

Guarda secondo me il problema è proprio a monte. Non una questione di qualità, ma di responsabilità.
I colletti bianchi sognano di delegare le responsabilità a qualcun altro, scommettendo su un sistema legale che funziona e che i provider se la prendano volentieri questa responsabilità.

E io lo dico da anni ormai: chi si prende la responsabilità se la IA scrive una sentenza sbagliata, un pezzo di software errato, una diagnosi o una cura sbagliata, o fa un bonifico su un conto sbagliato?

Anche troppo. Quelli che dicevano “eh il secolo scorso ha avuto 2 guerre mondiali nel giro di 30 anni, a noi non sta accadendo nulla” (ossia la versione da bar della morte della Storia) vorrei vedere dopo pandemia, nuove guerre ad alta tecnologia dove non si sa dove si finirà, la Cina rampante e il consumismo sfrenato, cambiamenti climatici annessi e adesso le IA come strumento (e come hai detto siamo solo agli inizi), se possono dire la stessa cosa.

Claude è effettivamente un gradino o due sopra tutto quel poco che ho provato, e se la gente diverte in massa, alzerà i prezzi sia per limitare gli ingressi sia per pagare le infrastrutture e l’energia.

Ma davvero, prendersi la responsabilità per codice scritto in automatico significa che vuoi che io mi licenzi. Davvero, ho delle difficoltà a capire come usare o come rimediare, sto sperimentando io stesso le dinamiche di scrittura e di difficoltà, e soluzioni facili non ne vedo. La questione poi diventa ancora peggiore se si pensa che:

  • il codice scritto è di alto livello e complesso
  • serve un ingegnere senior che capisca tale livello
  • per raggiungere tale livello devi scrivere tanto, sbattere la testa altrettanto e lavorare in gruppo molto
  • come fai a formare gente se deleghi tutto all’automatico?
1 Mi Piace

Gpt 5.4 è avanti, diciamo alla pari, pare.

Ottima domanda, che non ha una risposta.

C’è da dire che, probabilmente, la richiesta non sarà più quella di saper leggere il codice riga per riga, ma saper analizzare il “macrocontesto”.

Ieri ho fatto una app android da zero. Da zero a un PoC diciamo quasi “production level” a guardarlo.
Abbiamo dovuto fare un po’ di debugging. Firebase e VertexAI.
Codice non l’ho toccato: ho dovuto indirizzare claude, con spirito critico. Ma è andato tutto molto liscio.

2 Mi Piace

Invece per il mio progetto sto riscontrando difficoltà oggettive, vediamo se si riesce a risolvere mano mano.
Tipo, mi dice “i valori in ingresso alla funzione Y, che arrivano dalla funzione X, sono fuori scala. Ti propongo di limitarli entro la scala!”
E rispondi “Mi stai dicendo che la funziona X sbarella e tu mi proponi di nascondere i risultati effettivi con un limite imposto?”
“Uh è vero”

Eh, capisci che lavorare così significa davvero stare sul chi va là, altro che perdiamo tutti il lavoro
Oggi. Domani è del tutto imprevedibile.

2 Mi Piace

Beh, il suo approccio non è sbagliato, dal contesto che mi dici.
E forse il punto è anche questo: come gli poni il problema?
Forse dovresti elaborare un po’ la soluzione. Esempio.

“L’errore è nella funzione X. Ci si attende che con valori in ingresso tra a e b i valori in uscita siano tra c e d. Analizza la funzione e prova a verificare se ci sono punti in cui l’algoritmo non tiene conto del range”

Poi, che modello usi? haiku? Sonnet High effort?

Hai impostato un CLAUDE.md con delle linee guida?
Hai dei test per fare validazione?

A dire il vero era Gemini 3, mentre Claude opus 4.6 è bello solido. Alla domanda se un test esplodeva perché era una condizione anomala impossibile da riprodurre o una instabilità intrinseca, ha confermato la seconda ipotesi, ha trovato una debolezza in una approssimazione usata per velocizzare e usato un unit test per conferma, lanciandolo esso stesso.
Indovina quale abbonamento disdirò?
Anche Deepseek non è malaccio ma commette molto errori, come se mancasse di coerenza.

Ovviamente tutti vanno guidati non dico passo passo, ma appunto, sperare che questi modelli siano la soluzione assoluta, ecco, ci ripenserei.

E come possa evolversi la situazione è del tutto impredicibile.

E niente, dove sono adesso c’è una Ai proprietaria che ti invitano a usare anche solo per chiedere di fare un riassunto di due documenti (difficoltà uno: trovare i due documenti da passare alla Cosa. Difficoltà due: capire come passarglieli, che non è che glieli spari nella chat).

Questo durante un coro obbligatorio, di quelli che ti dicono: “si fa in un’ora” e, senza aiuti, ce ne vogliono tre. Se invece usi edge e Copilot, 20 minuti. Quindi, come tutti i colleghi, ho usato Copilot. Bravetto, ha risolto quasi tutti i quiz senza manco seguire il tutorial - ha sbagliato solo un paio di domande, ma il goal era “80%” e con lui sono arrivato oltre l’87 un po’ ovunque.

Poi lo uso (Copilot, non la Cosa proprietaria, che fa cagare) per convertire qualche pezzo di codice in chiave più moderna, tipo che gli passo una query e gli chiedo di tradurla in Linq. Lo fa abbastanza bene, ma va sempre controllato tutto, che ogni tanto sbaglia come fosse un Babbano…

Mai, però, mi sognerei di fargli fare un programma completo o un’app da zero, a meno che non fosse qualcosa di veramente basico e piccolo. Ma se è basico e piccolo, lo faccio da me, perbacco.

Invece per superare gli esami è un valido aiuto.

1 Mi Piace

Le cose custom in produzione sono la cosa più ridicola che questo trend abbia prodotto. Vorrei avere abbastanza pelo sullo stomaco per venderle, queste cose.

La mia azienda lo fa! (Non è il mio ramo però)