Autentificarea în serviciile bancare prin apel telefonic a fost concepută pe un amestec de „ce știi” (PIN, întrebări de securitate), „ce ai” (număr de telefon, coduri OTP trimise prin SMS sau apel automat) și, mai recent, „ce ești” (biometrie vocală).
Problema de fond este că, în 2024–2026, clonarea vocală asistată de inteligență artificială a devenit suficient de ieftină, accesibilă și rapidă încât să erodeze în mod direct încrederea în voce ca dovadă de identitate, mai ales acolo unde vocea este folosită ca factor primar sau ca și accelerator al verificării. Platforme comerciale oferă clonare vocală instant la prețuri de ordinul câtorva dolari pe lună și, în unele cazuri, din doar câteva secunde de eșantion audio, iar conversia vocală de tip streaming cu latență mică este fezabilă din cloud chiar și prin dispozitive mobile, ceea ce schimbă profilul de risc pentru atacuri în timp real, inclusiv în apeluri.
În același timp, rapoarte și alerte instituționale indică o intensificare a fraudelor asistate de AI generativ: autorități financiare cer explicit instituțiilor să trateze deepfake-urile ca vector de fraudă (de exemplu, prin documente de identitate false și identități sintetice), iar analiza incidentelor din sectorul financiar european arată că ingineria socială rămâne un motor principal al pierderilor și al compromiterii datelor, inclusiv prin canale vocale. Riscul specific pentru telefonie nu este doar clonarea vocii, care trece de biometrie, ci și efectul de amplificare a credibilității în atacuri de inginerie socială.
Acest articol tratează fenomenul fără o țară sau o bancă specificată, folosind exemple publice din spațiul european și american și documentație publică de la bănci, agenții de securitate, reglementatori și lucrări academice. Diferențele locale din România nu inversează tendința: vocea nu mai poate fi considerată, de una singură, ceva greu de replicat.
Clonare vocală AI în timp real?
Clonarea vocală modernă folosește, în practică, două familii de tehnici care contează direct pentru apelurile către bancă: sinteza text-to-speech (TTS) și conversia vocală (VC), adică transformarea în timp real a vocii atacatorului în timbrul vocal original. TTS este suficient pentru tactici cu un mic scenariu (apeluri automatizate, mesaje vocale, răspunsuri scurte), dar conversia vocală este cea care face posibilă impostura conversațională în call center, deoarece atacatorul poate vorbi liber, iar sistemul îi convertește vocea în timp real. Literatura recentă arată explicit că voice conversion în regim streaming, cu latență mică, este aplicabilă în scenarii de comunicare în timp real precum apeluri și videoconferințe, inclusiv pe platforme mobile, ceea ce elimină o barieră veche (nevoia de stații de lucru specializate și întârzieri mari).
Din punct de vedere economic, pragul de acces la servicii de clonare vocală a scăzut radical. Un exemplu clar este faptul că servicii comerciale oferă funcții de clonare vocală instant în planuri de aproximativ 5 USD/lună, iar paginile oficiale ale furnizorilor descriu clonarea instant ca realizabilă din doar câteva secunde de eșantion audio.
În paralel, alte platforme afișează tarife per utilizare de ordinul fracțiunilor de cent pe secundă pentru generare vocală și chiar pentru „voice changer”/speech-to-speech, adică exact clasele de funcționalitate care pot fi integrate într-un atac infracțional.
Din perspectiva datelor necesare, condiția critică este obținerea unei mostre de voce a țintei. Aici, riscul este clar: vocea este publicată frecvent (social media, mesajul din casuța vocală, podcasturi, videouri), iar unii actori din industrie au avertizat public că un eșantion foarte scurt poate fi suficient pentru generare convingătoare. Într-un exemplu notoriu, un instrument de clonare vocală dezvoltat de OpenAI (neoferit pe scară largă) a fost descris ca putând genera o clonă vocală realistă din circa 15 secunde de audio, iar organizația a prezentat explicit riscuri de abuz și a sugerat retragerea autentificării bazate pe voce pentru informații sensibile.
În același timp, instituții publice subliniază convergența dintre accesibilitate și eficiență: o alertă emisă de FinCEN (SUA) notează că instrumentele de generare AI public disponibile au redus substanțial resursele necesare pentru producerea de conținut sintetic de calitate și că unele instrumente sunt open-source, ceea ce permite modificarea codului și ocolirea controalelor de siguranță și legalitate. Această observație este esențială pentru bănci: chiar dacă un furnizor comercial aplică verificări de consimțământ, ecosistemul tehnic permite migrarea către alternative mai permisive.
Incertitudinile rămân însă semnificative și trebuie specificate: costul total al unui atac în timp real depinde de integrarea audio (rutare, captură, latență), de calitatea mostrei, de limba și stilul țintei și de nivelul de apărare al băncii (detecție deepfake, mai multe verificări etc). În plus, prețurile platformelor sunt volatile, iar unele oferă perioade de încercare gratuită sau politici de utilizare care se schimbă.
Cum autentifică băncile clienții, prin telefon?
Autentificarea telefonică bancară este, în practică, un sistem „hibrid”: call center, IVR (meniuri automate), uneori biometrică vocală și, tot mai des, verificări pe canal secundar (aplicație mobilă, OTP). Un exemplu explicit este o banca ( nu vom da denumiri) care prezintă un serviciu automat 24/7 și menționează atât un „telephone banking security number”, cât și opțiunea de „Voice ID” (crearea unei amprente vocale prin repetarea frazei „My voice is my password” de până la 5 ori). Pe aceeași pagină, banca descrie un mecanism de verificare în aplicație: în timpul apelului, serviciul sau consultantul inițiază o cerere în aplicația mobilă, pe care clientul o confirmă sau o respinge, ca verificare a identității.
Un alt exemplu descrie clar modelul clasic: pentru telefon ai „Customer Number, PIN and password”, iar „Voice ID” este un strat care poate elimina nevoia de PIN/parolă în apel. Relevant pentru discuția despre riscuri, banca arată că în procesul de activare a Voice ID se poate trimite un „one time passcode” către telefonul mobil în timpul apelului, adică un pas suplimentar bazat pe posesia dispozitivului.
Mai departe, unele bănci folosesc OTP nu doar prin SMS, ci și prin apel automat. De exemplu, o altă bancă descrie „extra security checks” în care clientul poate confirma în aplicație, poate primi un cod prin SMS sau poate primi un apel în care i se cere să rostească un cod afișat pe ecranul tranzacției sau al autentificării.
Acest model este relevant pentru clonare vocală deoarece mută centrul de greutate de la „cine sună” la „cine vede codul” (de regulă pe un canal digital), dar are alte slăbiciuni (inginerie socială, SIM swap, interceptare).
În România, comunicările publice anti-fraudă insistă pe un detaliu special: ID-ul apelantului nu este un semnal de autenticitate. Ministerul Afacerilor Interne descrie explicit spoofing-ul prin VoIP/CLI, inclusiv cazuri în care atacatorii au folosit identitatea DNSC pentru a obține informații personale/financiare.
Similar, o altă bancă ce ofer[ servicii în România avertizează că numărul afișat pe ecran poate fi manipulat și recomandă închiderea apelului și reapelarea pe un număr oficial (de exemplu cel de pe spatele cardului), subliniind că banca nu cere coduri de acces sau parole prin telefon.
Care sunt riscurile create de clonarea vocală și atacurile în timp real?
Riscul principal este preluarea contului prin trecerea de autentificare vocală. Aici clonarea vocală nu este doar un instrument, ci o substituție directă a semnalului biometric. În plus, multe implementări de voice ID sunt concepute să fie robuste la variații naturale (accent, pronunție, răceală), ceea ce implică existența unei toleranțe a sistemului; un FAQ public al unei bănci menționează explicit o toleranță de acceptare și faptul că verificarea se bazează pe felul cum vorbești, nu pe cuvintele exacte. Această filozofie de design, corectă practic, poate însă crește suprafața de atac dacă vocea poate fi generată sau convertită suficient de aproape de distribuția statistică a vocii reale.
În practică, multe fraude de call center nu au nevoie să spargă o amprentă vocală; ele au nevoie să convingă un om sau să forțeze un flux. Acesta este motivul pentru care clonarea vocală este un multiplicator de impact: dacă atacatorul poate suna de pe un număr care pare al băncii (spoofing) și poate vorbi cu vocea unei rude, a unui consultant sau chiar a victimei, crește probabilitatea ca victima să divulge coduri, să confirme acțiuni în aplicație sau să fie de acord cu schimbări de date. În România, autoritățile descriu spoofing-ul ca mascarea numărului real prin VoIP/CLI spoofing și avertizează direct să nu fie oferite date sensibile la telefon, chiar dacă numărul pare legitim.
Un risc important, adesea subestimat, este compunerea atacului în timp real. Un atacator poate combina VC streaming (voce clonată în conversație) cu elemente de inginerie socială și cu controlul canalului de OTP, obținut prin SIM swap sau prin persuasiune. Un raport ENISA arată explicit că, după un SIM swap fraudulos, atacatorul poate primi tot traficul de SMS și apeluri de voce destinat abonatului, inclusiv OTP-uri trimise prin SMS sau apeluri telefonice pentru logare în online banking.
Astfel, clonarea vocală nu concurează cu SIM swap-ul; îl completează: vocea crește probabilitatea de reușită în social engineering, iar SIM swap-ul crește probabilitatea de interceptare a factorului de posesie.
Mai există un vector care afectează direct autentificarea telefonică: manipularea procedurilor operaționale ale băncii. În documentația publică, o bancî descrie că, dacă linia este proastă sau e zgomot, sistemul poate să nu recunoască vocea și poate transfera către un agent, care va verifica prin întrebări de securitate.
Pentru un atacator, asta sugerează o strategie de degradarea deliberată a calității audio sau simularea unor condiții în care biometria nu funcționează, pentru a obține un canal de verificare mai slab.
La nivel macro, ingineria socială rămâne cea mai importantă tehnică a infractorilor pentru fraudă bancară, iar vocea este una dintre interfețele cele mai eficiente psihologic. Analiza ENISA pentru sectorul financiar european (ianuarie 2023–iunie 2024) arată nu doar că phishing/smishing/vishing sunt tactici recurente, ci și că aceste campanii au produs consecințe concrete: pierderi financiare, fraude la scară mare și expunere sau vânzare de date.
Incidente și studii de caz
Un reper important pentru limitările biometriei vocale, chiar înainte de democratizarea clonării AI, este cazul în care un jurnalist a reușit să treacă de verificarea vocală a unei bănci folosind vocea fratelui său geamăn (neidentic). Incidentul a fost relatat în presa generalistă și în presa de industrie și este relevant pentru că arată un fapt clar: sistemele de verificare a vorbitorului pot avea erori în spațiul real al vocii umane, iar atacatorul modern poate încerca să genereze artificial astfel de erori.
Un alt caz, devenit emblematic în discuția despre frauda vocală asistată de AI, este atacul de tip „directorul a dat comanda” în care o clonă vocală a unui șef a fost folosită într-un apel telefonic pentru a solicita un transfer de bani; presa a raportat un prejudiciu de ordinul sutelor de mii de euro și faptul că apelul a fost considerat suficient de convingător pentru a declanșa transferul. Este un studiu de caz de autentificare socială prin voce, exact mecanismul psihologic pe care îl exploatează vishing-ul împotriva clienților și a agenților bancari.
În 2024, tentativele de fraudă cu deepfake au vizat explicit și comunicarea corporativă, inclusiv prin întâlniri și canale audio/video; un caz documentat descrie un CEO important a fost ținta unui deepfake care a folosit clonare vocală și identitate vizuală pentru a încerca să obțină bani și date. Chiar dacă scenariul a fost de tip intalnire si nu call center, este relevant pentru instituțiile financiare deoarece atacatorii își rafinează agenda de autentificare socială, iar banca este, în final, o instituție de încredere care operează prin conversații.
În zona reglementară și de prevenție, un punct de cotitură este alerta FinCEN (noiembrie 2024), care notează o creștere a raportărilor de activitate suspectă ce indică folosirea deepfake media în scheme de fraudă ce țintesc instituții financiare și clienții lor, cu accent pe documente de identitate frauduloase și identități sintetice folosite pentru a ocoli verificări de identitate și autentificare.
În România, autoritățile au comunicat public atât despre spoofing (apeluri care par a veni de la instituții), cât și despre fraude în care AI este folosită pentru a clona vocea și a crea urgență emoțională („accident”, „am nevoie de bani acum”), scenariu descris explicit într-o știre care citează avertizări oficiale și evidențiază că atacatorii pot folosi câteva secunde de audio găsit de pe rețele sociale.
Rapoarte de industrie bazate pe telemetrie proprie susțin creșteri foarte mari ale „deepfake activity” în call center și oferă cifre de ordinul miliardelor de apeluri analizate; aceste date sunt utile ca semnal, dar vin cu incertitudini privind definirea incidentului și lipsa auditului public complet al metodologiei.
Există limitări tehnice?
Deși clonarea vocală a devenit accesibilă, ea nu este magică: performanța depinde de canal, de calitatea audio și de adaptarea la condițiile din teren. Exact această problemă apare în cercetarea de securitate a biometriei vocale: telefonia reală ajută uneori atacatorul (ascunde imperfecțiuni), dar complică și atacul (introduce distorsiuni care pot destabiliza conversia).
Pe partea de apărare, există rezultate promițătoare în detecția deepfake audio, dar ele sunt adesea dependente de seturile de date și de condiții. Generalizarea rămâne punctul sensibil: chiar și sisteme foarte bune pe un dataset pot pierde eficiență când apare un alt codec, alt tip de compresie sau altă tehnică de generare.
Există și limitări operaționale care, paradoxal, pot reduce riscul, dar pot crea vulnerabilități. De exemplu, o bancă descrie explicit că nu poate recunoaște vocea dacă linia este proastă sau e zgomot și că, în astfel de cazuri, poate transfera către un agent care verifică prin întrebări de securitate. Această realitate operațională este un semnal important: dacă un flux de securitate depinde de calitatea audio, atacul nu trebuie neapărat să treacă de biometrie; poate doar să o facă indisponibilă, forțând un canal alternativ mai slab.
În fine, trebuie separată unicitatea biometrică de controlul identității. Băncile tind să explice că voiceprint-ul nu este o înregistrare și că este o reprezentare digitală stocată la bancă, ceea ce poate fi adevărat ca model de date, dar nu rezolvă problema principală a clonării: atacatorul nu trebuie să fure amprenta vocală; trebuie doar să producă suficient de fidel semnalul de intrare pentru a trece pragul de acceptare. Chiar și mesajele publice care afirmă că nimeni nu poate copia amprenta vocală trebuie citite în 2026 ca afirmații de marketing sau ca referințe la furtul direct al șablonului, nu ca garanții împotriva generării sintetice a vocii.
Cum ne apărăm?
O apărare realistă pornește de la o premisă incomodă: vocea trebuie tratată ca un semnal observabil public, nu ca un secret. În practică, asta mută designul de securitate de la recunoașterea vocii la dovada de control: controlul dispozitivului (aplicație cu chei criptografice), controlul unei sesiuni (confirmare în aplicație), controlul unui token hardware, plus o evaluare de risc în timp real.
Un model robust pentru call center este verificare stratificată cu pași adaptivi. Atunci când cererea este cu risc scăzut (de exemplu, informații generale) pot fi acceptate mecanisme convenabile; când cererea devine cu risc (resetare parole, schimbare număr, ridicare limite, adăugare beneficiar, inițiere tranzacție), se declanșează obligatoriu un pas de confirmare pe un canal greu de falsificat vocal, cum este a confirma sau respinge în aplicație, exact tipul de mecanism descris public de multe bănci.
Pentru OTP-urile livrate prin SMS sau apel, mitigarea trebuie să recunoască explicit riscul de SIM swap și de inginerie socială. Raportul ENISA despre SIM swapping arată clar că atacatorul poate intercepta atât SMS, cât și apeluri care conțin OTP, iar acest lucru lovește direct posesia bazată pe numărul de telefon.
Prin urmare, o bancă prudentă tratează canalul PSTN ca și convenabil, dar atacabil, și îl combină cu semnale de risc (schimbare recentă SIM, schimbare IMEI, portare număr, logări din locații neașteptate), plus limitări operaționale (de exemplu, nu schimbă numărul de telefon în aceeași sesiune în care se confirmă o operațiune mare).
Detecția deepfake audio este o componentă necesară, dar nu suficientă. Rezultatele din lucrări recente arată că detecția poate fi performantă în condiții controlate și mai fragilă în telefonia reală. În practică, această detecție trebuie să fie integrată cu măsuri procedurale: dacă detectorul ridică scor de risc, se trece pe un canal preînregistrat, se cere confirmare în aplicație sau se amână acțiunea până la o verificare suplimentară.
Un atac blocabil, realist pentru o bancă, înseamnă că vocea poate rămâne un semnal de conveniență, dar niciodată cheia finală pentru acțiuni cu risc; autentificarea devine un proces, nu un moment unic.
Recomandările practice pentru clienți trebuie să fie executabile, nu abstracte. În România, atât autoritățile, cât și băncile insistă pe două gesturi: închiderea apelului și apelarea înapoi pe un număr oficial, respectiv refuzul de a comunica date de autentificare sau coduri.
În plus, acolo unde banca oferă confirmare în aplicație, regula de aur este „nu confirma nimic ce nu ai inițiat”; mecanismul e eficient tocmai pentru că poate opri o conversație convingătoare.
Pentru instituțiile financiare, recomandările trebuie să plece de la realități de cost și reputație. Un comunicat public al unei bănci afirmă că VoiceID ar fi prevenit fraude de sute de milioane de lire sterline într-un an și că sistemul identifică apeluri frauduloase la scară mare; chiar dacă cifrele sunt ale băncii și nu pot fi auditate complet din exterior, mesajul este limpede: telefonia rămâne un canal preferat de infractori, iar investiția în controale are un potențial mare.
Măsurile cele mai valoroase sunt cele care reduc puterea apelului: limitarea strictă a acțiunilor executabile exclusiv prin telefon, obligativitatea de pasi suplimentari pentru schimbări de date, monitorizarea resetărilor și un program de instruire a agenților pentru recunoașterea pretextelor și a presiunii psihologice, conform practicilor recomandate în ghiduri de risc și în literatura de supraveghere a autentificării.
Discuția despre autenticitatea vocii capătă o dimensiune de politici publice mai largă: dacă semnalul vocal poate fi falsificat ieftin, instituțiile au un interes legitim să își reducă dependența de voce ca probă de identitate. Acest argument apare nu doar în comentarii de industrie, ci și în dezbateri publice și în avertizări privind riscurile de securitate în finanțe, inclusiv în afirmații publice că autentificarea vocală ar trebui retrasă ca mecanism suficient pentru acces la resurse sensibile.
În final, trebuie explicitată o incertitudine importantă: datele de incident pentru clonare vocală aplicată direct la telefon banking sunt fragmentate, iar multe cazuri rămân fie neraportate, fie raportate fără detalii tehnice. Asta înseamnă că proiectarea contramăsurilor nu poate folosi statistici perfecte, ci trebuie să se bazeze pe semnale diverse: scăderea costului de clonare vocală, apariția conversiei în timp real, persistența vishing-ului și mutarea fraudelor către scenarii de păcălire din ce în ce mai credibile.

Anonim