Insanely Accurate Lip Synching Tech kunne slå falske nyhedsvideoer til et rigtigt problem

Adam Clark Estes 02/26/2018. 21 comments
Fake News Computer Vision Artificial Intelligence Ai Computer Learning Neural Networks Research

Forestil dig det værste tilfælde. Dubious filmskapere bruger kunstigt intelligente computere til at fodre rå lyd til en simuleret version af Barack Obama. Lyden er faktisk Obamas stemme, og ansigtet er virkelig hans ansigt. Men læbebevægelserne? Helt falsk. Filmmyndighederne offentliggør videoen på internettet, og det er næsten umuligt at se, at det er en falsk, fordi teknologien er så god. Dette er ikke en hypotetisk situation mere.

Forskere ved University of Washington har udviklet en metode, der bruger maskine læring til at studere Obama's ansigtsbevægelser og derefter gøre en ægte læbebevægelse til noget stykke lyd. Det betyder, at de kan lave videoer af Obama, der siger stort set alt, hvad de vil, uanset hvad de vil have. Effekten fungerer særdeles godt, når de bruger tilfældig lyd af Obamas stemme-sige, en gammel optagelse af Obama som lovstudent - og få det til at se ud som, at Obama sagde disse ting i går.

Denne nye udvikling bygger på en voksende undersøgelse af at skabe realistiske videoer af folk, der taler uden at optage dem med et videokamera. Tidligere blev en lignende lipsynkroniserende effekt opnået ved at optage flere mennesker, der siger de samme sætninger igen og igen for at fange de specifikke mundbevægelser, der er nødvendige for at gøre hver lyd. Universitetet i Washington-teamet strømlinede denne proces imidlertid ved at fodre store mængder optagelser, der viste en person (Obama), der talte ind i et neuralt netværk, og brugte algoritmer til at bestemme forskellene i mundbevægelser. De valgte Obama, fordi der er så mange timers Obama, der taler om video i det offentlige område.

Det lipsynkroniske problem er en særlig udfordrende, siger forskerne, fordi mennesker er utroligt gode til at spotte små visuelle unøjagtigheder i tale. "Hvis du ikke gør tænderne ret eller hagen bevæger sig på det forkerte tidspunkt, kan folk mærke det med det samme, og det kommer til at se falsk," siger forfatterforfatteren Supasorn Suwajanakorn i en redegørelse . "Så du er nødt til at gøre mundområdet perfekt til at komme ud over den uhyggelige dalen."

For den ultimative demo bruger forskerne år gammel lyd fra Obama, der taler om et taleshow og et nyhedsbesætningsmedlem hos Harvard og dernæst opretter en ny video af Obama i Oval Office, der reciterer linjerne. Det er ikke perfect , men det er forbandet tæt.

Det nye gennembrud bygger på det samme universitet i Washington research teamets tidligere arbejde med at træne computere til at genkende bestemte personas , som Tom Hanks. Ved at identificere hvilke træk, der gør et bestemt ansigt og dets udtryk unikke, udviklede holdet en metode, der ville give dem mulighed for at skabe bevægelse, 3D-gengivelser af et bestemt ansigt ved hjælp af et foto eller et kort videoklip. Derefter kunne de effektivt slå simuleringerne i dukker. De lavede endda en simuleret Barack Obama giv en George W. Bush tale .

Selvfølgelig er der andre hold, der arbejder med lignende problemer rundt om i verden. Og ved du hvad? De bliver alle rigtig gode til at skabe utroligt realistiske falske videoer, selv med lavbudget udstyr. I forrige år oprettede et Stanford-team en metode til ansigtsgenerering, der kunne udføres med ethvert billigt forbrugerwebcam. Det er utroligt uhyggeligt.

Mens du kan forestille dig de konspiratoriske konsekvenser af teknologi som dette, er de praktiske anvendelser meget mere almindelige. For eksempel tror forskerne, at denne type teknologi ville gøre videochat bedre, da en computer kunne generere et billede af dig, der taler, hvis det altid forfærdelige video feed slår ud. Alternativt kan museer og forlystelsesparker bruge gamle optagelser af historiske figurer til at skabe videoer eller hologrammer, der viser dem at give berømte taler, ved hjælp af den faktiske lyd fra begivenhederne.

Men evnen til at bruge nem adgangsteknologi til at skabe falske billeder og video vokser stadig om dagen. Bare i forrige uge offentliggjorde sikkerhedsforsker Greg Allen en advarsel om slags i Wired : " Jeg vil gøre smedning alt helt for nemt ." Allen skriver:

Kombineret er baneområdet for billige højkvalitets medieforfalskninger bekymrende. I det nuværende tempo i fremskridt kan det være så lidt som to eller tre år, før realistiske lydforfalskninger er gode nok til at narre det uoplærede øre, og kun fem eller ti år før forfalskninger kan narre i det mindste nogle typer retsmedicinsk analyse. Når værktøjer til fremstilling af falsk video udfører højere kvalitet end dagens CGI og samtidig er tilgængelige for uuddannede amatører, kan disse forfalskninger omfatte en stor del af informationsøkosystemet. Væksten i denne teknologi vil forvandle betydningen af ​​bevis og sandhed på domæner på tværs af journalistik, regeringskommunikation, vidnesbyrd om strafferet og naturligvis national sikkerhed.

Som denne uges forskning viser, går det hurtigt, at tempoet i fremskridt er i gang. Den gode nyhed er, at teknologi som den, der udvikles ved University of Washington, også kan bruges til at spore mediernes forfalskninger. De dårlige nyheder godt, Allen opsummerer de dårlige nyheder ganske godt, når han siger, at denne teknologi vil "omdanne betydningen af ​​bevis og sandhed." Hvis du troede, at falske udseende nyhedswebsteder var et problem, forestil dig bare, hvad en helt falsk politibody video kunne gøre.

[ University of Washington , Wired ]

21 Comments

Matt
samnada
Admiral Asskicker
psydcarsss
liffie420
The-Guy-They-Warned-You-About
sssiamese
Darmok eats Challah at 12Nagra

Suggested posts

Other Adam Clark Estes's posts

Language