Denna “Frankenphone” är hemligheten med Pixel 3s porträttläge (foto)

där porträttläge av Google Pixel blev känd förra året genom att kombinera en neuralt nätverk och information som härrör från autofokus för fasdetektering (PDAF) för att bestämma vilka pixlar i fotot som motsvarar förgrundsobjektet och vilka som är en del av bakgrunden. Allt detta för att få en fin Bokeh-effekt även med de små sensorerna som finns i en smartphone, och uppdraget kan i princip sägas vara fullbordat. Åtminstone delvis.

Porträttläget för Pixel 3 har faktiskt gjort några steg framåt, övervunnit möjliga fel i den tidigare modellen och lagt till den information som hittills sett också andra “ledtrådar”På scenens skärpedjup. Till exempel är punkter som ligger längre bort från motivet i förgrunden redan mindre definierade än de som ligger närmast dig, och detta kan hjälpa till att skilja dem bättre. Även om man känner till den ungefärliga storleken på vanliga objekt kan antalet pixlar som utgör dessa objekt i fotot användas exakt för att uppskatta deras avstånd.

Ja, dessa “semantiska ledtrådar”Är det en rad komplikationer som Google kommer att behöva ta med i beräkningen när de bearbetar bilden, för att ha en mer förfinad djupkarta, och detta är inte alls enkelt. För att förenkla denna process har maskininlärning, utbildar ett fackligt neuralt nätverk, skrivet i TensorFlow, tack vare en “Frankenphone” bestående av 5 Pixel 3 “Smält” tillsammans. På detta sätt togs 5 bilder samtidigt (med en tolerans på cirka 2 millisekunder) av samma motiv i lite olika vinklar för att träna det neurala nätverket med foton som liknar de som användarna vanligtvis tar med sina smartphones (i exemplet en liten flicka, men vi vet inte hur många olika scener Google använde).

Det finns verkligen mycket arbete bakom en sådan sak, så mycket att man undrar om det verkligen är värt det och om det inte kan finnas hårdvarulösningar för att förenkla saker. A större sensor det kan verkligen hjälpa mycket, men det är storleken på smartphones själva som representerar en oöverstiglig begränsning, och det arbete som Google gör är bättre varje år.

För att uppskatta framstegen kan du titta på det här albumet på Google Foto eller ett litet utdrag i galleriet nedan. Skillnaden mellan “stereo” och “inlärda” bilder (dvs. med användning av maskininlärning som nämns ovan) är uppenbar och tjänar också till att illustrera gränserna för tekniken som används på Pixel 2. För ytterligare tekniska detaljer hänvisar vi till på länken till källan.

Källa: Google

Relaterade artiklar

Back to top button