Google expanderar nu tillgängligheten för sin senaste och mest avancerade ljudbaserade AI-teknologi.
Genom en bredare utrullning integreras nu funktionen Gemini 3.5 Live Translate i ett flertal av företagets populära applikationer. Denna innovativa ljudmodell har utvecklats med det specifika syftet att hantera sömlös och omedelbar översättning direkt från tal till tal, vilket markerar ett stort framsteg inom digital kommunikation.
Kontinuerlig tolkning utan stela pauser
Den absolut största tekniska milstolpen med det nya systemet är hur själva bearbetningen av språket sker. Äldre och traditionella översättningsverktyg bygger vanligtvis på en sekventiell princip där programvaran måste vänta tills en talare har pratat klart innan den kan analysera meningen och påbörja konverteringen. Detta resulterar ofta i onaturliga och långa avbrott i ett samtal.
Med Gemini 3.5 Live Translate sker tolkningen istället helt kontinuerligt. AI-modellen arbetar parallellt med det levande talet och ligger endast ett fåtal sekunder bakom konversationen i realtid, vilket gör att dialogen kan flyta på ett betydligt mer naturligt sätt. Systemet har dessutom kapacitet att per automatik identifiera över 70 olika språk, där det svenska språket finns inkluderat från start.
Bevarar talarens unika röstkaraktär och tonläge
Utöver den rena översättningshastigheten har Google lagt stort fokus på den audiella slutprodukten. När den artificiella intelligensen genererar det nya talet på målspråket sker detta inte med en generisk robotröst. Istället har modellen förmågan att analysera och återskapa originaltalarens unika röstegenskaper. Det innebär att parametrar som:
- Specifikt röstläge och personlig klang.
- Talets naturliga tempo och rytmik.
- Känslomässiga nyanser och tonhöjd.
Genom att bevara dessa akustiska element blir den syntetiska rösten betydligt mer trovärdig och personlig för den som lyssnar.
Bred lansering till Android, iOS och Google Meet
Utrullningen av den nya ljudmodellen har inletts och mjukvaran implementeras i ett första skede i den fristående applikationen Google Translate, tillgänglig för både Android- och iOS-enheter.
För användare som kör Googles egna operativsystem, Android, tillkommer dessutom en exklusiv funktion i form av ett dedikerat lyssningsläge. Detta läge är utformat för att öka integriteten vid känsliga samtal på allmänna platser. Genom att hålla mobiltelefonen mot örat – precis som under ett helt vanligt telefonsamtal – kan användaren ta del av den tolkade ljudströmmen utan att personer i den omedelbara omgivningen kan höra vad som sägs.
Planerna sträcker sig även bortom enbart mobila applikationer. Senare under det innevarande året kommer Google att expandera tekniken till sina videokonferenstjänster. Modellen ska då integreras i Google Meet för att erbjuda automatisk och direktsänd live-översättning under pågående videomöten, vilket förväntas underlätta internationella affärsrelationer och globalt samarbete.

