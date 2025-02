Zonos se décline en deux modèles de 1,6 milliard de paramètres : un modèle basé sur des transformers et un modèle hybride combinant transformers et architecture Mamba (SSM). Ces deux modèles sont publiés sous la licence permissive Apache 2.0, permettant aux développeurs et chercheurs d’y accéder librement via des plateformes comme Hugging Face et GitHub.

Entraînés sur un vaste corpus de 200 000 heures d’audio multilingue (anglais, chinois, japonais, français, espagnol et allemand), ces modèles peuvent générer une voix synthétique réaliste à partir d’un court échantillon audio. Les utilisateurs peuvent également ajuster divers paramètres tels que le débit de parole, la hauteur tonale ou encore l’émotion exprimée (joie, tristesse, colère). La sortie audio est produite en haute fidélité à 44 kHz.