On le sait, Perplexity s'imagine bien concurrencer frontalement Google et l'entreprise a récemment lancé une interface de programmation dédiée aux développeurs. Ces derniers peuvent désormais accéder à son infrastructure de recherche avec des temps de réponse inférieurs à 400 millisecondes et un classement hybride combinant méthodes lexicales et sémantiques.

Perplexity AI s'est d'emblée distingué en combinant recherche et intelligence artificielle. Cette fois, la société franchit une nouvelle étape avec le lancement de son API de recherche. Cette interface permet aux développeurs d'accéder directement à l'infrastructure, laquelle alimente le moteur de recherche public de l'entreprise, capable de traiter plus de 200 millions de requêtes quotidiennes.
Une architecture technique optimisée pour l'intelligence artificielle
L'API de Perplexity repose sur une architecture multicouche. Le système combine un stockage de plus de 400 pétaoctets de données "chaudes" avec des modèles d'apprentissage automatique. Ces derniers prédisent l'importance des URL en fonction de critères comme la fréquence de mise à jour. Cette infrastructure indexe des centaines de milliards de pages web en traitant les mises à jour à un rythme de dizaines de milliers par seconde.
Le processus de récupération s'effectue en plusieurs étapes : une récupération hybride initiale génère des candidats, un préfiltrage élimine les contenus non pertinents, puis un classement progressif applique des modèles lexicaux, sémantiques et des cross-encodeurs. Ces derniers sont capables de comparer la requête et un extrait de texte pour vérifier précisément s’ils correspondent, et si la réponse est adaptée. Cette approche permet d'obtenir une latence médiane de 358 millisecondes, nettement inférieure aux 1375 millisecondes d'alternatives comme Exa.
Le module de compréhension est capable de découper chaque page web en fragments. De cette manière, l'IA peut s’adapter à la structure de chaque site et, même si elle ne peut pas analyser un très long texte d’un seul coup, cela lui permet de ne pas perdre d’informations importantes.

Les modèles Sonar ultra rapides
L'API s'appuie sur les modèles propriétaires Sonar de Perplexity, construits sur la base de Llama 3.3 70B et optimisés pour la recherche. Ces derniers se déclinent en plusieurs variantes : Sonar standard, Sonar Pro et Sonar Reasoning, chacune adaptée à des besoins spécifiques.
Le modèle Sonar standard atteint une vitesse de décodage de 1200 tokens par seconde, soit près de 10 fois plus rapide que des modèles comparables comme Gemini 2.0 Flash. Dans les évaluations comparatives menées par Perplexity, Sonar surpasse GPT-4o mini et Claude 3.5 Haiku en termes de satisfaction utilisateur tout en s'approchant des performances de GPT-4o à une fraction du coût.
L'API propose trois modes de recherche (élevé, moyen, faible) permettant aux développeurs d'ajuster le niveau de profondeur contextuelle selon leurs besoins spécifiques. Le mode élevé assure une couverture maximale pour les requêtes complexes nécessitant plusieurs étapes de raisonnement.
La tarification de l'API s'établit à 5 dollars pour 1000 requêtes pour le modèle Sonar standard, avec des coûts de 1 dollar par million de tokens en entrée et sortie. Les modèles de raisonnement (Sonar Reasoning) sont facturés entre 1 à 2 dollars par million de tokens d'entrée et 5 à 8 dollars par million de tokens de sortie.
- Sources mises en avant
- Fraicheur des résultats
- Envoi de fichiers pour traitement