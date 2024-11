MattS32

Bestdoud: Bestdoud: Quel est l’usage d’un data center pour l’IA ?

Est ce de la donnée ? Ou juste de la puissance de calcul ?

Si c’est de la donnée est ce que du coup on restock de la donnée déjà stockée quelque part puisque l’IA recupere de l’info d’internet ?

De base, l’élément principal qui est nécessaire, c’est effectivement la puissance de calcul.

Côté données, il y a 3 cas à distinguer :

l’entraînement d’un modèle,

la simple exécution d’un modèle existant,

l’utilisation d’un modèle existant avec accès à des données complémentaires.

Pour l’entraînement, il faut un énorme stock de données, éventuellement enrichies de métadonnées pour l’apprentissage (par exemple, pour un modèle de reconnaissance d’images, on va avoir un gros stock d’images, et pour chaque image des annotations décrivant leur contenu, généralement faites par un humain ou par une autre IA puis vérifiée par un humain). Ces données viennent souvent d’Internet, mais il est très fortement préférable de les copier localement pour des questions de performance et de reproductibilité (une image distante identifiée par son URL, son contenu peut éventuellement changer…).

Pour l’utilisation d’un modèle, les seules données nécessaires sont le modèle lui même (quelques dizaines ou centaines de Go, selon la taille du modèle, à répliquer sur tous les noeuds).

Pour l’utilisation d’un modèle avec un enrichissement, il faut en plus fournir des données d’enrichissement, mais là il n’est pas forcément nécessaire de les stocker dans le datacenter, elles peuvent être cherchées via un moteur de recherche externe. L’idée à ce niveau c’est que quand tu demandes quelque chose à ton modèle, au lieu de simplement lui passer la question brute et de le faire répondre seul, on fait un prétraitement qui à partir de la question va aller chercher des documents qui pourraient être pertinents sur le sujet, puis ces documents sont envoyés au modèle avec la question pour qu’il les utilise dans la construction de la réponse. Donc en théorie, on peut tout a fait faire une bête requête sur un moteur de recherche public pour aller chercher des documents et les utiliser, sans avoir à les stocker dans le DC. En pratique, on aura tout de même généralement de meilleurs résultats si le service construit son propre index, comme le fait un moteur de recherche, car l’index pourra alors être optimisé pour cet usage. En particulier, on va pouvoir utiliser son propre algorithme de recherche par proximité sémantique en langage naturel, qui pourra être dérivé du modèle IA, sémantique pour trouver des documents, plutôt que d’être « limité » par les capacités d’un moteur de recherche public, pas forcément toujours très bons pour le langage naturel.

Dans ce dernier cas, on va du coup, en plus du modèle, stocker à minima l’index, et éventuellement aussi une partie des documents qui ont servi à le construire, mais pas tout, ça serait vite trop gros… On garde plutôt une référence, et tant pis si le document fini par ne plus être accessible, on le retirera alors de l’index.