Le modèle text-embedding-3-small d’OpenAI est l’un des modèles d’embedding les plus utilisés pour les applications d’IA. C’est le choix privilégié des développeurs qui construisent des systèmes de recherche, de RAG (génération augmentée par récupération) et de classification. Voici tout ce que vous devez savoir.
Ce que c’est
text-embedding-3-small est un modèle d’embedding d’OpenAI qui convertit le texte en vecteurs numériques (embeddings). Ces vecteurs capturent le sens sémantique du texte, permettant la recherche de similarité, le regroupement et la classification.
Lorsque vous envoyez du texte au modèle, il renvoie un vecteur de 1 536 dimensions (par défaut). Les textes ayant des significations similaires produisent des vecteurs proches les uns des autres dans cet espace de haute dimension.
Spécifications clés
Dimensions : 1 536 (par défaut), peut être réduit à aussi peu que 256 en utilisant l’apprentissage de représentation Matryoshka. La réduction des dimensions permet d’économiser de l’espace de stockage et d’accélérer la recherche avec une perte de qualité minimale.
Entrée max : 8 191 tokens (~6 000 mots). Suffisamment long pour la plupart des documents et extraits.
Performance : Bonne performance sur des benchmarks standards (MTEB). Ce n’est pas le meilleur absolu, mais excellent pour sa taille et son coût.
Coût : 0,02 $ par million de tokens. Extrêmement bon marché — l’embedding d’un million de mots coûte environ 3 cents.
text-embedding-3-small vs. text-embedding-3-large
OpenAI propose deux modèles d’embedding dans la famille v3 :
text-embedding-3-small : 1 536 dimensions, 0,02 $/M tokens. Bonne performance, très économique.
text-embedding-3-large : 3 072 dimensions, 0,13 $/M tokens. Meilleure performance, 6,5 fois plus cher.
Pour la plupart des applications, text-embedding-3-small est le meilleur choix. La différence de qualité est faible, et les économies de coût sont significatives. Utilisez text-embedding-3-large uniquement lorsque vous avez besoin d’une précision de récupération maximale et que le coût n’est pas un souci.
Cas d’utilisation courants
Recherche sémantique. Convertissez des documents et des requêtes en embeddings, puis trouvez les documents les plus similaires pour toute requête. Cela alimente les fonctionnalités de recherche dans les applications d’IA, les bases de connaissances et les sites de documentation.
RAG (Génération augmentée par récupération). Le cas d’utilisation le plus courant. Intégrez vos documents, stockez-les dans une base de données vectorielle, et récupérez le contexte pertinent lorsque les utilisateurs posent des questions. Le contexte récupéré est ensuite transmis à un LLM pour générer des réponses précises.
Classification. Utilisez les embeddings comme caractéristiques pour la classification de texte. Les embeddings capturent le sens sémantique, rendant la classification plus précise que les approches basées sur les mots-clés.
Regroupement. Regroupez des documents similaires en fonction de leurs embeddings. Utile pour organiser de grandes collections de documents, identifier des sujets et détecter des duplicata.
Recommandation. Trouvez des articles similaires (produits, articles, contenu) en fonction de la similarité des embeddings. Plus nuancé que le rapprochement par mots-clés, car il comprend les relations sémantiques.
Comment l’utiliser
Utilisation de l’API OpenAI :
Appelez l’endpoint des embeddings avec votre texte et le nom du modèle « text-embedding-3-small ». L’API renvoie un vecteur que vous pouvez stocker dans une base de données vectorielle (Pinecone, Weaviate, ChromaDB, pgvector) ou utiliser directement pour des calculs de similarité.
Pour la réduction de dimension, passez le paramètre « dimensions » avec la taille souhaitée (par exemple, 256, 512, 1024). Le modèle utilise l’apprentissage de représentation Matryoshka pour produire des vecteurs plus courts qui conservent la plupart des informations sémantiques.
Conseils pour de meilleurs résultats
Divisez vos documents. Ne mettez pas des documents entiers en tant que vecteurs uniques. Divisez-les en morceaux de 200 à 500 tokens pour une meilleure précision de récupération.
Utilisez des morceaux significatifs. Divisez aux limites de paragraphe ou de section plutôt qu’à des comptes de tokens arbitraires. La cohérence sémantique au sein des morceaux améliore la qualité de récupération.
Envisagez la réduction de dimension. Pour des applications à grande échelle, réduire les dimensions de 1 536 à 512 ou 256 peut réduire considérablement les coûts de stockage et accélérer la recherche avec une perte de qualité minimale.
Normalisez les vecteurs. Pour la recherche de similarité cosinus, normalisez vos vecteurs. La plupart des bases de données vectorielles gèrent cela automatiquement.
Alternatives
Cohere Embed v3 : Qualité compétitive, supporte bien plusieurs langues.
Voyage AI : Forte performance, en particulier pour le code et le contenu technique.
BGE (BAAI) : Open-source, peut être exécuté localement. Bonne qualité pour une option gratuite.
Nomic Embed : Open-source avec une performance compétitive.
Mon avis
text-embedding-3-small est le choix par défaut pour la plupart des applications d’IA. Il est bon marché, rapide, facile à utiliser, et suffisamment bon pour la grande majorité des cas d’utilisation. Commencez ici, et envisagez d’autres options uniquement si vous avez des exigences spécifiques (meilleur support multilingue, déploiement local, ou précision maximale) qui justifient le changement.
🕒 Published: