DeepSeek : tout ce que vous devez savoir sur l'application de chatbot IA

DeepSeek est devenu viral.
Le laboratoire chinois d'intelligence artificielle DeepSeek a fait son entrée dans le grand public cette semaine après que son application de chatbot se soit hissée au sommet des classements de l'App Store d'Apple ( et de Google Play également ). Les modèles d'IA de DeepSeek, qui ont été formés à l'aide de techniques de calcul efficaces, ont conduit les analystes de Wall Street ( et les technologues ) à se demander si les États-Unis peuvent conserver leur avance dans la course à l'IA et si la demande de puces IA va se maintenir.
Mais d’où vient DeepSeek et comment a-t-il acquis si rapidement une renommée internationale ?
DeepSeek est soutenu par High-Flyer Capital Management, un fonds spéculatif quantitatif chinois qui utilise l'IA pour éclairer ses décisions de trading.
Liang Wenfeng, passionné d'IA, a cofondé High-Flyer en 2015. Wenfeng, qui aurait commencé à s'intéresser au trading alors qu'il était étudiant à l'Université du Zhejiang, a lancé High-Flyer Capital Management en 2019 en tant que fonds spéculatif axé sur le développement et le déploiement d'algorithmes d'IA.
En 2023, High-Flyer a lancé DeepSeek, un laboratoire dédié à la recherche d'outils d'IA distinct de son activité financière. Avec High-Flyer comme l'un de ses investisseurs, le laboratoire s'est transformé en sa propre entreprise, également appelée DeepSeek.
Dès le premier jour, DeepSeek a construit ses propres clusters de centres de données pour la formation des modèles. Mais comme d’autres entreprises d’IA en Chine, DeepSeek a été affectée par les interdictions d’exportation de matériel imposées par les États-Unis . Pour former l’un de ses modèles les plus récents, l’entreprise a été obligée d’utiliser des puces Nvidia H800, une version moins puissante d’une puce, la H100, disponible pour les entreprises américaines.
L'équipe technique de DeepSeek est réputée pour être composée de jeunes. Selon le New York Times, l'entreprise recruterait activement des chercheurs en IA titulaires d'un doctorat dans les meilleures universités chinoises. DeepSeek embauche également des personnes sans aucune formation en informatique pour aider ses techniciens à mieux comprendre un large éventail de sujets.
DeepSeek a dévoilé sa première série de modèles — DeepSeek Coder, DeepSeek LLM et DeepSeek Chat — en novembre 2023. Mais ce n'est qu'au printemps dernier, lorsque la startup a publié sa famille de modèles DeepSeek-V2 de nouvelle génération, que l'industrie de l'IA a commencé à en prendre note.
DeepSeek-V2, un système d'analyse de texte et d'images à usage général, a obtenu de bons résultats dans divers tests d'IA et était bien moins cher à utiliser que les modèles comparables de l'époque. Il a forcé les concurrents nationaux de DeepSeek, notamment ByteDance et Alibaba, à réduire les prix d'utilisation de certains de leurs modèles et à en rendre d'autres entièrement gratuits.
DeepSeek-V3 , lancé en décembre 2024, n'a fait qu'ajouter à la notoriété de DeepSeek.
Selon les tests de référence internes de DeepSeek, DeepSeek V3 surpasse les modèles téléchargeables et disponibles ouvertement comme Llama de Meta et les modèles « fermés » qui ne sont accessibles que via une API, comme GPT-4o d'OpenAI.
Le modèle de « raisonnement » R1 de DeepSeek est tout aussi impressionnant. Publié en janvier, DeepSeek affirme que R1 fonctionne aussi bien que le modèle o1 d'OpenAI sur des tests de performance clés .
En tant que modèle de raisonnement, R1 se vérifie lui-même, ce qui lui permet d'éviter certains des pièges qui font généralement trébucher les modèles. Les modèles de raisonnement prennent un peu plus de temps (généralement quelques secondes ou minutes de plus) pour arriver à des solutions par rapport à un modèle non raisonné classique. L'avantage est qu'ils ont tendance à être plus fiables dans des domaines tels que la physique, les sciences et les mathématiques.
Cependant, R1, DeepSeek V3 et les autres modèles de DeepSeek présentent un inconvénient. En tant qu’IA développée par la Chine, ils sont soumis à des tests de référence par le régulateur chinois de l’Internet pour garantir que leurs réponses « incarnent les valeurs fondamentales du socialisme ». Dans l’application de chatbot de DeepSeek, par exemple, R1 ne répondra pas aux questions sur la place Tiananmen ou l’autonomie de Taïwan.
Si DeepSeek a un modèle économique, on ne sait pas exactement de quoi il s'agit. L'entreprise fixe des prix bien inférieurs à la valeur marchande de ses produits et services, et en offre d'autres gratuitement.
Selon DeepSeek, les avancées en matière d'efficacité lui ont permis de maintenir une compétitivité extrême en termes de coûts. Certains experts contestent toutefois les chiffres fournis par l'entreprise.
Quoi qu'il en soit, les développeurs ont adopté les modèles de DeepSeek, qui ne sont pas open source au sens où l'on l'entend généralement, mais sont disponibles sous des licences permissives qui permettent une utilisation commerciale. Selon Clem Delangue, le PDG de Hugging Face, l'une des plateformes hébergeant les modèles de DeepSeek, les développeurs de Hugging Face ont créé plus de 500 modèles « dérivés » de R1 qui ont accumulé 2,5 millions de téléchargements au total.
Le succès de DeepSeek face à des rivaux plus importants et mieux établis a été décrit comme une « révolution de l'IA » et « surfaite ». Le succès de l'entreprise a au moins en partie contribué à la chute de 18 % du cours de l'action de Nvidia lundi et à la réaction publique du PDG d'OpenAI, Sam Altman.
Microsoft a annoncé que DeepSeek est disponible sur son service Azure AI Foundry , la plateforme de Microsoft qui regroupe les services d'IA pour les entreprises sous une seule bannière. Interrogé sur l'impact de DeepSeek sur les dépenses d'IA de Meta lors de sa conférence téléphonique sur les résultats du premier trimestre, le PDG Mark Zuckerberg a déclaré que les dépenses consacrées à l'infrastructure d'IA continueront d'être un « avantage stratégique » pour Meta.
Parallèlement, certaines entreprises interdisent DeepSeek , tout comme des pays et des gouvernements entiers, dont la Corée du Sud . L'État de New York a également interdit l'utilisation de DeepSeek sur les appareils gouvernementaux .
Quant à l'avenir de DeepSeek, rien n'est encore certain. L'amélioration des modèles est une évidence. Mais le gouvernement américain semble de plus en plus méfiant à l'égard de ce qu'il perçoit comme une influence étrangère néfaste .
TechCrunch a une newsletter consacrée à l'IA ! Inscrivez-vous ici pour la recevoir dans votre boîte mail tous les mercredis.
Cette histoire a été initialement publiée le 28 janvier 2025 et sera continuellement mise à jour avec plus d'informations.
techcrunch