Vers une banque de données pour mieux représenter le Québec dans les systèmes d'IA

Temps de lecture :
5 minutes
Par La Presse Canadienne, 2026
MONTRÉAL — Bibliothèque et Archives nationales du Québec (BAnQ) planchera au cours des prochains mois sur les premières fondations d'une banque de données devant alimenter les systèmes d'intelligence artificielle (IA) afin que ceux-ci tiennent compte des spécificités québécoises dans leurs résultats.
BAnQ amorce la phase expérimentation du projet de «Banque de données gouvernementales et culturelles en français et en langues autochtones», après avoir conclu plus tôt cette année une étude de faisabilité.
Le travail consistera notamment à mieux définir le modèle, le fonctionnement et les conditions d'utilisation des données de la future plateforme, explique la gestionnaire responsable de l'étude de faisabilité, Valérie D'Amour.
«Tous les scénarios sont un peu sur la table actuellement. (...) On a beaucoup d'idées et on veut valider les possibilités avec les milieux culturels, donc avec les propriétaires, les fournisseurs de données également, qui vont être mis à contribution dans les réflexions», dit Mme D'Amour en entrevue.
Il est toutefois établi que la future plateforme n'aura pas un rôle de diffusion des oeuvres et son accès sera bien encadré, soutient BAnQ. L'idée est de s'assurer que «globalement» les différents modèles d'IA soient dotés d'une intelligence artificielle québécoise, mentionne la présidente-directrice générale de BAnQ, Marie Grégoire.
«Ça veut dire qu'elle ait des référents québécois, que ce soit dans des petits modèles ou dans de grands modèles, qui soient issus de la recherche ou du milieu des affaires», explique-t-elle.
Ce genre d'initiative existe ailleurs dans le monde, comme en Suède avec le projet «The Nordic Pile», qui a regroupé de nombreux textes nordiques pour créer un premier grand modèle génératif pour les langues scandinaves, principalement le suédois. La base de données contient plusieurs types de sources, comme des textes de la Banque de littérature suédoise, des articles de journaux ou de l’information gouvernementale.
Au Québec, BAnQ prévoit d'abord commencer par ses propres corpus avant d'envisager d'intégrer des données d'autres provenances.
La culture québécoise «sous-représentée»
Le projet mené par BAnQ découle d'une recommandation du rapport du Conseil de l'innovation du Québec sur l'IA publié en 2024. Celui-ci notait que les grands systèmes d'IA générative avaient «de la difficulté à fournir une information fiable sur la société, l’économie ou la culture québécoise». La «très faible quantité de données sur le Québec» est en partie en cause, exposait le conseil.
Ce dernier donnait l'exemple d'une conversation avec ChatGPT concernant le groupe de musique Beau Dommage. Les réponses de l'agent conversationnel comportaient des inexactitudes.
Selon le co-titulaire de la Chaire de recherche du Québec sur l'intelligence artificielle et le numérique francophones (IANF), Destiny Tchéhouali, la culture québécoise est «sous-représentée dans les corpus qui circulent actuellement dans le monde de l'IA».
«Et on court le risque d'une reproduction des biais linguistiques, des biais culturels. Et quand on parle aussi des peuples autochtones, on court encore le risque d'avoir tous ces biais», poursuit le professeur au département de communication sociale et publique de l'Université du Québec à Montréal.
En ce sens, la banque de données représentera «une infrastructure stratégique» permettant «de mettre un peu des balises sur la manière dont nos contenus sont identifiés, répertoriés, tracés, notamment dans les grands systèmes d'IA générative aujourd'hui», estime-t-il.
À ses yeux, le projet BAnQ vient aussi répondre à l'enjeu de découvrabilité, alors que le public se tourne de plus en plus vers l'IA générative pour des recommandations culturelles, souligne-t-il.
Mieux protéger les droits d'auteur
La question du respect des droits d'auteur constitue une préoccupation importante dans le milieu culturel face au projet de la banque de données. BAnQ en est consciente, mais soutient que la future plateforme offrira une meilleure protection aux créateurs face à l'IA.
«Présentement, c'est un peu le Far West, avance Mme Grégoire. (...) La donnée est moissonnée gratuitement et ça ne devrait pas être le cas.»
La future banque aura un rôle de «fédérateur» ou de «guichet unique». Ce modèle permettra de verser une juste rétribution aux créateurs et d'éviter que certains s'enrichissent au détriment des artistes, soutient Mme Grégoire.
«Ce qu'on pense, c'est qu'en se fédérant, on va être en mesure, au moins, d'assurer qu'il y a un paiement qui se fait pour le juste droit, pour la conservation. Et donc, qu'on est en train de se pérenniser et pas de se cannibaliser», dit la PDG.
Maxime Harvey, chercheur postdoctoral au Centre Urbanisation Culture Société de l'Institut national de la recherche scientifique (INRS), observe un paradoxe dans le milieu artistique. Si une meilleure représentation de la culture québécoise dans les systèmes d'IA est souhaitée, il existe une crainte chez les créateurs de faire compétition contre soi-même en alimentant ces plateformes.
«La grosse critique que l'on entend sur le terrain, c'est que, même si les artistes en tirent un revenu, ils sont quand même en train de nourrir la bête qui va éventuellement servir à remplacer certains contrats qu'ils vont peut-être perdre à cause d'un usage de l'IA», affirme M. Harvey, aussi membre de la chaire IANF.
Une condition essentielle pour assurer le succès de la banque de données sera la participation de représentants de l'industrie culturelle et des autres secteurs concernés tout au long du projet, font valoir MM. Harvey et Tchéhouali.
Financement et échéancier à préciser
Les deux experts estiment que BAnQ adopte une approche prudente avec ses différentes phases et projets pilotes, permettant «une gestion du risque progressive». Et selon M. Harvey, l'organisation doit aussi se donner l'option d'un temps d'arrêt, si nécessaire, au bout de cette première année d'expérimentation, et de se reposer des questions.
Prendre son temps comporte toutefois un risque. Celui de se retrouver avec une plateforme qui ne correspond pas, au moment de son lancement, aux besoins des modèles d'IA de demain, alors que cette technologie évolue à une «vitesse vertigineuse», soulève M. Tchéhouali. L'enjeu sera de s'assurer que le projet «reste toujours pertinent au regard des développements technologiques», dit-il.
L'étude de faisabilité évoque une mise en service vers 2029. Mme D'Amour précise toutefois que le calendrier sera à confirmer à la suite de la phase d'expérimentation.
L'étude de faisabilité avance aussi un scénario budgétaire «conservateur» sur cinq ans. Le budget pourrait totaliser près de 10,5 millions $ d'ici 2030, ce qui comprend les dépenses d'exploitation et d'investissement.
M. Harvey estime qu'il sera important de préciser la structure financière, particulièrement les revenus que souhaite dégager BAnQ avec la commercialisation progressive des services liés à la solution.
Le chercheur exprime des doutes sur les hypothèses exposées dans l'étude, alors qu'«en ce moment, il n'y a pas de marché de la donnée». «C'est un marché qui est à faire», soutient-il.
Mme D'Amour indique que l'expérimentation des prochains mois doit également permettre de valider les possibilités et les modalités sur le plan financier.
BAnQ bénéficie pour le moment du soutien du gouvernement pour mener le projet. Elle a obtenu l'an dernier 340 000 $ pour la réalisation de l'étude et a récemment reçu 750 000 $ pour la phase d'expérimentation de 12 mois.
Frédéric Lacroix-Couture, La Presse Canadienne