Types de contenu pris en charge pour l’extraction de texte et la génération de transcriptions – Docebo Help & Support

Introduction

Lorsque vous téléchargez du contenu sur votre plateforme, le système analyse le fichier pour en extraire les informations textuelles. En fonction du format, la plateforme récupère ces informations en extrayant du texte (pour les documents, les images, les fichiers web et les formats similaires) ou en générant des transcriptions (pour les fichiers audio, les vidéos et les modules de formation compatibles).

Seuls les contenus à partir desquels le système peut extraire ou générer du texte avec succès peuvent être utilisés par les fonctionnalités de la plateforme reposant sur l’analyse textuelle :

Cet article décrit tous les types de contenu pris en charge et les conditions requises pour une extraction de texte et une génération de transcription réussies.

Types de contenu pris en charge pour l’analyse de contenu

Le tableau suivant répertorie tous les types de fichiers pouvant être analysés par la plateforme.

Catégorie	Types	Contenu extrait	Contenus pédagogiques / Contributions
Fichiers de texte	.txt, .csv	Texte	Contenus pédagogiques et contributions
Fichiers de documents	.doc, .docx, .odt, .ppt, .pptx, .pdf, .xls, .xlsx	Texte	Contenus pédagogiques et contributions
Fichiers d’images	.bmp, .jpeg, .png, .tiff	Texte de l’image	Contenus pédagogiques et contributions
Fichiers web	.html, .htm Remarque : lorsque l’URL d’une page Web est fournie, la transcription est générée uniquement pour cette page. Le contenu des liens intégrés à la page n’est pas extrait.	Texte	Contenus pédagogiques et contributions
Fichiers audio	.acc, .mpeg, .wav	Audiotranscription	Contenus pédagogiques et contributions
Fichiers vidéo	.mp4, .mov	Audiotranscription	Contenus pédagogiques et contributions
Fichiers Google Workspace*	Docs, Sheets, Slides	Texte	Contenus pédagogiques et contributions
Liens vers des vidéos en ligne*	YouTube, Vimeo, Wistia	Sous-titres	Contenus pédagogiques et contributions
Lots d’apprentissage en ligne*	SCORM et xAPI/TinCan (Articulate Rise et Articulate Storyline)	Transcription de texte et audio	Contenus pédagogiques
Fichiers Docebo	Leçons Creator	Transcription de texte et audio	Contenus pédagogiques

✴Le contenu privé (accessible sur authentification) n’est pas pris en charge

Contenu non pris en charge et limites en matière d’extraction

Les types de contenu non répertoriés dans ce tableau ne sont pas pris en charge pour l’extraction de texte ou la génération de transcriptions. Il s’agit des types d’éléments suivants : exercices, Docebo Learning Impact (DLI), LTI, checklists d’observation, enquêtes, tests, Elucidat, archives, playlists, Shape, AICC et TinCan (xAPI).

Outre la compatibilité avec les différents types de fichiers, le système doit également pouvoir extraire le texte ou générer une transcription du contenu. En cas d’échec de l’extraction de texte, le contenu sera inutilisable par les fonctionnalités reposant sur l’analyse textuelle.

L’extraction de texte ou la génération de transcription peuvent échouer dans les cas suivants :

Les fichiers audio ou vidéo ne contenant sans discours (par exemple, uniquement de la musique de fond)
Les transcriptions de moins de 30 mots (rejetées)
Le contenu privé accessible sur authentification
Les images compressées à un degré affectant la précision de la reconnaissance optique de caractères (OCR).

Seuls les contenus dont la plateforme peut extraire avec succès le texte ou générer une transcription peuvent être utilisés par des fonctionnalités telles que la recherche globale, Harmony et le marquage automatique.