Dans les entreprises actuelles, les systèmes de gestion des données d'entrée sont un élément clé de l'architecture de l'information. Ils permettent aux entreprises de gérer et d'optimiser les flux d'informations entrants en automatisant la collecte, l'extraction et le traitement des documents et des données.
Nous travaillons pour créer un monde dans lequel les données d'entrées chaotiques peuvent être transformées facilement en informations utilisables et intelligentes afin d'accélérer les processus et de créer un environnement de travail plus profitable pour tous.
Mais commençons par le début : qu'entendons-nous par « données d'entrées » chaotiques et intelligentes ? Et comment rendre intelligent un chaos de données et de documents ? La présente publication nous donnera l'occasion de vous donner quelques conseils sur ce sujet et d'aborder certains défis susceptibles d'accompagner le processus.
Qu'il s'agisse de documents numériques ou sur papier, on parle généralement de trois types d'informations : structurées, semi-structurées et non structurées. Les documents structurés concernent habituellement des types de contenus identiques présentant la même mise en page. Cette « structure » est fixe sur une longue période de temps. C'est le cas par exemple d'un passeport.
D'autre part, les factures, par exemple, sont souvent semi-structurées. Elles se ressemblent du point de vue de la mise en page, mais présentent plusieurs différences essentielles.
Les informations et formats des documents non structurés ne présentent aucune structure reconnaissable. Le meilleur exemple est une note écrite à la main.
On considère souvent les données non structurées comme des « entrées chaotiques » et les données structurées ou semi-structurées comme des « entrées intelligentes ». Dans la mesure où aujourd'hui, plus de 80 % des données commerciales présentent une forme non structurée, les entreprises cherchent à transformer ces « entrées chaotiques » en un contenu structuré et intelligent. Sans cette adaptation, l'entreprise risque de perdre une quantité importante de son savoir.
Malgré la forte tendance à la numérisation de l'espace de travail et les avancées vers le bureau sans papier, les entreprises utilisent encore bon nombre d'informations disponibles sous forme papier. Ces contenus non structurés doivent être numérisés et structurés avant de pouvoir être intégrés dans les processus de travail. Mais où commence le processus de numérisation et comment se déroule-t-il ?
On commence par utiliser des moteurs de reconnaissance optique de caractères (OCR) afin de numériser les contenus. Vient ensuite le choix du type de processus de travail dans lequel ils doivent être intégrés. En effet, les différents types d'entrées seront amenés à subir différents types de processus.
Les entrées non structurées feront certainement l'objet d'un flux de travail comprenant une étape de traitement manuel. Même si les systèmes sont de plus en plus aptes à traiter différents aspects linguistiques, ces questions restent compliquées et coûteuses. Dans le cadre du traitement manuel, l'utilisateur décide si l'information doit être sauvegardée et du type de document qu'il est en train de traiter.
En ce qui concerne les entrées semi-structurées, une grande partie de l'information disponible sur le document est prête à être numérisée ou traitée. Cependant, lorsque ces informations sont insuffisantes, illisibles ou inutilisables, le travail d'un opérateur est nécessaire pour décider de la manière dont le document doit être traité.
Les documents structurés contiennent généralement des informations immédiatement utilisables. Une vérification manuelle optionnelle peut être utile pour garantir un contrôle plus fiable des erreurs de l'utilisateur.
Des contrôles additionnels sont intégrés dans différents cas de figure, même lors du traitement de documents structurés. Un de ces contrôles s'applique aux erreurs commises par l'utilisateur. Imaginez que quelqu'un renverse une tasse de café sur des numéros d'identification importants ou qu'un pli recouvre une grande partie des informations, ou encore que la maintenance du scanner n'ait pas été réalisée. Saviez-vous que la poussière peut rendre inutilisables des documents scannés ?
Autre cas de figure : la perte de données. Elle peut survenir lorsque des documents non structurés sont numérisés et que le moteur OCR n'arrive pas à lire certaines lettres, par exemple lorsqu'elles sont écrites à la main. En d'autres termes, un élément reste indispensable dans le cadre du processus de numérisation : le facteur humain.