Logiciels d’ATAO – Tableau synoptique empirique

 

Préparation

 du texte

Limites

Segmentation

Liste alpha/

lexicom

Etendue du texte : nb total d’occurrences

(N)/ nb de mots distincts (V)

« richesse » vocab ; type/token

Lemmatisation

Répartition ds texte

Segments répétés

Concordance KWIC

Références au texte ds concordance

Concordance triée gauche/dte

Co-occurrences, collocations &c, sémantique, thématique &c

Spécificités internes/externes, endogènes/exogènes

Tableau lexical de contingences

AFC

Distance textuelle

Résumé

 

Alceste

(version 4.5 sans module anglais, version 4.6  avec module anglais)

.txt ; repères ( ¹balises)

**** *nombalise_valeur 

d’autre part, $ indique fin naturelle d ‘une « u.c.i. » e.g. fin d’un vers en poésie, donc caractère dominant

Intéressant pour grands corpus homogènes ; mais au-delà de 3 Mo de corpus, choisir version supérieure à 4.6

Logiciel découpe texte en u.c.e.

 

Nb total d’occurrences, nb de mots distincts avant et après « lemmatisation » qui aboutit à « formes réduites », mais pbs avec corpus anglais

 

Aboutit à « formes réduites » : problématique, au moins pour l’anglais, e.g. « pass+ »à pass, passage, passion(s)

 

Oui, mais ds cadre des « classes » de vocab

Concordance des mots analysés

oui

Non

Co-occurrences= base de méthodol ds cadre des u.c.eè calcul des « classes » de vocab ; ambition sémiotique

Oui, ds cadre des classes de vocabulailre

 

Oui, + difficile à interpréter ds version 4.6 ; + autres graphes difficiles à interpréter

 

u.c.e. représentatives de chaque classe, mais ne prétendent pas faire office de résumé

Alceste

Hyperbase 5.5

.txt ;

&&&Nomlong, nomcourt, abrev&&&

pages indiquées par $n sur une ligne à part

>= 75 ou 82 textes maxi ds une base, par + de 500.000 mots par texte

Indexation : soit respecte le découpage balisé e.g. en pages (lent), soit découpe en unités automatiques (rapide)

Liste seult hautes fréquences ; liste de distribution des fréquences ; nb d’hapax sans liste

Oui

Oui (bogue pour richesse vocab?) ;

+chronologie

Oui

   

Oui : forme, lemme, expression, initial, final, chaîn, « tout » (max 360)

oui

Oui

Fonction « liste » ; corrélats

(lien avec Alceste ?)

Internes ET/OU externes (BNC, TLF))

Tableau lexical entier pas accessible ; fonction « liste » à tableau de contingence

Oui (mais pb ? avec base Valentin)

Oui ; algorithme de Labbé : distribution réelle/écart maxi poss de cette distribution

Phrases-clés « faisant office de résumé »

Hyperbase 5.5

Lexico2

.txt; tout en minuscules; balises entre < > : <nomvariable = valeur_variable_sans_espace>

   

oui

   

non

 

oui

Oui, mais indique réf de ln° de ligne seulement

non

   

Oui, internes

       

Lexico2

Lexico3

Mm que pour Lexico2

       

chronologie

 

Pts carrés à topographie textuelle

Oui, bien sûr !

 

Ref au numéro de ligne ds le corpus è pas très commode

 

“types généralisés”= nouveau ; + subjectif

Oui, internes

       

Lexico3

(Win)Spad5.5

.txt; ----(4 traits d’union) suivi de nb;

fin du texte ==== ;

sous-parties ++++

Dépassement de capacité pour analyse des corres binaires à fichier Wesley 1-74 d’environ 385.000 occurrences ou 2,2 Mo

 

Récupérables Excel

oui

 

Pas automatique ; possible manuelle

 

« SEGME »

Par ordre alpha ou lexicom

« CORDA »

Oui, classée par ordre d’apparition ds corpus

 

Sans doute poss sous Excel

   

« MOTEX » & « TALEX »

Demander affichage tableur

Oui, mais….dépassement de capacité à Wesley 1-74

   

(Win)Spad5.5

MonoconcPro 2.2

.txt ; les balises peuvent être de type COCOA ou bien d’autres étiquetages (en particulier morpho-syntaxiques) ;

inutile de passer par une étage de constitution d’un corpus figé

« very high » ; no limit to the size of the corpus but « there may be a limit on the number of files loaded »

 

Liste alpha/ lexico

Etendue du texte (N) et nombre de mots distincts (V)

Pas calculé automatiquement

Non ; possible de chercher des lemmes définis grâce aux opérateurs de troncature

Oui, avec visualisation de la répartition

 

Concordance KWIC,

Oui : localisation des occcurrences avec  références à la structure du texte (e.g. n° de texte, n° de page) en bas de la fenêtre, grâce aux balises

Oui, à gauche, à dte, ds ordre du texte ; collocations en différentes couleurs

 

Uniquement exogène ; calcule uniquement une probabilité logarithmique

 

Non

Non

Non

MonoConcPro 2.2

TACT 2.1.4

(juin 1995)

sous DOS!

.txt ; balises COCOA

Sous DOS; ne convient pas aux grands corpus

 

Oui

oui

Oui

Non

oui

   

oui

       

non

   

TACT

Weblex

Envoyer corpus par Internet à re-codé en LML (variation sur  SGML)

 

Partitionnement défini par utilisateur avant usage du logiciel (e.g. auteur, date, titre chapitre, etc) , mais poss de segmentation automatique en pages

Oui : Vocabulaire

Oui : Dimensions

 

Logiciel sait traiter corpus préalablement lemmatisé, mais pas de lemmatisation offerte

Oui : Répartition (« rafales »)

Oui (N-Grammes)

Oui, contexte souple

Oui

Oui

Oui -> « lexicogrammes » (affichage graphique possible)

Oui, strictement endogènes

       

Weblex

Wordmapper 6.5

Pas nécessairement .txt ; aussi .doc, rtf,.htm etc ;

[« variables signalétiques » ds cartouches]

Sample=ok (1658 Ko)

Mais pb ? avec Wesley 1-74 (2130 Ko, environ 380.000 mots))

En l’absence de variable signalétique, découpe le texte en blocs numérotés ;

Calculs ds fenêtres d’environ 15 mots (longueur modulable)

Tous les mots >= freq 3, en liste lexico (pas alpha), ds « statistiques » :  fichier Excel

Non

Non

Oui mais poss de modif manuelle

Non

“signifiants”

Non

Non

Non

“clusters” ou agrégats; 3 niveaux de  cartographie ; ds « statistiques » calcul de co-occurrence à fichier Excel

« mots signifiants » 600 par défaut, jusque 1000 pour graphique, sinon jusque 5000

endogène

Matrice des associations de mots signifiants

Oui, croise variables signalétiques & mots signifiants : graphique + fichier Excel

non

Bof !« classement automatique et résumé » ds « WordMap » cite phrases comportant mots-clés ou clusters signifiants par ordre de fréquence ou d’ »originalité »

Wordmapper

Wordsmith 3.0

Preferably .txt ; tags

“virtually unlimited”; <8M word entries; need 10Mb spare on hard disk

 

“Wordlist”

 

Non seulement N/V, mais aussi « standardised type/token ratio »

Not by default, but poss (manual or automatic)

 

“repeated word clusters”, ds cadre de concordance, pas liste générale

“Concord”

En ppe, oui ; ms pas réussi ds exp.

Oui: “resort [retrier] concordance”

 

Key words & key key words!

Tjs exogène

       

Wordsmith 3.0

Wordsmith4

Co ds Wordsmith3, inutile de passer par une étage de constitution d’un corpus figé

Maximum word frequency= 2 147M words

       

Not by default, but poss (manual, or create a lemma file then compare)

                     

Wordsmith4

 

Préparation

 du texte

Limites

Segmentation

List alpha/

lexicom

Etendue du texte

(N)

« richesse » vocab ; type/token

Lemmatisation

Répartition ds texte

Segments répétés

Concordance KWIC

Références au texte ds concordance

Concordance triée gauche/dte

Co-occurrences, collocations &c, sémantique, thématique &c

Spécificités

Tableau lexical de contingences

AFC

Distance textuelle

Résumé