Usage des syntagmes prépositionnels en corpus : argument, colligation, circonstant
Résumé
La disponibilité de grands corpus de textes annotés fournit des éléments pour renouveler les études de la valences verbale, en permettant de capturer à l'aide de mesures statistiques les propriétés que les linguistes cherchent habituellement à cerner avec des tests linguistiques. Nous proposons une réflexion nourrie par une série d'expériences qui permettent d'utiliser les corpus pour mesurer le degré d'autonomie d'un syntagme prépositionnel (SP) par rapport au verbe dont il dépend. Dans une perspective corpus-driven, nous travaillons à partir de vastes corpus (200 millions de mots) où les liens de dépendance entre mots ont été calculés par l'analyseur syntaxique Syntex. Cette phase de prétraitement permet de dépasser une analyse de nature collocationnelle pour accéder à l'observation des structures. Nous mesurons le degré d'autonomie de chaque syntagme prépositionnel par rapport au verbe, en combinant des indices prenant en compte la diversité des verbes auxquels ce SP se rattache dans le corpus, et la propension de ces verbes à sélectionner la préposition considérée. L'ensemble de ces indices s'appuient exclusivement sur des calculs de cooccurrence réalisés sur l'ensemble du corpus. Finalement, l'expérience, reproduite sur deux corpus différents (le journal Le Monde et une partie de la base Frantext, 200 millions de mots dans les deux cas), nous permettra de mettre au jour des comportements colligationnels diversifiés entre les deux corpus. S'agissant de la distinction argument/circonstant, elle semble ne pas être touchée par le passage d'un corpus à l'autre.