Linguistique de corpus

Linguistique de corpus

Discipline rare Non

Présentation

Linguistique et analyse de documents électroniques

L’utilisation de corpus (ensemble de documents, généralement sous forme électronique) par les linguistes a connu un essor remarquable depuis les années 90, tant pour la publication de dictionnaires, que pour celle de grammaires. Par ailleurs, de plus en plus de chercheurs en linguistique font référence aux corpus existants, comme le British National Corpus (BNC) ou le Corpus of Contemporary American English (COCA), ou bien créent leur propre corpus pour étudier des exemples authentiques en contexte. Enfin, seuls les logiciels d’analyse de corpus permettent d’obtenir des données chiffrées pour dégager les grandes tendances des langues ou vérifier des hypothèses plus pointues. Cette UE permettra aux étudiants de s’initier à l’utilisation de corpus acquis par l’université (dont le BNC ou le London-Lund corpus d’anglais oral) ou à l’analyse de corpus qu’ils constitueront eux-mêmes, et de mettre ainsi leurs connaissances grammaticales, lexicales, phonologiques ou stylistiques à l’épreuve des textes. Elle offrira également une introduction à la recherche dans un domaine de la linguistique en plein essor.

Semestre 1 : The British National Corpus (BNC) et autres corpus écrits.

Cours magistral :

On s’attachera à répondre aux questions suivantes : qu’est-ce qu’un corpus ? Comment un corpus est-il élaboré (période, région d’origine, taille et type de document) ? Quels sont les codes qui sont utilisés pour identifier et classer les textes ou les catégories de mots ? Quelles réserves peut-on émettre à l’utilisation des corpus ? On examinera ensuite de façon critique le traitement de quelques points grammaticaux dans des grammaires élaborées à partir de corpus.

TD :

Pratique des corpus sur ordinateur. Ce TD aura pour but d’initier les étudiants à la notion de contexte en linguistique et de leur apprendre à tirer le meilleur profit des ressources qu’offre un corpus. Nous explorerons les possibilités de recherche qu’offre le BNC, en illustrant l’impressionnante quantité et variété d’information (grammaticale, lexicale, stylistique, sociolinguistique, etc.) que l’on peut y trouver. A cette fin nous nous servirons du logiciel d’analyse mis au point par les concepteurs du BNC, mais aussi d’un outil d’analyse disponible gratuitement en ligne (l’interface conçue par Mark Davies de Brigham Young University). Chaque fois que cela sera possible, nous comparerons les résultats obtenus sur le BNC avec ceux obtenus sur d’autres corpus (notamment le Corpus of Contemporary American English –www.americancorpus.org).

L’étudiant apprendra aussi à composer un corpus de son choix (documents écrits ou parlés, littéraires ou autres, contemporains ou non) et à le mettre sous forme électronique à l’aide d’un scanner et d’un traitement de texte. Un étiqueteur grammatical lui permettra ensuite de mettre automatiquement des codes grammaticaux sur les mots de ce corpus, mots qu’il pourra ensuite afficher dans leur contexte pour en vérifier les associations. A l'aide d'un logiciel d'analyse de corpus, il obtiendra des données chiffrées sur les mots, expressions ou constructions qu’il étudiera, et il apprendra à les interpréter d’un point de vue statistique, puis linguistique (syntaxique ou lexicologique), sociologique, ou littéraire. Il pourra enfin comparer les résultats obtenus à partir de son corpus avec d’autres corpus britanniques ou américains (dont le BNC) et ainsi vérifier ses hypothèses sur un ensemble de textes plus large. Cette démarche constitue elle aussi une initiation à la recherche sur le langage.

Conditions d'admission

Une compréhension correcte de l’anglais, notamment des textes que l’étudiant(e) veut analyser, et une connaissance basique du système d’exploitation Windows, d’un traitement de texte et d’un tableur.

Volume horaire

  • CM : 1h
  • TD : 1h
  • Nombre de semaines : 13
  • Modalité de controle: Controle continu

Syllabus

Bibliographie :

BIBER, Douglas, CONRAD, Susan & REPPEN, Randi. Corpus Linguistics: Investigating Language Structure and Use. Cambridge : Cambridge University Press, Cambridge Approaches to Linguistics, (1998)

HUNSTON, Susan, Corpora in Applied Linguistics Cambridge: Cambridge University Press (2002)

O’KEEFFE, Anne & McCARTHY, Michael. The Routledge Handbook of Corpus Linguistics. Oxford : Routledge, (2010)

McENERY, Tony & Andrew, HARDIE Corpus Linguistics  Cambridge : Cambridge University Press, Cambridge Textbooks in Linguistics  (2011)

WYNNE, M. (ed.). Developing Linguistic Corpora: a Guide to Good Practice. Oxford: Oxbow Books: 2005.

Diplômes intégrant cette UE

En bref

Langue d'enseignement
Anglais

Contact(s)

Composante

Responsable(s)

LABROSSE Pierre

Email : Pierre.Labrosse @ paris-sorbonne.fr

SCHAEFER Steven

Email : Steven.Schaefer @ paris-sorbonne.fr