American and British English Corpora

Recommended for student research

 

BNC – British National Corpus

  • 100 million words
  • British English from the later part of the 20th century
  • 90% written, 10% spoken language
  • Different text types such as newspapers, periodicals, journals, academic books and popular fiction

Available here.
 

COCA - Corpus of Contemporary American English

  • 1 billion words
  • American English from 1990-present
  • Equally divided into spoken, fiction, popular magazine, newspaper & academic.
  • Note: COCA's part of speech (POS) tagging is not always reliable.

Available here.
 

COHA - Corpus of Historical American English

  • 400 million words
  • American English from 1810 to 2009
  • Balanced by genre for each decade; for example, 48-52% of the corpus is fiction in each decade.
  • Uses the same architecture and interface as the Corpus of Contemporary American English

Available here.
 

More information about COCA, COHA and other English Corpora (external links):
 
Mark Davies' Website
The part-of-speech tagging used in the corpora

 

MICASE – Michigan Corpus of Academic Spoken English

  • 1.7 million words
  • American English since 1997

Available here.
 

OED - Oxford English Dictionary

  • Das Oxford English Dictionary ist campusweit online verfügbar.
  • Die seit März 2000 von der Oxford University Press bereitgestellte Online-Ausgabe beinhaltet die zweite Auflage des gedruckten, 20-bändigen OED aus dem Jahr 1989 (inkl. der drei Supplementbände 1993-97).
  • Die Online-Version repräsentiert den neuesten Bearbeitungs- und Forschungsstand, denn das OED wird in der Online-Version einer vollständigen Neubearbeitung unterzogen, d.h. es kommen laufend neue Einträge hinzu, die alten werden überarbeitet (ca. 1800 Wörter neu und revidiert pro Quartal).

Verfügbar hier.
Funktioniert nur auf dem Campus oder mit VPN-Client.

 

TIME Magazine Corpus

  • 100 million words
  • American English from the 1920s to the 2000s

Available here.