Guy Aston e Lorenzo Piccioni
Università di Bologna
Unlike other major European languages, Italian
has a dearth of large contemporary corpora that can be freely interrogated for
teaching and research purposes. This paper describes the procedures being
employed to create a 400-million word corpus of newspaper articles from La Repubblica, encoded in XML following the norms of the Text
Encoding Initiative. The corpus, which is currently 40% complete, can be
interrogated with the SARA program originally developed for use with the
British National Corpus. Illustrations are provided of ways in which it can
provide linguistic and cultural information of various types, and possible
future refinements are outlined.
Alla Scuola Superiore di Lingue Moderne per Interpreti e Traduttori dell’Università di Bologna (SSLMIT) esiste una tradizione ormai decennale di utilizzo di corpora nella ricerca e nella didattica. Per chi deve tradurre, i corpora rappresentano fonti impareggiabili di informazioni linguistiche (Bernardini & Zanettin 2000). Per alcune lingue europee, corpora elettronici di grandissime dimensioni sono da tempo disponibili. Per l’inglese superano i 100 milioni di parole il Bank of English e il British National Corpus, per il francese Le trésor de la langue française, per lo spagnolo il Corpus de Referencia del Español Actual, per il tedesco i Mannheimer Korpora presso l’Institut für Deutsche Sprache. Per l’italiano invece, non esiste alcun corpus di dimensioni analoghe, se si eccettua il CORIS, tutt’ora in fase sperimentale, che non permette tuttavia all’utente di accedere ai testi che lo compongono, né di sapere le fonti delle citazioni proposte (Rossini Favretti et al, in stampa). L’assenza di un corpus di italiano contemporaneo pienamente accessibile ha impedito a nostri docenti e studenti di effettuare studi comparativi con le lingue straniere da e nelle quali traducono.
Nella primavera del 2001, il quotidiano La Repubblica ha messo in vendita 16 CD-ROM contenenti tutti gli articoli pubblicati fra il 1985 e il 2000 (esclusi supplementi, fotografie, pubblicità, tabelle ed elenchi vari). Sebbene provenienti da un’unica fonte e appartenenti esclusivamente all’ambito giornalistico, questi sembravano costituire una base potenziale per un corpus di dimensioni notevoli, e di facile costruzione. Coprendo un arco di 16 anni, tale corpus poteva fornire uno strumento per lo studio diacronico oltre che sincronico dell’italiano contemporaneo, nonché per studi contrastivi (sono già disponibili corpora di testi giornalistici per molte altre lingue). Abbiamo pertanto chiesto il permesso di estrarre i testi dai CD-ROM e di costituirli in un corpus per usi didattici e scientifici; permesso che Repubblica ci ha gentilmente concesso. In questa relazione illustriamo la procedura seguita per la creazione del corpus, e diamo alcuni esempi di applicazioni possibili.
Ciascun CD-ROM
contiene una banca dati all’interno della quale sono memorizzati i testi degli
articoli pubblicati in quell’anno, nonché varie informazioni di tipo
metatestuale (data, pagina, ecc.). Per raccogliere i testi in un unico corpus
che copri l’intero arco di 16 anni, è pertanto necessario estrarre i singoli
articoli dalle banche dati, assieme alle informazioni metatestuali relative, e
convertirli in un formato adatto per un corpus. Essendo i tipi di codifica
utilizzati nei vari CD parzialmente diversi, è anche necessario regolarizzare i
testi e le informazioni metatestuali in base ad uno standard unico.
Una stima approssimativa indicava che ogni annata del giornale poteva contenere 25 milioni di parole circa, prefigurando un totale di 400 milioni di parole nei 16 anni - dimensioni raggiunte da pochissimi corpora esistenti. Prima di creare il corpus, era pertanto necessario identificare degli strumenti in grado di memorizzare e interrogare una tale mole di dati. Un programma di interrogazione “free text”, che percorre tutti i testi alla ricerca di soluzioni, avrebbe comportato tempi di interrogazione troppo lunghi. Occorreva invece indicizzare il corpus, in modo che il programma di interrogazione potesse già identificare nell’indice le posizioni delle soluzioni da recuperare. A questo scopo era di buon auspicio la disponibilità di una nuova versione di SARA, il software di interrogazione sviluppato per il British National Corpus (BNC: Aston & Burnard 1998), in grado di indicizzare qualsiasi corpus codificato in XML secondo le norme internazionali della Text Encoding Initiative (TEI: Sperberg-McQueen & Burnard 2002). SARA è un software client-server, ove il corpus indicizzato si trova su un server centrale, e viene interrogato via rete dal computer dell’utente, dove deve essere presente il programma client di interrogazione. L’impiego di SARA avrebbe permesso a molti utenti del nuovo corpus di consultarlo attraverso uno strumento con il quale erano già familiari, data la loro esperienza con il BNC, nonché la gestione del server tramite un sistema amministrativo già collaudato. Fatto un calcolo approssimativo dello spazio necessario per la memorizzazione del corpus e la sua indicizzazione con SARA, stimato complessivamente in 30-40GB, abbiamo acquistato un disco da 72GB da montare sul server principale della Scuola.
La realizzazione del corpus si è articolata su cinque fasi principali:
Indicizzazione
Ciascuna di queste fasi ha comportato lo sviluppo di procedure
specifiche, che andavano pian piano sperimentate e perfezionate. Per capire
meglio il processo, si riporta il diagramma di flusso relativo (Fig. 1).
Queste operazioni
sono state completate per le prime sette annate del corpus (1985-1991), per le
quali si riportano alcune caratteristiche di base in Tab. 1.
annate |
7 |
numeri del
giornale |
2.085 |
articoli |
224.140 |
frasi |
6.316.532 |
parole (tokens) |
141.194.072 |
parole (types) |
581.113 |
Tab. 1. Composizione del corpus provvisorio Reptry
La condizione necessaria per la
creazione di un corpus consultabile tramite SARA era la disponibilità di un
insieme di file contenenti testo in formato ASCII. Questa assunzione,
apparentemente scontata nella sua semplicità, solleva due problematiche.
Il problema principale consiste
nell’ottenere da un insieme di dati binari (i database contenuti nei CD-ROM)
una serie di testi in formato ASCII, su cui lavorare per produrre materiale
testuale indicizzabile e utilizzabile dal server SARA. Il secondo problema,
decisamente più subdolo, è dovuto allo status di applicazione in costante
sviluppo di SARA: ciò determina una frequente indecisione, legata al fatto che
l’analisi dei risultati deve tenere in considerazione allo stesso tempo errori
prodottisi durante il processo di trasformazione e comportamenti non sempre
ineccepibili del software di indicizzazione e consultazione.
Il supporto originario è composto di 16 CD-ROM contenenti ciascuno la raccolta degli articoli pubblicati in un anno sul quotidiano. Le raccolte di articoli sono organizzate in file binari di grandi dimensioni di formato inizialmente sconosciuto.
La prima fase del lavoro consisteva nell'identificare correttamente le informazioni contenute in questi file, quali informazioni fossero effettivamente presenti e come queste fossero strutturate, per sviluppare un software che fosse in grado, con un procedimento il più possibile automatizzabile, di estrarre e ristrutturare le informazioni in una forma consona alle nostre esigenze.
Da un'analisi dei file, effettuata principalmente considerando ripetizioni e ricorrenze, siamo riusciti ad estrapolarne la struttura. Come è possibile vedere in Fig. 2, i file contengono una prima intestazione, che fornisce un'indicazione sulla posizione di ogni articolo all'interno del file, una seconda intestazione, che contiene i dati accessori di ogni articolo (nome dell'autore, titolo, sottotitolo e occhiello, data e numero di pagina del quotidiano nel quale è apparso l'articolo) e, di seguito, tutti gli articoli in ordine cronologico. Altre informazioni, sicuramente interessanti, quali la categoria dell'articolo e la titolazione della pagina non sono incluse nel database ma sono contenute nel programma originale di consultazione, e quindi inaccessibili.
Gli articoli sono strutturati come una sequenza di caratteri che costituiscono il corpo del testo intercalato da punteggiatura, assolutamente privo di formattazione, suddivisione in frasi e in paragrafi.
Una volta identificata la struttura dei database contenenti gli articoli si è potuto procedere con la loro ristrutturazione in file di testo. Il risultato ottenuto è esemplificato in Fig. 3: ogni testo prodotto è il risultato dell'unione di tutti gli articoli pubblicati su un numero del giornale e di intestazioni nelle quali sono state inserite tutte le informazioni accessorie disponibili per ogni articolo.
Risolto il problema dell’estrazione
degli articoli, rimane quello, non meno spinoso, della loro regolarizzazione.
Una corretta indicizzazione è subordinata:
Passando ad un esempio pratico, in fase di consultazione del corpus,
ricercando le occorrenze della parola acchiappò,
diverse trascrizioni come acchiappò, (acchiappò, l'acchiappò o ACCHIAPPO' devono
essere correttamente individuate, mentre forme del tipo acchiappo o 'acchiappo'
devono essere ignorate in quanto non pertinenti. Altri problemi legati alla
corretta individuazione vengono sollevati dalla rappresentazione abbreviata
delle annate (anni '80; nel '700), dagli intervalli temporali (è arrivato in 1'35''; 35'' di distacco), dalle parole
straniere e non (l'état c'est moi; rock 'n' roll; 'ndrangheta). In tutti questi casi il problema consiste nel capire
se il simbolo ’
deve essere considerato apostrofo o accento, o se deve essere identificato in
altro modo (per esempio come delimitatore di citazione o espressione di un
lasso di tempo).
A tutto questo si aggiunge l’evoluzione a cui è andato incontro negli anni il word processing, che ha reso disponibile un sempre maggior numero di possibilità per quello che riguarda la rappresentazione dei caratteri e la formattazione di blocchi di testo. Questa evoluzione, che ha permesso una sempre migliore rappresentazione dei testi scritti, ha prodotto come risultato la mancanza di uno standard nella codifica utilizzata nei CD. Ciò si traduce, per esempio, nell’impossibilità di distinguere automaticamente discorso diretto, citazioni e “cosiddetti” all’interno degli articoli pubblicati nei primi anni (le tre entità vengono trattate formalmente allo stesso modo, racchiudendole tra apici singoli) mentre, nelle pubblicazioni più recenti è visibile una distinzione netta fra di esse, tramite l’utilizzo di delimitatori differenti (' ', " ", « »).
Se ai problemi fino ad ora illustrati si aggiunge il fatto che i primi testi sono sicuramente stati scansionati a partire da originali cartacei, e che la conversione in formato elettronico ha indotto un grande numero di errori legati al riconoscimento (OCR), si avrà un’idea della complessità della situazione.
Queste caratteristiche, non problematiche dal punto di vista del cervello umano che, educato da anni di utilizzo della lingua, non incontra alcuna difficoltà durante il processo di scomposizione delle parti del discorso, diventano invece problemi insormontabili (se non risolti) dal punto di vista di una macchina, che non è in grado a priori di associare diverse rappresentazioni alla stessa sequenza di caratteri.
Le diverse fasi del lavoro effettuato per standardizzare il riconoscimento delle parole sono illustrate di seguito.
·
Identificazione e correzione degli accenti
a.
Nei testi
estratti le lettere accentate vengono rappresentate di volta in volta
utilizzando o il carattere preposto, o il carattere corrispondente senza
accento seguito dall’apostrofo. Consideriamo l’esempio frequente di perche' e perché: per evitare che le due forme vengano indicizzate come se
fossero diverse, la forma perche' va
ricondotte alla forma perché. Così
per tutti i casi, escludendo quelli in cui l’apostrofo compare come
delimitatore di una citazione. Per fare un altro esempio, l’espressione 'E' ancora in vita' andrà trasformata in
'È ancora in vita' e non in 'È ancora in vità; tutti questi casi
devono essere identificati ed eventualmente corretti in fase di
pre-elaborazione del testi.
b.
La direzione
dell’accento varia in molti casi
da testo a testo: insieme a perché troviamo perchè. Sebbene tale variazione potrebbe riflettere
differenze socio-geografiche, abbiamo deciso di regolarizzare la direzione
degli accenti seguendo gli standard nazionali, in modo da permettere l’utente di trovare facilmente tutte le
occorrenze della parola.
c.
Nei titoli,
sottotitoli e occhielli degli articoli le lettere accentate compaiono sempre
nella forma non accentata seguite dell’apostrofo (es: CITTA’); queste forme vanno necessariamente ricondotte alla forma
accentata.
·
Identificazione di virgolette, apostrofi,
tempi
Un simbolo di apostrofo può identificare differenti situazioni:
a.
un accento
(cfr. sopra);
b.
un lasso di
tempo (1'23'');
c.
un delimitatore
di citazione, discorso diretto, o “cosiddetto”;
d.
un apostrofo
vero e proprio.
Queste quattro situazioni vanno identificate correttamente e trattate
in modi differenti. Se si tratta di un accento (a) dovrà essere trasformato in
una lettera accentata come visto in precedenza. Se di un lasso di tempo (b), o
un delimitatore di citazione (c), dovrà essere trasformato in modo che non
possa essere ambiguamente indicizzato come apostrofo (come vedremo in seguito).
Se si tratta di un apostrofo in senso stretto il problema consisterà nel capire
se appartiene alla parola che lo precede (vorremmo che l'uomo fosse indicizzato come due parole: l' e uomo) o a quella che
lo segue ('ndrangheta, anni '80, l'inglese it's).
·
Identificazione di delimitatori
L’indicizzazione
richiede l’uso coerente di
delimitatori della parola, quale lo spazio e la punteggiatura, per evitare che
questi vengano interpretati come parte della parola stessa. A tal fine si è
deciso di introdurre uno spazio fra due parole legate da un apostrofo (l'
uomo), e fra punteggiatura iniziale e la parola successiva (la "
parte").
·
Correzione manuale dei titoli
I titoli degli articoli sono stati in gran parte corretti manualmente,
a causa del gran numero di errori (principalmente legati all’uso delle
virgolette), e dello standard di rappresentazione delle parti della frase,
differente da quello utilizzato per il corpo degli articoli..
Per caratteri speciali si intende l’insieme dei caratteri che esulano
dalla rappresentazione standard dei simboli dell’alfabeto, quali le lettere
accentate, i puntini di sospensione, i caratteri utilizzati per racchiudere
citazioni, cosiddetti, discorso diretto, ecc. Questi caratteri devono essere
sostituiti per due motivi:
a.
I sistemi
informatici hanno tabelle di rappresentazione dei codici di carattere
differenti da sistema a sistema (es: se A e B sono due sistemi informatici, è
possibile che A rappresenti il codice utilizzato per la “à” correttamente, e il
sistema B lo rappresenti con un carattere che nulla ha a che fare con la “à”).
Questo problema è stato risolto assumendo uno standard (ISO8859-1 o ISO
Latin 1) che definisce delle entity
references che ogni sistema traduce nella sua personale rappresentazione
del carattere indicato.
b.
Caratteri
uguali utilizzati per scopi diversi vanno differenziati a livello di
indicizzazione. Per fare un esempio, i caratteri " e ', che possono di volta in volta indicare citazioni,
tempi, classifiche, sono distinguibili a livello di ricerca sul corpus solo con
un’adeguata differenziazione della loro rappresentazione interna per permettere
all’indicizzatore di trattarli come differenti.
carattere |
nome |
entity reference |
' |
apostrofo |
' |
" |
inizio citazione |
&bquo; |
" |
fine citazione |
&equo; |
' |
minuti |
′ |
" |
secondi |
″ |
… |
puntini di sospensione |
… |
Tab. 2. Estratto della tabella dei caratteri ISO8859-1 (ISO
Latin 1)
Il secondo presupposto per una corretta indicizzazione con
SARA richiede la codifica in formato TEI-XML dei testi del corpus. Una codifica
di questo tipo è tanto più utile quanto più sono dettagliate le informazioni
estrapolabili dai testi. Il caso ottimo è rappresentato da un insieme di testi
in cui ad ogni “parte” è
associata una funzione linguistica. Per “parte”
si intende un qualsiasi sottoinsieme del testo, che può essere costituito dal
testo intero fino alla singola parola. Per ottenere una codifica di questo
tipo, ogni “parte” viene
etichettata, inserendo all’interno del testo appositi tag che forniscono
informazioni sulla “parte”
associata.
Identificare correttamente frasi, titoli e paragrafi all’interno di un testo consente di informare l’indexer della presenza di un’ulteriore suddivisione del testo in unità di dimensione inferiore: questa operazione rende possibili ricerche ristrette all’ambito della singola unità in fase di consultazione del corpus. Nei testi originali contenuti nei CD-ROM, purtroppo, non esiste alcuna indicazione relativa alla suddivisione del testo, eccezion fatta per il titolo, svincolato dal corpo del testo e memorizzato separatamente. Pertanto si è dovuto trattare il testo di ciascun articolo come un unico paragrafo.
L’unica altra suddivisione estrapolabile è rappresentata dalle frasi
che, pur non essendo esplicitamente indicate, sono comunque individuabili in
quanto delimitate. I
delimitatori di una frase sono rappresentati tradizionalmente dai simboli di
punteggiatura (punto, punto esclamativo, punto interrogativo, puntini di
sospensione); ma nel nostro caso, la pratica si è rivelata di tutt’altra
natura. Ad esempio, né il punto né il punto interrogativo (anche se
seguiti da spazio e carattere maiuscolo) indicano sempre la fine della frase.
Per questo è stato necessario stilare una lunga lista di eccezioni con regole
specifiche, relative ad abbreviazioni, iniziali, numeri, incisi, parentesi,
citazioni, puntini di sospensione, ecc.
Le eccezioni più frequenti erano dovute a:
a.
errori commessi
durante la stesura o l’acquisizione dei testi, eliminabili solo mediante
revisione manuale dei testi;
b. Sigle, abbreviazioni, orari, importi, ecc… (es: Regio decreto n. 1827; ecc. ecc.);
c. Punti interrogativi e puntini di sospensione presenti all’interno
di una frase.
Lo sviluppo di algoritmi in grado di identificare in maniera sufficientemente affidabile le frasi all’interno del corpo del testo ha richiesto molto più lavoro del previsto, e si è dovuto rinunciare all’analisi in frasi dei titoli, ove mancava spesso qualsiasi indicazione di punteggiatura. Non potendo effettuare un’analisi manuale, si è deciso di indicare come fine frase la fine di ciascun titolo, operando ulteriori divisioni all’interno di questo nei soli casi in cui un elemento di punteggiatura fosse presente, tenendo conto sempre della lista di eccezioni.
In ogni file sono
stati raggruppati tutti gli articoli pubblicati in un numero del giornale,
stimando un totale di circa 5000 file per i 16 anni. Poiché ciascun articolo
costituisce un testo independente ai fini della maggior parte delle analisi
linguistiche, sarebbe stato auspicabile inserire ciascun articolo in un file
diverso. Questa strada era comunque difficilmente praticabile visto che avrebbe
portato il numero di file a mezzo milione circa, richiesto uno spazio disco più
grande per la memorizzazione dei testi e dell’indice, e allungato i tempi di risposta in fase di interrogazione. A
questo limite si è cercato di rimediare attraverso la divisione interna di ciascun
file in articoli, indicati attraverso una codifica analoga a quella utilizzata
per titoli, paragrafi e frasi.
Le norme TEI offrono delle linee guida per la codifica di corpora a diversi livelli di profondità. Date le dimensioni del corpus, e la scarsezza di tempo e di risorse umane, abbiamo deciso di limitare la codifica ai soli elementi già codificati in qualche maniera nei CD, o comunque identificabili attraverso procedure automatiche. I primi comprendevano la data e pagina di pubblicazione di ciascun articolo, i titoli (di vari tipi: head, subhead, byline, ecc.), e il corpo dell’articolo (in quest’ultimo non era riportata, purtroppo, la divisione in paragrafi). Fra gli elementi riconoscibili automaticamente, si è scelto di identificare e numerare (a) gli articoli e (b) le frasi, sia per permettere ricerche di co-occorrenze all’interno dello stesso articolo o della stessa frase, sia per facilitare i riferimenti nelle concordanze.
Le norme TEI richiedono che ciascun file sia costituito da un elemento
<TEI.2> con una sua struttura interna ad albero. Al primo livello, un
elemento <TEI.2> deve contenere un <teiHeader>, che fornisce tutte
le informazioni metatestuali relative ad un elemento <text> che lo segue.
Poiché ogni file corrisponde ad un numero del giornale, il <teiHeader>
contiene la data di pubblicazione, oltre ad una serie di informazioni
riassuntive del contenuto (nome del file, procedure editoriali, numero di
articoli, numero di frasi, numero di parole ecc.). L’elemento <text>
contiene una serie di <div>, ciascuno dei quali corrisponde ad un
articolo. I <div> sono a loro volta suddivisi in vari <head>, un
<byline> (che indica l’autore) e un <p> (il corpo del testo) - suddivisi
a loro volta in frasi (<s>). La struttura di ciascun file risulta
pertanto come in Fig. 4.
L’inizio di ciascun elemento in questa struttura viene
indicato da uno start-tag fra parentesi ad angolo, contenente il nome
dell’elemento ed eventuali attributi specifici, e la sua fine con un end-tag,
contentente il nome dell’elemento preceduto dalla barra (/). Ciò porta alla
creazione di file del tipo in Fig. 5.
<TEI.2 id=“XDH”>
<teiHeader> …
<date>sabato 21 aprile 2006</date> … </teiHeader>
<text>
<div id=“XDH001”
n=“1” type=“article”>
<head type=“main”><s
n=“001”> Attentato contro la linguistica.</s></head>
<head type=“sub”><s
n=“002”> Bloccata la didattica in
facoltà.</s></head>
<byline><s n=“003”> Marcella
Arrostita.</s></byline>
<p>
<s n=“004”> Il fumo si leva ancora dai ruderi dell'
aula magna.</s>
<s n=“005”> &bquo; È incredibile
… mi mancano le parole
&equo;, ripete il professore fra le lacrime.</s>
……
</p>
</div>
<div id=“XDH002”
n=“1” type=“article”> …… </div>
</text>
</TEI.2>
Fig. 5. Un articolo codificato. Gli a capo, le rientranze e le variazioni di
font sono assenti dalla versione elettronica. Le sequenze “&xxx;”
indicano entità, in sostituzione di caratteri particolari (accenti, virgolette,
tratti, puntini, ecc.: cfr. 2.2.1 sopra).
Fra i vari attributi
degli elementi (indicati in corsivo in Fig. 5), l’attributo id indica il
nome del file nell’elemento <TEI.2> (cfr. 2.5 sotto), e il nome del file
seguito dal numero dell’articolo nell’elemento <div>. L’attributo n
dell’elemento <div> indica il numero di pagina di pubblicazione, mentre
quello dell’elemento <s> indica il numero sequenziale della frase
all’interno del file. L’attributo
type dell’elemento
<div> è obbligatorio per il software di consultazione SARA, e potrà
servire per introdurre un’eventuale
categorizzazione degli articoli in una fase successiva del lavoro.
La codifica minima utilizzata rimane comunque estendibile in un momento successivo, qualora si trovassero le risorse per - ad esempio - un’analisi grammaticale con classificazione morfosintattica di ciascuna parola (POS tagging: cfr. 4 sotto), oppure semplicemente per indicare i nomi propri come <name>, o le espressioni in lingua straniera come <foreign>.
L’indicizzazione di un corpus di queste dimensioni con SARA richiede
notevoli risorse computazionali, e la dimensione dell’indice (da tre a cinque
volte quella dei testi) è tale da richiedere ogni sforzo di minimizzazione,
anche per ridurre poi i tempi di risposta ad interrogazioni. A questo scopo sono
stati assegnati nomi di solo tre caratteri a ciascun file - il primo che indica
l’anno, il secondo il mese, e il terzo il giorno del mese di quel numero del
giornale. Questi file sono stati poi organizzati in cartelle seguendo la
struttura in Fig. 6.
Anche con questi accorgimenti, per indicizzare i 2000 file dei sette anni 1985-91 sono state necessarie più di 24 ore di calcolo da parte di un sistema Linux di notevole potenza.
SARA permette di
cercare all’interno di un
corpus:
Come risultati di
una ricerca vengono forniti:
E’ inoltre possibile:
Una prima tipologia di dati ricavabili
dal corpus riguarda la frequenza delle parole. Qual è la parola più frequente?
In Fig. 7 sono elencate le forme che compaiono più di 1.500.000 volte nell’indice, ossia più di una volta ogni cento
parole.
Per conoscere invece la frequenza di una stringa di più parole, basta digitarla come quesito. Quante sono le occorrenze di linguistica applicata? Solo una - e neanche questa, si scopre, è un riferimento alla nostra disciplina:
Se l' operazione linguistica applicata al mondo ariostesco di quest' opera che congiunge su un unico schermo teatrale poemi cavallereschi, favole nordiche e storie turchesche, rappresenta l' elemento più originale, gli sforzi scaligeri hanno avuto altre questioni da risolvere. (EAH)
Vista la scarsa
presenza dell’applicata, possiamo anche investigare la parola linguistica (801
occorrenze in 519 numeri del giornale), ed esaminare la sua distribuzione nelle
varie annate (Tab. 3):
1985 |
1986 |
1987 |
1988 |
1989 |
1990 |
1991 |
78 |
77 |
72 |
113 |
170 |
149 |
142 |
Tab. 3. Occorrenze di linguistica
Questi risultati
sembrano suggerire un leggero aumento dell’interesse per la linguistica negli anni in questione, anche se
andrebbero studiati più approfonditamente prima di trarne delle conclusioni
certe.
Possiamo anche vedere quali autori parlano di linguistica: "vince"
Beniamino Placido con 42 articoli contenenti la parola linguistica (su
un totale di ben 1551 articoli suoi nei 7 anni presi in considerazione).
Un corpus con
queste caratteristiche permette studi promettenti sulle collocazioni. Le
tabelle elencano le frequenze dei collocati di applauso/applausi in
uno span di 4 parole a sinistra e 4 parole a destra, in ordine di
significatività decrescente (z-score > 50). Fra i dati potenzialmente
interessanti notiamo l'assenza di forme d del lemma lungo come
collocati della forma plurale (sostituite solo in parte da prolungati),
e l'assenza di forme del lemma fischio come collocati della forma
singolare.
3.2.2 Collocazioni
Un corpus con queste caratteristiche permette studi promettenti sulle collocazioni. Le tabelle elencano le frequenze dei collocati di applauso/applausi in uno span di 4 parole a sinistra e 4 parole a destra, in ordine di significatività decrescente (z-score > 50). Fra i dati potenzialmente interessanti notiamo l’assenza di forme d del lemma lungo come collocati della forma plurale (sostituite solo in parte da prolungati), e l’assenza di forme del lemma fischio come collocati della forma singolare.
|
|
|
Tab. 4. Collocati di applauso/applausi
All’interno del sottocorpus per il 1991 ci sono
22 occorrenze della parola cavolo. È un numero sufficientemente piccolo
da consentire un’agevole visualizzazione, e di consequenza un’analisi più approfondita delle fraseologie in
cui la parola compare.
Se si ordinano le soluzioni in base alla parola che precede cavolo, si
scopre che il senso metaforico è nettamente più frequente di quello letterale,
come era forse prevedibile in testi giornalistici. Cavolo viene
preceduto soprattutto da che (Fig. 10).
Questa concordanza sembrerebbe suggerire che che cavolo vuole/vogliono potrebbe essere una fraseologia ricorrente: tuttavia se cerchiamo nell’intero corpus, troviamo anche altri verbi che accompagnano l’espressione che cavolo con una certa frequenza: dire, entrarci, essere, fare e significare (Fig. 11). Questi esempi sembrano inoltre suggerire un’attribuzione di questa espressione ad un registro parlato - anche se, nel contesto di un quotidiano, sarebbe azzardato ritenere che le citazioni in discorso diretto siano trascrizioni fedeli.
Negli anni 1985-1991
vengono spesso nominati in La Repubblica due personaggi che vedranno
aumentare la loro popolarità negli anni successivi: Romano Prodi e Silvio
Berlusconi. La tabella seguente riporta le frequenze su base annuale - è
evidente un declino di Prodi negli ultimi anni - e la posizione occupata da
questi nomi all’interno della
frase:
|
Prodi |
Berlusconi |
||||
|
totale |
inizio frase |
fine frase |
totale |
inizio frase |
fine frase |
1985 |
703 |
65 (9%) |
59 (8%) |
635 |
40 (6%) |
97 (15%) |
1986 |
664 |
52 (8%) |
63 (9%) |
1330 |
123 (9%) |
196 (15%) |
1987 |
831 |
100 (12%) |
106 (13%) |
1508 |
140 (9%) |
235 (16%) |
1988 |
894 |
95 (11%) |
88 (10%) |
1745 |
155 (9%) |
261 (15%) |
1989 |
780 |
90 (12%) |
81 (10%) |
2376 |
206 (9%) |
343 (14%) |
1990 |
182 |
13 (7%) |
25 (14%) |
2434 |
202 (8%) |
390 (16%) |
1991 |
123 |
9 (7%) |
12 (10%) |
1583 |
113 (7%) |
202 (13%) |
Totale |
4177 |
424 (10%) |
434 (10%) |
11611 |
979 (8%) |
1724 (15%) |
Tab. 5. Prodi e Berlusconi:
frequenze e posizioni sintattiche
Data la lunghezza media della frase nel corpus (22 parole), ci si aspetterebbe (in base ad una distribuzione casuale) che il 5% circa delle occorrenze risultassero come prima parola, e il 5% come ultima parola della frase. Le percentuali sono sempre più alte - un fatto che non sorprenderà, forse, nessun studioso di grammatica. Colpisce invece che mentre Prodi compare con frequenze simili come prima e come ultima parola, Berlusconi mostra una nettissima tendenza a concludere la frase - una tendenza che rimane costante lungo tutto l’arco di tempo esaminato. Lasciamo al lettore l’eventuale interpretazione di questo dato in chiave storico-linguistica.
I primi sette anni
del corpus de La Repubblica (1985-1991) sono ormai funzionanti con il
nome di Reptry sul server della SSLMIT (einstein.sslmit.unibo.it; port
7003). Per accedere al corpus è necessario essere in possesso di:
Nei prossimi mesi speriamo di completare il corpus, con l’aggiunta dei
nove anni rimanenti (1992-2000). In futuro, qualora si renderanno disponibili
le risorse necessarie, vorremmo inoltre:
Aston G. & Burnard
L., The BNC handbook: exploring the British National
Corpus with SARA, Edinburgh University Press, Edinburgh, 1998.
Bernardini S. & Zanettin F. (a cura di), I corpora
nella didattica della traduzione, Cooperativa Libraria Universitaria
Editrice, Bologna, 2000.
Biber D, Variation across speech and writing, Cambridge University
Press, Cambridge, 1988.
Rossini Favretti R., Tamburini F. & De Santis C.,
A corpus of written Italian: a defined and a dynamic model, in A. Wilson, P. Rayson & T. McEnery
(eds.), A rainbow of corpora: corpus linguistics and the languages of the
world, Lincom-Europa, Münich,
in stampa.
Sperberg-McQueen, C.M. & Burnard L.
(eds), Guidelines for text encoding and interchange (P4), Humanities Computing Unit, Oxford University, Oxford,
2002.
Guy Aston
e-mail
<guy@sslmit.unibo.it>
Lorenzo Piccioni
e-mail <lpiccio@sslmit.unibo.it>