(0人评价)
语料库在基础英语教学及研究中的应用
价格 免费

文本:可以用记事本打开的 真实的连续的口语或笔语

标注:对文本加以标记  元信息标注:1.文头信息的标注,非语言信息(出版商,年代,作者等) 2.词性标注:文本词性进行标注

形符(token):独立单词   类符(type):独立词形  类形符比(TTR):类符/形符   标准类形符比:STTR  频数:出现的次数  频率:经过标准化计算的次数

搭配(collocation):词语间的关系   类链接(colligation):词语在语法层面的关系

多词序列:词块,n元组  语义韵:积极消极中性

[展开全文]

语料库基本概念

文本、标注

3.1文本

生文本:未经任何标注的语料

标注文本:经过人工标注或自动标注的语料

标注文本使生文本获得了“增值”

3.2标注

利用各种标签对语料库中的文本的各种属性加以标记。

目的是为了方便开展不同目的的研究。

元信息标注:有关语料库文本的非语言信息。包括引用源、出版商、作者等。

词性赋码(POS tagging):对文本的词性进行标注。

3.3词、形符、类符、类符/行符比

形符token:文本中任何一个独立的单词

类符type:文本中任何一个独特的词行

类行符比type-tpken ratio,TTR

标准类形符比STTR:较为可靠的测量工具

3.4频数、频率

频数frequencies:出现的次数

频率frequency:经过标准化计算得出的次数

3.5搭配、类联接

搭配collocation:词语之间的结伴关系

类联接colligation:词类及语法层面的结伴关系

类联接是搭配的更高层次,与语言的句法方面有密切关系。

3.6多词序列、语义韵

多词序列:词块lexical chunks、词簇word clusters、预制语块prefabricaed chunks、套语formulaic sequences、N元祖N-grams

语义韵:一个词项和一个词项和它的搭配词搭配在一起产生的语义氛围,分为积极、消极和中性三种。

[展开全文]

Lesson3 语料库的基本概念

1.文本

2.标注

元信息标注

词性赋码

3.词、形符、类符、类符/形符比

形符:文本中任何一个独立的单词

类符:文本中任何一个独特的词形 

类形符比 TTR

标准类形符比 STTR

4.频数、频率

5.搭配、类联接

搭配:词与词之间的关系

类联接:词在语法之间的关系

6.多词序列、语义韵

 

[展开全文]