Concordance 词汇索引
Collocation/Colligation 搭配/类联接
词性类别:n名词 v动词 adj形容词 adv副词 pron代词 art冠词 det限定词 conj连词 prep介词 num数词
Case 区分大小写 Batch Search 批量检索(先新建一个文本,将需要检索的词输入进去,然后再导入到软件中)
|(同时检索两个,如is | was) @(检索同一屈折的词,如@be) #(检索同一词性类别的词,如#adj)
Concordance 词汇索引
Collocation/Colligation 搭配/类联接
词性类别:n名词 v动词 adj形容词 adv副词 pron代词 art冠词 det限定词 conj连词 prep介词 num数词
Case 区分大小写 Batch Search 批量检索(先新建一个文本,将需要检索的词输入进去,然后再导入到软件中)
|(同时检索两个,如is | was) @(检索同一屈折的词,如@be) #(检索同一词性类别的词,如#adj)
大规模电子文本
语料库与教材编写
Doc ToTxt批量转格式工具
文本整理器 清洁文本
分档作文的主题词和主题词块研究
i话料库
~。
语料库
Lesson1
语料库:大规模电子文本集合/大规模电子文本库
分类:
通用语料库:大而全
专用语料库:只收集某特定领域的语料库样本
BNC 英国国家语料库
COCA美国当代英语语料库
BROWN-LOB
口语/笔语语料库
共时/历时语料库
本族语者/学习者语料库
单语/双语/多语语料库
Lesson2 语料库的应用
1.语料库与词典编纂
COBUILD语料库
朗文字典:唯一释义词汇不超过2000的字典
学习者词典:收词广泛 与时俱进
2.语料库与教材编写
3.语料库与大纲制定
4.语料库与语言测试
5.语料库与教学研究
Sketch engine搜索引擎
语义韵 filter concordance
同义词 Thesaurus
词概差异 word sketch differences
Lesson3 语料库的基本概念
1.文本
2.标注
元信息标注
词性赋码
3.词、形符、类符、类符/形符比
形符:文本中任何一个独立的单词
类符:文本中任何一个独特的词形
类形符比 TTR
标准类形符比 STTR
4.频数、频率
5.搭配、类联接
搭配:词与词之间的关系
类联接:词在语法之间的关系
6.多词序列、语义韵
Lesson4 语料库软件基本操作
一、检索相关功能
1.concordance词汇索引
raw 生文本
pos词性赋码后的文本
举例1:
is (左下角显示出现的频数)
is|was (|表达“或”的意思;右下角statistics可以查看具体分布)
@be (检索be动词所有形式)
举例2: (*用以匹配任意一个单词)
a * day
at the * of
举例3:(词性码)
JJ (形容词)
NN1 (单数名词)
JJ NN1 (检索形容词修饰单数名词的情况)
举例4: (#放在磁性类别码之前,匹配该词性大类对应的各词性码子类, 如 #n匹配所有的名词)
#n (Reduce Pos--- sys--Reduce_POS_CLAWS7)
#adv important (检索有哪些副词会用来修饰important)
#adv different
举例5:(混合表达式)
@be VVN (检索be动词加过去分词的情况)
@be #adv VVN (检索被动语态中间加副词的情况)
it @be #adj that (检索it作形式主语的情况)
举例6:(检索框上面的case是区分大小写功能)
选中case 输入However (检索大写However也即用于句首的情况)
选中case 输入however (检索however在句中的使用情况)
举例7: (批量检索--检索框上的 Batch Search)
新建一个txt文档--输入要批量检索的所有词汇--在检索框中选中Batch Search--点击load list选中txt文档--点击search
小结:
练习题:
检索下列语言形式:
Lesson5
2.Collocation & Colligation 搭配&类联接
以look为例
输入@look--点击sort--设置sort mode (R1 代表 右1)-点击右下角 Coll.--Coll.Span 左边设置为0右边设置为1 (搭配)
-- Data Type选择POS--点击count 会显示look后常接的词性 (类联接)
Lesson 6 语料库软件第二大功能-- N- gram list词表相关功能
1.N-gram list 词表 (涉及1个语料库)
使用NESSIE语料库 RAW
1⃣️N-gram list--- count--freq.(按照频率排序) terms(按照首字母顺序排序)-- word改为Lemma(包含各种屈折形式)--右下角save可以保存词表
2⃣️保存一份length为2的词表
2.Key words list 主题词表 (涉及两个语料库之间的对比)
主题词指的是: -个语料库相对于另一个语料库,频数存在显著差异的词。
生成主题词表需要两个语料库,一个是用于观察和分析的语料库,称为“ 观察语料库”(observed corpus)另个是用于对比的语料库,称为“参照语料库”(reference corpus).
案例:中国中学生与本族语者作文主题词分析
语料库位置:
中国中学生作文语料库TECCL
2017 Corpus\01 Texts\01 软件操作\02 L earner corpora\TECCL middle school samples\TECCL middle_ school RAW
英美本族语者作文语料库NESSIE
2017 Corpus\01_ Texts\O1_ 软件操作\01_ native corpora INESSIEvl. OINESSIEvl RAW
首先加载TECCL语料库,生成一份词表--点击右下角Keyness--点击左上角Load Ref.wordlist--选择之前保存的NESSIE语料库的词表-- count
(显示的结果是中国中学生常用的一些词)
Lesson8 如何创建小型教学语料库
教学语料库设计的原则
文本信息录入及文本赋码
文本文头信息
<GENDER>F</GENDER>,性别:男生M,女生F
<GRADE>1</GRADE>学生所在年级
<SCORE> 19.0</SCORE>分数
<WRITINGDATE> 20160725</WRITINGDATE>如果是平时作文,注明写作的大致日期,按八位数字的写法
<YEAR>2014</YEAR>学生入学(高中/初中)的年份
书面语语料库文头文件
<DICTIONA RY>N</DICTIONARY> (不许字典)
<ENGTEXTBOOK>ADVANCE_WITH_ENGLISH</ENGTEXTBOOK>
<GENDER>M</GENDER>
<GRADE> 1</GRADE>
<ID>01141001</ID>
<PROMPT>AFTER_SCHOOL_ACTIVITIES</PROMPT>
<SCORE> 20</SCORE>
<STYLE>ARG</STYLE>
<TEXTCATEGORY>ASSIGNMENT</TEXTCATEGORY>
<WRITINGDATE> 2014 1001 </WRITINGDATE>
<YEAR> 2014</YEAR>
Raw Text (生文本)
In our school, students are offered much time for after-class activities. Students can do any sports which they like during break time. Between 9:10 a.m. and 9:30 a.m. every eekday
except Monday, students in all the three rades do activities together. Boys in Grade 1 are required to do martial arts while girls are taught to dance.
赋码文本
标点后要空格
录入时,标点要用半角
语料库创建所需软件介绍
Lesson7 创建小型教学语料库(设计原则)
小型教学语料库创建的意义
1.小型教学语料库:精心采集的、旨在帮助语言学习者理解语言现象的小型语料库。
2.服务英语教学:将语料库运用于教学,如词汇、语法、写作等课堂教学设计与实施;为教材(教辅)编写、试题编制提供素材及依据。
3.促进数据驱动教学:以“数据驱动学习”理念,开展‘
”探索式”、“发现式”学习提供可操作的平台。
教学语料库设计的原则
语料库的设计:语料库建设最重要的环节,直接
影响到语料库的质量和使用。
1.教学针对性原则
教材语料库
试题语料库
音频及视频语料库
学生口笔语语料库
2.实用性原则
“微型文本”
按照不同的教学目标,从大型语料库中提取目标
语料制作微型文本,适应课堂教学的要求。
采用自动赋码标软件进行词性和语法标注。
3.开放性、资源共享原则
1.团队合力参与语料的收集、整理和筛选
2.实现语料的动态更新和即时补充
3.在保证语料质量的前提下尽量扩大库容量,使语
料库更具代表性
4.实现资源的开放和共享
语料库设计的要点:
需要搜集的语料类型和文类
语料来源及获取语料的方法
入库文本的基本格式及编码
1.2.1语料的代表性及平衡问题
1⃣️语料类型、文类以及所搜集文本的大小标准的制定
2⃣️阅读文本低于300词的文本不采纳,写作文本低于100词的不采纳
1.2. 2语料的来源及获取
语料库的建库容量决定了该语料库的代表性
语料库是否具有代表性直接关系到在语料库基础上所做出的研究及其结论的可靠性和普遍性
1.2.3语料库文本的基本格式及编码
文本命名原则,尽量采用8位数字及字母编码
格式:纯文本,可用Microsoft Windows的记事本打开
编码: 8位数字
建库之初确定命名方法,以便建子语料库,进行对比研究
教材语料库
将教材文本按模块、板块等切分单独存放
将教学指导语单独存放,减少干扰
将所有文本,采用子文件夹工具进行分类
进行赋码,方便教学研究
教材语料库命名举例
A3SMAU1A
出版信息: A:外研社 3:第三次修订版本
分级: S:高中,J:初中,E:小学
分模块:MA:第一模块,7A:七年级上
分单元、板块: U1:第一单元
A: Welcome板块
B2J7AU2B
高考真题及模拟题语料库
按篇切分,将每篇的阅读文本和题项单独存放
按文体分类,提炼文体特点
按话题分类,提炼话题词汇或拓展话题文本
2016新课标“四选一’ 阅读理解A篇的文本:
2016XKA 1
2015新课标“短文改错”:2015XKP1
中考真题语料库
按篇切分,将每篇的阅读文本和题项单独存放
按文体分类,方便发现-些语 篇特点
按话题分类,方便进行词汇或阅读教学
2016安徽中考卷阅读理解A篇的文本: 2016AHA1
2015新疆中考卷“对话配对”: 2015XJM1
Lesson 9
语料库创建所需软件介绍
创建语料库可用工具
思考题
自建学生笔语语料库,学生作文错误是改动还是不改动?
子文件夹创建工具的用途是什么?
Lesson 10 语料库辅助的词汇教学
语料库与词典编纂
1.语料库在词典编纂中的应用
例一
(使用越频繁的释义越靠前)
“cogn”表示know
例二
标黄都是同义,所以学生要关注后面的内容
语料库与词典编纂对词汇教学的启示
1⃣️词汇的广度和深度知识,词汇的搭配、类
联结、语义韵以及同义词和反义词都是词
汇教学的重要部分。
2⃣️词汇教学需要核心词汇(高频词)优先。
3⃣️词汇教学需要重视词块教学,语用教学
2.利用词典进行命题
Lesson11 在线语料库检索工具
在线语料库检索工具介绍
语料库专家Adam Kilgarriff设计的一种词典编纂
辅助系统
自动整理、分析语料,有效总结词汇、语法知识
主要功能:词汇特性素描,同义词典和词汇素描
异同等
以BNC为例进行检索
英国国家语料库( British National Corpus, BNC)
是可以用于在线Sketch Engine检索的语料库之- - 。
BNC语料库的总词容约1亿,收集的语料来自英
国1970- 1993 年的英语出版物,其中包括9千万
词的书面语文本和1千万词的口语文本。
绿色worthy,红色worthwhile,白色为共有
三列表中,左边是同义词,中间是常用修饰的词,右边是后面接的词
在线语料库检索工具
自动整理、分析语料,有效总结词汇、语法知识
主要功能:词汇特性素描,同义词典和词汇素描
异同等