(0人评价)
语料库在基础英语教学及研究中的应用
价格 免费

Lesson 10 语料库辅助的词汇教学

语料库与词典编纂

1.语料库在词典编纂中的应用

例一

(使用越频繁的释义越靠前)

“cogn”表示know

例二

标黄都是同义,所以学生要关注后面的内容

语料库与词典编纂对词汇教学的启示
1⃣️词汇的广度和深度知识,词汇的搭配、类
联结、语义韵以及同义词和反义词都是词
汇教学的重要部分。
2⃣️词汇教学需要核心词汇(高频词)优先。
3⃣️词汇教学需要重视词块教学,语用教学


2.利用词典进行命题

[展开全文]

Lesson 9

语料库创建所需软件介绍

创建语料库可用工具

  • DocToTxt批量转格式工具
  • 文本整理器 清洁文本
  • Tree Tagger 3.0自动词性赋码器
  • CLAWS 7 POS工具
  • Sub-corpus Creator子文件夹创建工具 (\S+表示非空格)

思考题
自建学生笔语语料库,学生作文错误是改动还是不改动?
子文件夹创建工具的用途是什么?

 

 

[展开全文]

Lesson7 创建小型教学语料库(设计原则)

 

小型教学语料库创建的意义

1.小型教学语料库:精心采集的、旨在帮助语言学习者理解语言现象的小型语料库。
2.服务英语教学:将语料库运用于教学,如词汇、语法、写作等课堂教学设计与实施;为教材(教辅)编写、试题编制提供素材及依据。
3.促进数据驱动教学:以“数据驱动学习”理念,开展‘
”探索式”、“发现式”学习提供可操作的平台。

 

教学语料库设计的原则

语料库的设计:语料库建设最重要的环节,直接
影响到语料库的质量和使用。
1.教学针对性原则

教材语料库
试题语料库
音频及视频语料库
学生口笔语语料库


2.实用性原则

“微型文本”
按照不同的教学目标,从大型语料库中提取目标
语料制作微型文本,适应课堂教学的要求。
采用自动赋码标软件进行词性和语法标注。


3.开放性、资源共享原则

1.团队合力参与语料的收集、整理和筛选
2.实现语料的动态更新和即时补充
3.在保证语料质量的前提下尽量扩大库容量,使语
料库更具代表性
4.实现资源的开放和共享

语料库设计的要点:

需要搜集的语料类型和文类
语料来源及获取语料的方法
入库文本的基本格式及编码

1.2.1语料的代表性及平衡问题
1⃣️语料类型、文类以及所搜集文本的大小标准的制定
2⃣️阅读文本低于300词的文本不采纳,写作文本低于100词的不采纳

1.2. 2语料的来源及获取
语料库的建库容量决定了该语料库的代表性
语料库是否具有代表性直接关系到在语料库基础上所做出的研究及其结论的可靠性和普遍性

1.2.3语料库文本的基本格式及编码
文本命名原则,尽量采用8位数字及字母编码
格式:纯文本,可用Microsoft Windows的记事本打开
编码: 8位数字
建库之初确定命名方法,以便建子语料库,进行对比研究

教材语料库
将教材文本按模块、板块等切分单独存放
将教学指导语单独存放,减少干扰
将所有文本,采用子文件夹工具进行分类
进行赋码,方便教学研究

教材语料库命名举例
A3SMAU1A
出版信息: A:外研社 3:第三次修订版本
分级: S:高中,J:初中,E:小学
分模块:MA:第一模块,7A:七年级上
分单元、板块: U1:第一单元
A: Welcome板块
B2J7AU2B

高考真题及模拟题语料库
按篇切分,将每篇的阅读文本和题项单独存放
按文体分类,提炼文体特点
按话题分类,提炼话题词汇或拓展话题文本
2016新课标“四选一’ 阅读理解A篇的文本:
2016XKA 1
2015新课标“短文改错”:2015XKP1

中考真题语料库
按篇切分,将每篇的阅读文本和题项单独存放
按文体分类,方便发现-些语 篇特点
按话题分类,方便进行词汇或阅读教学
2016安徽中考卷阅读理解A篇的文本: 2016AHA1
2015新疆中考卷“对话配对”: 2015XJM1

[展开全文]

Lesson8 如何创建小型教学语料库


教学语料库设计的原则
文本信息录入及文本赋码

文本文头信息
<GENDER>F</GENDER>,性别:男生M,女生F
<GRADE>1</GRADE>学生所在年级
<SCORE> 19.0</SCORE>分数
<WRITINGDATE> 20160725</WRITINGDATE>如果是平时作文,注明写作的大致日期,按八位数字的写法
<YEAR>2014</YEAR>学生入学(高中/初中)的年份

书面语语料库文头文件
<DICTIONA RY>N</DICTIONARY>  (不许字典)
<ENGTEXTBOOK>ADVANCE_WITH_ENGLISH</ENGTEXTBOOK>
<GENDER>M</GENDER>
<GRADE> 1</GRADE>
<ID>01141001</ID>
<PROMPT>AFTER_SCHOOL_ACTIVITIES</PROMPT>
<SCORE> 20</SCORE>
<STYLE>ARG</STYLE>
<TEXTCATEGORY>ASSIGNMENT</TEXTCATEGORY>
<WRITINGDATE> 2014 1001 </WRITINGDATE>
<YEAR> 2014</YEAR>
 

Raw Text (生文本)
In our school, students are offered much time for after-class activities. Students can do any sports which they like during break time. Between 9:10 a.m. and 9:30 a.m. every eekday
except Monday, students in all the three rades do activities together. Boys in Grade 1 are required to do martial arts while girls are taught to dance.

赋码文本

标点后要空格

录入时,标点要用半角

语料库创建所需软件介绍

[展开全文]

Lesson 6 语料库软件第二大功能-- N- gram list词表相关功能

 

1.N-gram list 词表 (涉及1个语料库)

使用NESSIE语料库 RAW

1⃣️N-gram list--- count--freq.(按照频率排序) terms(按照首字母顺序排序)-- word改为Lemma(包含各种屈折形式)--右下角save可以保存词表

2⃣️保存一份length为2的词表

2.Key words list 主题词表 (涉及两个语料库之间的对比)

主题词指的是: -个语料库相对于另一个语料库,频数存在显著差异的词。

生成主题词表需要两个语料库,一个是用于观察和分析的语料库,称为“ 观察语料库”(observed corpus)另个是用于对比的语料库,称为“参照语料库”(reference corpus).

案例:中国中学生与本族语者作文主题词分析

语料库位置:
中国中学生作文语料库TECCL
2017 Corpus\01 Texts\01 软件操作\02 L earner corpora\TECCL middle school samples\TECCL middle_ school RAW
英美本族语者作文语料库NESSIE
2017 Corpus\01_ Texts\O1_ 软件操作\01_ native corpora INESSIEvl. OINESSIEvl RAW

首先加载TECCL语料库,生成一份词表--点击右下角Keyness--点击左上角Load Ref.wordlist--选择之前保存的NESSIE语料库的词表-- count

(显示的结果是中国中学生常用的一些词)

[展开全文]

Lesson5 

2.Collocation & Colligation 搭配&类联接

以look为例

输入@look--点击sort--设置sort mode (R1 代表 右1)-点击右下角 Coll.--Coll.Span 左边设置为0右边设置为1 (搭配)

-- Data Type选择POS--点击count 会显示look后常接的词性 (类联接)

[展开全文]

Lesson4 语料库软件基本操作

一、检索相关功能

1.concordance词汇索引

raw 生文本

pos词性赋码后的文本

举例1:

is  (左下角显示出现的频数)

is|was   (|表达“或”的意思;右下角statistics可以查看具体分布)

@be (检索be动词所有形式)

举例2: (*用以匹配任意一个单词)

a * day

at the * of

举例3:(词性码)

JJ  (形容词)

NN1  (单数名词)

JJ NN1  (检索形容词修饰单数名词的情况)

举例4: (#放在磁性类别码之前,匹配该词性大类对应的各词性码子类, 如 #n匹配所有的名词)

#n  (Reduce Pos--- sys--Reduce_POS_CLAWS7)

#adv important  (检索有哪些副词会用来修饰important)

#adv different

举例5:(混合表达式)

@be VVN (检索be动词加过去分词的情况)

@be #adv VVN (检索被动语态中间加副词的情况)

it @be #adj that  (检索it作形式主语的情况)

举例6:(检索框上面的case是区分大小写功能)

选中case 输入However (检索大写However也即用于句首的情况)

选中case 输入however (检索however在句中的使用情况)

举例7: (批量检索--检索框上的 Batch Search)

新建一个txt文档--输入要批量检索的所有词汇--在检索框中选中Batch Search--点击load list选中txt文档--点击search

小结:

练习题:

检索下列语言形式:

  • 1. have或has  (have | has)
  • 2. make的所有屈折形式 (@make)
  • 3. a +任意词+of (a * of)
  • 4.形容词修饰hair (#adj hair)
  • 5.完成时 (@have VVN)
  • 6.Though/though区分大小写(勾选case)
[展开全文]

Lesson3 语料库的基本概念

1.文本

2.标注

元信息标注

词性赋码

3.词、形符、类符、类符/形符比

形符:文本中任何一个独立的单词

类符:文本中任何一个独特的词形 

类形符比 TTR

标准类形符比 STTR

4.频数、频率

5.搭配、类联接

搭配:词与词之间的关系

类联接:词在语法之间的关系

6.多词序列、语义韵

 

[展开全文]

Lesson2 语料库的应用

1.语料库与词典编纂

COBUILD语料库

朗文字典:唯一释义词汇不超过2000的字典

学习者词典:收词广泛 与时俱进

  • 语料库为选词立目提供客观依据
  • 语料库提高词典释义的完备性和准确度
  • 语料库为词典提供真实而具有代表性的例证
  • 语料库为词典更新与修订提供保障

2.语料库与教材编写

  • 语料库是教材的语料源泉
  • 语料库上检验教材的手段
  • 基于词频的教材词汇广度分析
  • 基于语义频数的教材词汇深度

3.语料库与大纲制定

  • 语料库与核心词汇(基本词汇)(最常见的700词可以覆盖70%的文本;最常见的1500词可以覆盖76%的文本;最常见的2500词可以覆盖80%的文本。)
  • 尽可能提高核心词汇的覆盖率
  • 严格控制课文长度和生词数量
  • 提高生词的复现率
  • 对常用词语搭配的选择的重视

4.语料库与语言测试

  • 从语料库中获得一些常用的词汇、短语、句子、语法结构等进行测试
  • 语料库有可能提升语言能力水平测试中的透明性、连续性和可比较性
  • 进行评分量表的制定和试题编制
  • 借助语料库进行语言测试效度的验证

5.语料库与教学研究

  • 借助在线语料库搜索引擎,进行词汇教学
  • 创建微本语料库,进行词汇教学、阅读、写作教学
  • 创建小型学习者语料库,进行学生写作共性错误研究

 

Sketch engine搜索引擎

语义韵 filter concordance

同义词 Thesaurus

词概差异 word sketch differences

 

 

[展开全文]

Lesson1

语料库:大规模电子文本集合/大规模电子文本库

 

分类:

通用语料库:大而全

专用语料库:只收集某特定领域的语料库样本

BNC 英国国家语料库

COCA美国当代英语语料库

BROWN-LOB

口语/笔语语料库

共时/历时语料库

本族语者/学习者语料库

单语/双语/多语语料库

 

 

 

[展开全文]