(0人评价)
语料库在基础英语教学及研究中的应用
价格 免费

sort  排序      sort mode 左/右

coll 排序统计    coll. span 排序间距

log-likehood 数值越大,搭配强度越大

[展开全文]

课时4

创建语料库 BFSU PowerConc

加载的语料库是一个文件夹

file :一个

row 生文本

 

"|”"@#"     "a * day" (匹配任意一个单词)

statistic 统计

 

词性码

JJ 形容词

NN1 单数名词

NN2 复数名词

JJ NN1

Tips: #n 匹配所有的名词

eg: #adv important

混合检索   eg: 被动语态  “@be VVN" "@be #adv VVN"   "it @be #adj that"

 

case----表示现在输入的单词要区分大小写

batch———批量检索(先要建立一个需要检索的单词的文本,再导入到软件中进行检索)

[展开全文]

任务七:教学语料库设计的原则

第一部分:教学语料库设计的原则

[展开全文]

搭配和类联接

1.以look为例  @look

 

[展开全文]

定义:按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片段而建立的具有一定容量的大型电子文库

类型:

通用语料库:大而全,代表一种语言的全貌

(BNC,COCA,BROWN- LOB,CROWN-CLOB)

专用语料库:特性领域的语料库样本

笔语语料库:书面语形式(报刊,书籍,论文等)

口语语料库:口语转写的文本合集,有时也包括语音文本

共时语料库:同一时代的语言使用者样本(横向)

历史语料库:不同时代的语言使用者样本(纵向)

本族语者语料库:本族语者(作为大型参照)

学习者语料库:非本族语学习者(CLEC,SWECCL)

单语语料库:同一种语言

双语语料库:两种语言(多用于翻译)

[展开全文]

语料库——大规模电子文本库

通用语料库:BNC(英国) COCA(美国)

笔语语料库/口语语料库

共时语料库(横向)/历时语料库(纵向)

本族语者语料库/学习者语料库——CLEC、SWECCL

单语语料库/双语/多语语料库

 

[展开全文]

通用语料库:大而全

专业:新闻、教学

[展开全文]

语料库基本概念

文本、标注

3.1文本

生文本:未经任何标注的语料

标注文本:经过人工标注或自动标注的语料

标注文本使生文本获得了“增值”

3.2标注

利用各种标签对语料库中的文本的各种属性加以标记。

目的是为了方便开展不同目的的研究。

元信息标注:有关语料库文本的非语言信息。包括引用源、出版商、作者等。

词性赋码(POS tagging):对文本的词性进行标注。

3.3词、形符、类符、类符/行符比

形符token:文本中任何一个独立的单词

类符type:文本中任何一个独特的词行

类行符比type-tpken ratio,TTR

标准类形符比STTR:较为可靠的测量工具

3.4频数、频率

频数frequencies:出现的次数

频率frequency:经过标准化计算得出的次数

3.5搭配、类联接

搭配collocation:词语之间的结伴关系

类联接colligation:词类及语法层面的结伴关系

类联接是搭配的更高层次,与语言的句法方面有密切关系。

3.6多词序列、语义韵

多词序列:词块lexical chunks、词簇word clusters、预制语块prefabricaed chunks、套语formulaic sequences、N元祖N-grams

语义韵:一个词项和一个词项和它的搭配词搭配在一起产生的语义氛围,分为积极、消极和中性三种。

[展开全文]

一、语料库及其基本概念介绍

1.1定义:大规模电子文本集合

1.2主要类型

1.2.1通用/专用语料库

 general corpus:最好的代表一种语言的全貌建成的语料库。

通用语料库举例:BNC英国国家语料库/COCA美国当代英语语料库

specialized corpus:只收集某特定领域的语料库样本

1.2.2笔语、口语语料库

written corpus:书面语。书籍报刊书信学术论文

spoken corpus:口语,包括语音文本

1.2.3共时/历时语料库

synchronic corpus:同时代

diachronic corpus:不同时代

1.2.4本族语者/学习者语料库

native speaker's corpus

learner's corpus(e.g. CLEC《中国学习者英语语料库》)

1.2.5单语/双语/多语语料库

monolingual corpus

parallel/biligual corpus

常见语料库软件操作

小型教学语料库创建

语料库的教学应用

语料库与教学研究

[展开全文]

Lesson 20 语料库与教学研究

1.创建小型教学语料库

教材语料库
中考、高考真题及模拟题语料库
初中、高中英语学习者笔语语料库
初中、高中英语学习者口语语料库

初高中英语学习者笔语语料库
学生笔语(书面语)产出
平时书面表达
期中、期末考试书面表达
模拟测试书面表达


2.采用语料库工具进行文本、试题分析

文本分析
词频分析
易读度分析
词块分析
语法结构分析
语篇分析

3.2.1 Readability运用实例一以高考 题为例
自建小型教学用高考题语料库
注意检查核对文本,尽量将试题分类保存,便于研
究和写论文
用软件进行易读度、词数、句数、词长、句长、
(标准)类形符比统计


3.语料库辅助的学生笔语研究

3.3.1研究语料采集

  • 本研究采取书面表达整体分层抽样的方法,进行了数据收集。从28,000多份试卷中,随机抽取作文得分五档至二档的试卷各100份,共400份。
  • 没有采用一档作文的原因有二: -是一档作文中的词汇短语数比较少,二是该档出现的词汇短语错误较多,无法保证样本的质量。
  • 抽样的扫描本请专人录入到Microsoft Word中转化为电子
    文本,然后再经第二人校对。在样本全部收集完成之后,再对所有文本进行一次校对,以保证研究的有效性。400份文本的词数为:五档作文共18,679词, 四档作文共16,489词, 三档16,694词, 二档12,411词,语料库总词数为64 ,273。
  • 写作词汇;标准类形符比;平均词长;低频词对高频词比率;实词密度
  • 词汇使用情况的定量研究可以通过词汇软件Range和语料库检索工具Wordsmith 5.0软件实现。
  • AntwordProfiler, PowerConc

词汇特征量研究的局限

  • 没有考虑短语的使用。比如:某些词汇本身属于最常用的前1000词,但他们组成的短语对写作者的英语水平有较高的要求。
  • 部分作文出现了低频词,但其使用并不恰当,因此低频词也不能全面反映学生词汇的真正掌握程度。
  • 探讨了常用的四个词汇维度,而没有考虑文章结构、修辞、写作策略及语言知识的其他方面对写作得分的影响。

3.3.3基于语料库的高三学生写作词汇短语使用情况调查

  • 话题短语(Topic-related phrases)即与主题相关的具体短语,对于题目的展开提供帮助和支持。
  • 语篇短语(Discourse devices) :指具有衔接功能,连接句子内部或句子间的两个成分的词汇短语。
  • 交际短语(Interactive devices) :也叫态度立场短语(赵晓临,卫乃兴,2010)表达对某件事的观点或态度的词汇短语

词汇短语(词块)提取
许家金和许宗瑞(2007) 的研究把3~6词词汇短语
在语料库中出现的最低频率分别设为:7、7、4、4
次,采用许家金、许宗瑞(2007) 研究的频数采集
后,我们发现数量难以满足本次研究之用,高三学
生的词汇短语产出量毕竟有限,因此本研究选择词
汇短语长度为3~6词,最小频率按照4频次进行提取。

词汇短语教学启示及后续研究
教学启示:
1.挖掘教材板块资源,进行话题短语的提取和运用
2.整合模块教材资源,进行语篇短语和交际短语的提取和运用
后续研究:
对本族语者书面语中词汇短语的使用情况进行对比分析

3. 3.4高中学生英语作文中连接词使用的调查及教学建议

  • 连接词(话语联系语,discoursal connectives)
  • 从功能.上来看,连接词是为了明确语言片断之间的意义而使用的表示种种转承关系的语篇成分。

连接词使用问题一(1) 过度使用
学生作文中and的使用为最多,有的学生甚至在一个段落里and到底。虽然and可以用来表达分句与分句、句子与句子之间的多种关系,但过多地使用也没有必要,有时甚至是错误的。学生作文中出现为了连接而连接的情况,结果反而造成冗余,影响了语义衔接。连接词的过度使用,容易造成逻辑不清,甚至混乱,这不能算好作文

连接词使用问题(2)重复使用
恰当地重复某些连接词,可以起到强调篇章纽带的作用,从而达到突出重点的目的。如:and可以和then, yet, still等连用,but可以和on the other
hand, for another, in fact等连用,以更加突出这些连接词后面的内容。(Chalker, 2004)

连接词使用问题(3) 错误使用
没有区分同类的不同连接词语之间的区别而错误使用连接词语
连接词的位置和标点符号使用不当
连接词的词性误用
拼写错误或生造--些连接词语等

连接词教学建议

  • 教师需要进行作文体裁和如何利用连接词的使用来达到语篇连贯的教学,也要交给学生如何利用连接词使语篇成为连贯的整体。
  • 将学生作文批改和讲评结合起来。
  • 经过大量的有针对性的训练和实践,学生运用连接词的能力一定会有明显改善,进而使写作能力也得到大幅度的提高。

连接词研究局限
要使学生的作文连贯性强,全面提高学生作文的质
量,仅靠连接词是不够的,还需要其他方式达到语
篇连贯的效果。

3.3.5英语高分作文的语言亮点探析

  • 高级词汇

(Range软件的分析结果显示:
400篇作文总词数为67792词;
《课标》七级词92 .07%;
《课标》八级词2.93%;
《考试说明》补充词汇1.61%;
表外词汇占了3.39%。)

  • 句式结构

(将W ordsmith 5.0中cluster (词簇)自动析出的所有词簇进行手工筛选,发现:
it结构、there结构 、with和without结构、 定语从句、名词性从句、状语从句、倒装和强调等常见结构出现频率较高。)

  • 连接成分

  • 格言谚语

  • 修辞手法

亮点分析

3.3.6

[展开全文]

Lesson 19 

语料库分析工具Power Conc

2.语料库分析软件PowerConc
中国外语教育研究中心许家金教授、梁茂成教授和
贾云龙老师设计
使用说明:
许家金,贾云龙.基于R-gram的语料库分析软件
PowerConc的设计与开发[J].外语电化教学,2013(1).

PowerConc主要功能
词表(wordlist):词频,主题
语境共现(Concordance) :例句检索
搭配(Collocation) :搭配及强度检索
词块(N-gram list) :各种词块
主题词表(Keyword):文本对比

1.检索

@be 出现Be的所有词形

#代表词性

*代表任意词

如:a * of

混合检索:it @be * that

(it is said that, it is apparent that ....)

it @be #adj to #v

2.wordlist&word frequency

Data type中:word可以理解为形符,Lemma可以理解为类符

3. N-gram (词块,词簇,语块,N元组)

4. Concordance (语境共现)

也就是输入词的前几个词和后几个词,即语境

[展开全文]

Lesson18 语料库与教学研究

写作文本测量工具介绍
易读度软件Readability Analyzer
词汇统计软件AntwordProfiler
赋码工具TreeTagger, CLAWS 7

对高三高分档作文易读度的统计

2.蚂蚁软件 文本词汇概貌统计

3.Tree Tagger,CLAWS7赋码软件

(可以统计出文本中各种词性的ci hu)

[展开全文]

Lesson17 分档作文的主题词和主题词块研究

主题词:一个语料库相对于另一个语料库显著多用的一些人称代词等口语词汇,这些就是主题词,它能在一定程度上反应口语语体的特点

采用主题词分析法考查不同档次的作文各自有什么语言使用特点

一、研究问题
各档作文主题词和主题词块使用情况有何差异?

二、语料来源
某市高三模拟测试作文
题目:义务劳动算学分:太功利还是有必要?
2档至5档作文各随机抽取100篇

2档: 5.5分一 10分 ( 100篇)
3档: 10.5分一 15分 ( 100篇)
4档: 15.5分一 20分 (100篇)
5档: 20.5分一25分 (100 篇)
分档作文语料库(样本)位置:
2017 Corpus\01_ Texts\04_ 作文分析\分档作文RAW

三、研究工具
BFSU PowerConc

四、研究步骤

1.

2.生成各档作文的主题词表和2-3词主题词块表

五、结果与讨论
各档作文主题词和主题词块使用情况的差异可以从
以下角度分析:
词汇难度、丰富度
口语化倾向
立场词块
语篇词块

思考题
本研究发现的高分作文的语言特征,对英语作文
教学有何启示?

[展开全文]

Lesson 16 易读度软件使用

Readability Analyzer2.0

ASL平均句子长度

AWL平均单词长度(音节数)

STTR标准类符形符比(1.0版本中才有)

易读度解读

高考文本的易读度一直稳定在50-60之间

小结
测试分析的常见软件

  • Sub-corpus Creator创建子文件夹,归类分析
  • AntWord Profiler 1.4词数及词汇分级统计
  • Readability Analyzer 1.0词数、平均词长、平均句长、难度统计

测试分析中的几点关注

  • 自建小型教学/命题专用语料库
  • 注意检查核对文本,将试题分类保存,方便教学研究
  • 进行易读度、词数、句数、词长、句长、(标准)类形符比统计
  • 谨慎处理超纲词汇,替换还是中文标注
[展开全文]

授课教师

课程特色

视频(20)
作业(1)
图文(1)