sort 排序 sort mode 左/右
coll 排序统计 coll. span 排序间距
log-likehood 数值越大,搭配强度越大
sort 排序 sort mode 左/右
coll 排序统计 coll. span 排序间距
log-likehood 数值越大,搭配强度越大
课时4
创建语料库 BFSU PowerConc
加载的语料库是一个文件夹
file :一个
row 生文本
"|”"@#" "a * day" (匹配任意一个单词)
statistic 统计
词性码
JJ 形容词
NN1 单数名词
NN2 复数名词
JJ NN1
Tips: #n 匹配所有的名词
eg: #adv important
混合检索 eg: 被动语态 “@be VVN" "@be #adv VVN" "it @be #adj that"
case----表示现在输入的单词要区分大小写
batch———批量检索(先要建立一个需要检索的单词的文本,再导入到软件中进行检索)
语料库
~。
i话料库
任务七:教学语料库设计的原则
第一部分:教学语料库设计的原则
一
搭配和类联接
1.以look为例 @look
|
定义:按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片段而建立的具有一定容量的大型电子文库。
类型:
通用语料库:大而全,代表一种语言的全貌
(BNC,COCA,BROWN- LOB,CROWN-CLOB)
专用语料库:特性领域的语料库样本
笔语语料库:书面语形式(报刊,书籍,论文等)
口语语料库:口语转写的文本合集,有时也包括语音文本
共时语料库:同一时代的语言使用者样本(横向)
历史语料库:不同时代的语言使用者样本(纵向)
本族语者语料库:本族语者(作为大型参照)
学习者语料库:非本族语学习者(CLEC,SWECCL)
单语语料库:同一种语言
双语语料库:两种语言(多用于翻译)
语料库——大规模电子文本库
通用语料库:BNC(英国) COCA(美国)
笔语语料库/口语语料库
共时语料库(横向)/历时语料库(纵向)
本族语者语料库/学习者语料库——CLEC、SWECCL
单语语料库/双语/多语语料库
通用语料库:大而全
专业:新闻、教学
语料库基本概念
文本、标注
3.1文本
生文本:未经任何标注的语料
标注文本:经过人工标注或自动标注的语料
标注文本使生文本获得了“增值”
3.2标注
利用各种标签对语料库中的文本的各种属性加以标记。
目的是为了方便开展不同目的的研究。
元信息标注:有关语料库文本的非语言信息。包括引用源、出版商、作者等。
词性赋码(POS tagging):对文本的词性进行标注。
3.3词、形符、类符、类符/行符比
形符token:文本中任何一个独立的单词
类符type:文本中任何一个独特的词行
类行符比type-tpken ratio,TTR
标准类形符比STTR:较为可靠的测量工具
3.4频数、频率
频数frequencies:出现的次数
频率frequency:经过标准化计算得出的次数
3.5搭配、类联接
搭配collocation:词语之间的结伴关系
类联接colligation:词类及语法层面的结伴关系
类联接是搭配的更高层次,与语言的句法方面有密切关系。
3.6多词序列、语义韵
多词序列:词块lexical chunks、词簇word clusters、预制语块prefabricaed chunks、套语formulaic sequences、N元祖N-grams
语义韵:一个词项和一个词项和它的搭配词搭配在一起产生的语义氛围,分为积极、消极和中性三种。
一、语料库及其基本概念介绍
1.1定义:大规模电子文本集合
1.2主要类型
1.2.1通用/专用语料库
general corpus:最好的代表一种语言的全貌建成的语料库。
通用语料库举例:BNC英国国家语料库/COCA美国当代英语语料库
specialized corpus:只收集某特定领域的语料库样本
1.2.2笔语、口语语料库
written corpus:书面语。书籍报刊书信学术论文
spoken corpus:口语,包括语音文本
1.2.3共时/历时语料库
synchronic corpus:同时代
diachronic corpus:不同时代
1.2.4本族语者/学习者语料库
native speaker's corpus
learner's corpus(e.g. CLEC《中国学习者英语语料库》)
1.2.5单语/双语/多语语料库
monolingual corpus
parallel/biligual corpus
常见语料库软件操作
小型教学语料库创建
语料库的教学应用
语料库与教学研究
Lesson 20 语料库与教学研究
1.创建小型教学语料库
教材语料库
中考、高考真题及模拟题语料库
初中、高中英语学习者笔语语料库
初中、高中英语学习者口语语料库
初高中英语学习者笔语语料库
学生笔语(书面语)产出
平时书面表达
期中、期末考试书面表达
模拟测试书面表达
2.采用语料库工具进行文本、试题分析
文本分析
词频分析
易读度分析
词块分析
语法结构分析
语篇分析
3.2.1 Readability运用实例一以高考 题为例
自建小型教学用高考题语料库
注意检查核对文本,尽量将试题分类保存,便于研
究和写论文
用软件进行易读度、词数、句数、词长、句长、
(标准)类形符比统计
3.语料库辅助的学生笔语研究
3.3.1研究语料采集
词汇特征量研究的局限
3.3.3基于语料库的高三学生写作词汇短语使用情况调查
词汇短语(词块)提取
许家金和许宗瑞(2007) 的研究把3~6词词汇短语
在语料库中出现的最低频率分别设为:7、7、4、4
次,采用许家金、许宗瑞(2007) 研究的频数采集
后,我们发现数量难以满足本次研究之用,高三学
生的词汇短语产出量毕竟有限,因此本研究选择词
汇短语长度为3~6词,最小频率按照4频次进行提取。
词汇短语教学启示及后续研究
教学启示:
1.挖掘教材板块资源,进行话题短语的提取和运用
2.整合模块教材资源,进行语篇短语和交际短语的提取和运用
后续研究:
对本族语者书面语中词汇短语的使用情况进行对比分析
3. 3.4高中学生英语作文中连接词使用的调查及教学建议
连接词使用问题一(1) 过度使用
学生作文中and的使用为最多,有的学生甚至在一个段落里and到底。虽然and可以用来表达分句与分句、句子与句子之间的多种关系,但过多地使用也没有必要,有时甚至是错误的。学生作文中出现为了连接而连接的情况,结果反而造成冗余,影响了语义衔接。连接词的过度使用,容易造成逻辑不清,甚至混乱,这不能算好作文
连接词使用问题(2)重复使用
恰当地重复某些连接词,可以起到强调篇章纽带的作用,从而达到突出重点的目的。如:and可以和then, yet, still等连用,but可以和on the other
hand, for another, in fact等连用,以更加突出这些连接词后面的内容。(Chalker, 2004)
连接词使用问题(3) 错误使用
没有区分同类的不同连接词语之间的区别而错误使用连接词语
连接词的位置和标点符号使用不当
连接词的词性误用
拼写错误或生造--些连接词语等
连接词教学建议
连接词研究局限
要使学生的作文连贯性强,全面提高学生作文的质
量,仅靠连接词是不够的,还需要其他方式达到语
篇连贯的效果。
3.3.5英语高分作文的语言亮点探析
(Range软件的分析结果显示:
400篇作文总词数为67792词;
《课标》七级词92 .07%;
《课标》八级词2.93%;
《考试说明》补充词汇1.61%;
表外词汇占了3.39%。)
(将W ordsmith 5.0中cluster (词簇)自动析出的所有词簇进行手工筛选,发现:
it结构、there结构 、with和without结构、 定语从句、名词性从句、状语从句、倒装和强调等常见结构出现频率较高。)
亮点分析
3.3.6
Lesson 19
语料库分析工具Power Conc
2.语料库分析软件PowerConc
中国外语教育研究中心许家金教授、梁茂成教授和
贾云龙老师设计
使用说明:
许家金,贾云龙.基于R-gram的语料库分析软件
PowerConc的设计与开发[J].外语电化教学,2013(1).
PowerConc主要功能
词表(wordlist):词频,主题
语境共现(Concordance) :例句检索
搭配(Collocation) :搭配及强度检索
词块(N-gram list) :各种词块
主题词表(Keyword):文本对比
1.检索
@be 出现Be的所有词形
#代表词性
*代表任意词
如:a * of
混合检索:it @be * that
(it is said that, it is apparent that ....)
it @be #adj to #v
2.wordlist&word frequency
Data type中:word可以理解为形符,Lemma可以理解为类符
3. N-gram (词块,词簇,语块,N元组)
4. Concordance (语境共现)
也就是输入词的前几个词和后几个词,即语境
Lesson18 语料库与教学研究
写作文本测量工具介绍
易读度软件Readability Analyzer
词汇统计软件AntwordProfiler
赋码工具TreeTagger, CLAWS 7
对高三高分档作文易读度的统计
2.蚂蚁软件 文本词汇概貌统计
3.Tree Tagger,CLAWS7赋码软件
(可以统计出文本中各种词性的ci hu)
Lesson17 分档作文的主题词和主题词块研究
主题词:一个语料库相对于另一个语料库显著多用的一些人称代词等口语词汇,这些就是主题词,它能在一定程度上反应口语语体的特点
采用主题词分析法考查不同档次的作文各自有什么语言使用特点
一、研究问题
各档作文主题词和主题词块使用情况有何差异?
二、语料来源
某市高三模拟测试作文
题目:义务劳动算学分:太功利还是有必要?
2档至5档作文各随机抽取100篇
2档: 5.5分一 10分 ( 100篇)
3档: 10.5分一 15分 ( 100篇)
4档: 15.5分一 20分 (100篇)
5档: 20.5分一25分 (100 篇)
分档作文语料库(样本)位置:
2017 Corpus\01_ Texts\04_ 作文分析\分档作文RAW
三、研究工具
BFSU PowerConc
四、研究步骤
1.
2.生成各档作文的主题词表和2-3词主题词块表
五、结果与讨论
各档作文主题词和主题词块使用情况的差异可以从
以下角度分析:
词汇难度、丰富度
口语化倾向
立场词块
语篇词块
思考题
本研究发现的高分作文的语言特征,对英语作文
教学有何启示?
Lesson 16 易读度软件使用
Readability Analyzer2.0
ASL平均句子长度
AWL平均单词长度(音节数)
STTR标准类符形符比(1.0版本中才有)
易读度解读
高考文本的易读度一直稳定在50-60之间
小结
测试分析的常见软件
测试分析中的几点关注