首先需要将word文件转换为txt文件,然后使用文本清洁器清除其中的空格、标点、半脚全脚等等格式,再用上软件:TreeTagger和商用CLAWS
首先需要将word文件转换为txt文件,然后使用文本清洁器清除其中的空格、标点、半脚全脚等等格式,再用上软件:TreeTagger和商用CLAWS
语料库设计的特点
• 需要搜集的语料类型和文类
• 语料来源及获取语料的方法
• 入库文本的基本格式及编码
教学语料库的设计原则
• 教学针对性原则
• 实用性原则
• 开放性、资源共享原则
语料库软件基本操作
词表:词块表
主题词表,观察语料库,参照语料库(不同)
实操主题词分析生成数据表
1. 文本:真实、可由计算机读取
2. 标注:元信息标注、词性赋码POS tagging、语音、语言...
3. token
type
type-token ratio, TTR
STTR
4. 什么是频数frequencies
什么是频率frequency
5. lexical chunks, word clusters, prefabricated chunks, N-grams
课时4—语料库软件基本操作
一、Conccordance检索相关功能
1. Conccordance词汇索引
(1)加载语料库方式
①使用的是BFSU软件
②点击settings(点击file加载单个文本,点击folder可以加载所有文本)
(2)以加载CLUB语料库为例:
基本知识介绍:
①找到对应的文件夹-CLUB文件夹(两种基本形式: CLUB-POS:词性赋码文本/CLUB-RAW:生文本)
③点击CLUB-RAW(生文本):一个单词一个单词类型
点击CLUB-POS(词性赋码文本):英文单词+下划线+大写字母(大写字母即对应单词的词性赋码)
操作一:
①打开BFSU软件
②点击Folders
③选择你所要导入的文件夹
操作二:Concordance检索
④随机输入要检索的内容,如is,并点击search
⑤ is | was:如果要检索现在时和过去式:使用 |(竖杠),如 is | was (如果要看出现的频率:点击右下角的stats.
⑥ @be(屈折形式):如果要检索be动词的所有形式,则使用@键,如检索be动词的所有形式:@be
⑦ a * day(*任意键): *匹配任意一个单词,如a * day, 表示形容所有什么样的一天 (检索at the * of:)
⑧词性码:如NN1-表示单数名词,JJ表示形容词(直接输入即可,在点击search)如 JJ NN1, 表示有形容词修饰的名词
⑨#放在词性类别码之前,匹配该词性大类对应的各词性码子类:如 #n 表示匹配所有的名词
在搜索框输入 #n并点击search-点击所出现的对话框的OK-点击右边的load list-选择所要选择的文件夹,再重新点击search
例如,#adv important:表示搜索有什么副词修饰important
⑩混合表达式:如 @be VVN表示被动语态的所有形式;@be #adv VVN表示被动语态中间出现副词的情况,比如is only answered;it @be #adj that 表示it作形式主语
⑪Case 区分大小写: However/however
⑫Batch search 批量检索:新建文本文档(txt格式)-——输入相关内容,如各类颜色词---选中Batch search---导入对应的文本即可----点击search
P
课时2 语料库应用综述
1.教学语料库的设计原则
a.教学针对性原则
b.实用性原则
c.开放性、资源共享原则
2.文本信息录入及文本赋码
3.语料库创建所需软件介绍
二、语料库设计的特点:
1.需要搜集的语料类型和文类
2.语料来源及获取语料的方法
3.入库文本的基本格式及编码
分档作文的主题词及主题词块的研究
分档作文是指根据作文质量和内容对学生的写作进行分级评定的一种方式。这种评定方法不仅关注作文的语言表达、结构组织,还注重内容的深度和广度。研究分档作文中的主题词及主题词块有助于提升作文评定的科学性和准确性,并为教师和学生提供更有针对性的写作指导。
1. 主题词与主题词块的定义
- 主题词:是指在文章中反复出现、具有高频率且与文章主题紧密相关的核心词汇。主题词通常代表文章的核心概念、中心思想或论点。它们通过集中体现文章的主旨,帮助读者快速把握文章的主题和重点。
- 主题词块:是指由若干个主题相关的词汇构成的语义单元。这些词汇通过并列或组合的方式,表达一个更完整的思想或概念。主题词块通常是词语之间有语法、语义关联的组合体,有助于文章的表达更为连贯和深入。
2. 分档作文中的主题词与主题词块的重要性
在分档作文中,主题词和主题词块的使用情况往往直接影响作文的评分。以下是其重要性体现在几个方面:
- 体现写作深度和广度:高分作文往往能够精准使用主题词,并能够灵活使用主题词块来阐述主题,使文章内容更加丰富和深刻。通过主题词块的恰当运用,能够有效扩展文章的思想层次,增强论证的说服力。
- 提升文章的连贯性和一致性:主题词和主题词块在文章中的合理安排,可以有效增强文章的内在联系,避免因话题跳跃或表达不清而导致的思路混乱。
- 增强语言的精确度和表达的清晰性:正确运用主题词和主题词块可以使文章表达更加简洁明了,避免过于冗长或模糊的表述,使读者能够迅速抓住文章的核心。
3. 分档作文中主题词与主题词块的分析方法
在对分档作文中的主题词与主题词块进行分析时,通常需要以下几种方法:
(1) 词频统计分析
通过词频统计,分析作文中哪些词语出现频率较高。高频词通常就是主题词,能够揭示文章的核心主题。例如,如果一篇文章讨论“环境保护”的话题,那么“环境”、“污染”、“保护”等词语可能会频繁出现。
(2) 主题词块提取
通过语义分析和自然语言处理技术,提取出多个相关词汇组合形成的主题词块。这些词块往往能准确表达一个完整的概念或主旨。例如,在关于“教育改革”的作文中,主题词块可能包括“教育体制”、“教师培训”、“课程改革”等。
(3) 上下文分析
对主题词及其相邻词汇进行上下文分析,研究它们如何在具体的语境中发挥作用。通过考察词汇之间的搭配和句子结构,可以进一步理解主题词块的作用及其对作文结构的影响。
(4) 写作水平与主题词块使用的关系
研究不同档次作文中主题词和主题词块的使用情况,可以帮助明确语言表达与写作水平的关系。例如,高分作文可能会在内容的展开上使用更加复杂且语境契合的主题词块,而低分作文则可能偏向使用简单或不够精准的词汇,导致文章的表达较为单薄。
4. 主题词与主题词块在不同分档作文中的表现
根据分档作文的评定标准,主题词和主题词块在不同评分档次中的表现可能有显著差异:
- 高分作文:
丰富的主题词:高分作文通常在主题展开时,会运用多种相关的主题词,这些词能够准确地表明文章的立意与方向。
恰当的主题词块:高分作文不仅使用单一的主题词,还会通过合理的词块表达复杂的思想。例如,关于“科技进步”的主题词块可能包括“科技创新”、“数字化转型”、“智能化发展”等。
深度与连贯性:高分作文在使用主题词和主题词块时,通常能够层次分明、环环相扣,文章思路清晰、逻辑严密。
- 中分作文:
有限的主题词:中等分作文中,主题词的选择可能较为基础,且在文章中出现的频率有限,可能未能完全表达文章的主题深度。
简易的主题词块:虽然中分作文能够运用主题词块,但往往使用的主题词块较为简单,未能充分展开文章的主题。
一定的逻辑性:中分作文的主题词块往往能够保持一定的连贯性,但可能存在主题词使用不够精准或未能充分展开论点的情况。
- 低分作文:
主题词使用不当或缺失:低分作文通常主题词使用不当,甚至缺乏有效的主题词。主题可能含糊不清,或者主题词与文章内容不匹配。
缺乏主题词块:低分作文通常语言简单,缺乏结构严密的主题词块,导致内容表达单薄或过于零散。
逻辑混乱或重复:低分作文可能存在主题词使用重复、表达混乱的情况,主题块间的关联不强,导致文章缺乏整体性。
5. 教学启示
通过对分档作文中主题词和主题词块的研究,教师可以为学生提供更有针对性的写作指导:
- 引导学生掌握核心主题词的使用:教师可以通过主题词训练,帮助学生在写作中准确选取和运用高频词汇,提升文章主题的集中性。
- 鼓励学生扩展主题词块的使用:通过教学活动,帮助学生掌握如何构建并运用主题词块,使作文内容更加丰富,论证更加有力。
- 强调语言的连贯性和逻辑性:教师应注重引导学生关注主题词和主题词块的合理搭配和上下文的连贯性,帮助学生提高文章的结构性和条理性。
6. 总结
分档作文中的主题词及主题词块是评定作文质量的关键因素之一。通过对这些元素的分析,可以更好地理解学生在写作中对语言的掌握情况,并为学生提供更加精准和有针对性的写作指导。同时,研究这些语言元素的使用规律,也有助于深化对写作教学的理论与实践的理解。
教学语料库(Teaching Corpus)是为了支持语言教学而收集和整理的各种语言资源。 教学语料库中的语料应具有代表性,即所收集的语言样本应能够真实反映目标语言的使用情况。语料库的内容应覆盖日常交流、正式与非正式语境、各类文体以及多种语言变体,从而确保所采集的语料能够广泛代表目标语言的使用场景。
教学语料库也应该涵盖不同类型的文本和语境,既要有口语对话,也要有书面语材料,还应涉及不同年龄、性别、文化背景和教育程度的人群使用的语言。多样性的设计可以帮助学生接触到不同的语言使用场景,从而培养他们的语言能力。
语料库中的各类语言样本应有一定的平衡性,避免某一类型的语料过多或过少,以确保所提供的语言资源能够为不同学习目标提供支持。语料库设计时要平衡不同语域、语体、语境等因素。
教学语料库应注重实际应用,所收集的语料应与学生的学习目标、学习需求和现实生活紧密相关。语料库的设计要考虑学生的语言水平及其实际应用需求,帮助学生在真实语境中理解和运用语言。
语料库的设计应考虑到可操作性和易获取性。语料库的组织方式应便于教师和学生使用,并能够方便地检索和分析语言数据。可以通过数字化、标准化等手段,确保语料的高效使用。
- **数字化管理**:语料库应采取适当的数字化格式,便于存储、查询和共享。
- **工具支持**:提供相应的分析工具,帮助用户对语料进行词汇、语法等方面的分析。
### 6. **更新性原则**
教学语料库应随着语言使用环境的变化而不断更新。语言是不断发展的,新的表达方式、用法和词汇会不断出现,因此,语料库设计要能够适应这些变化,并及时添加新的语言样本。
- **动态更新**:定期补充和更新语料,确保其反映当下语言的最新趋势。
- **长期维护**:语料库的更新和维护应保证其长期有效性和可用性。
### 7. **语境性原则**
教学语料库中的语料应充分体现语境的变化。语言的意义和使用往往受到语境的影响,因此,在设计语料库时,除了收集具体的语言形式外,还应考虑所处的社会文化背景、情境等因素对语言使用的影响。
- **语境提供**:对于每个语料,应尽可能提供具体的语境描述,包括发话者的身份、交际场景、交际目的等信息。
### 8. **语法与语用原则**
语料库设计应涵盖语法与语用两个方面的内容。语法主要指语言的句法、词法结构等,语用则指语言的实际使用和交际中的策略、含义等。因此,语料库应包括语言的形式和功能两个层面的数据。
- **语法结构**:涵盖常见句型、语法规则等。
- **语用功能**:体现语篇中的语言策略、交际目的、言外之意等。
### 总结
教学语料库设计的核心目标是为语言学习提供丰富、真实、多样、实用的语言资源。其设计应遵循代表性、多样性、平衡性、实用性、可获取性、更新性、语境性和语法语用等原则,确保教学语料库能够为不同层次、不同需求的语言学习者提供有效支持,帮助他们在真实的语言环境中提高语言能力。
语料库与教学研究
1.创建小型教学语料库
2.采用语料库工具进行文本,试题分析
3.语料库辅助的学生笔语研究
初高中英语学习者笔语语料库
1.学生笔语产出
2.平时书面表达
3.期中,期末考试书面表达
4.模拟测试书面表达
1.分析包括:文本,词频,易读度,词块,语法结构,语篇分析
2.易读度:自建小型教学用高考题语料库,注意核查核对文本,尽量将试题分类保存,便于研究和写论文
3.写作词汇,标准类型符比,平均词长,低频词对 高频词比率,实词密度,词汇使用情况的定量研究
4.越是高分作文,平均词长就越长
5.各词汇i维度与作文得分具有不同程度的相关性,标准类型符比,平均词长,低频词对高频词比率和实词密度越高,作文得分越高。
6.高三学生写作词汇短语使用情况调查:话题短语,语篇短语,交际短语
7.词汇短语教学启示及后续研究:挖掘教材板块资源,进行话题短语的提取和运用,整合模块教材资源,进行语篇短语和交际短语的提取和运用。后续研究:对本族语者书面语中词汇短语的使用情况进行对比分析
8.连接词使用问题:过度使用,重复使用,错误使用
9.连接词教学建议:教师需要进行作文体裁和如何利用连接词的使用来达到语篇连贯的特点,将学生作文批改和讲评结合起来,经过大量实践和操作。
10.英语高分作文的语言亮点探析:高级词汇,句式结构,连接成分,格谚语,修辞手法
11.语料库与课程标准:多模态,语篇语用语境,主题,动态
分档作文的主题词和主题词块研究
PowerConc
Setting-Folder选参考文本-N-gram List-Save
keyness
放在excel里面做对比,比较不同档作文的特点
分档作文的主题词和主题词块研究
一:各档作文主题词和主题词块的差异
研究对象:某市高三模拟测试作文(100篇)
研究工具:BFSU PowerConc
研究步骤:
1.建立参照语料库的词表和词块词表;
2.生成各档作文的主题词表和主题词块表;
结果与讨论:
各档作文主题词和主题词汇使用情况的差异可以从以下角度分析——
1.词汇难度、丰富度
2.口语化倾向
3.立场词块
4.语篇词块
语料库软件可以统计数据,但是并不能解释数据
。
意义:通过分档作文的主题词看不同档次的作文有什么语言使用特点
使用软件:PowerConc
步骤:1.建立参照语料库的词表和2-3词词块表 (观察2档则3、4、5档为参照)
导入3、4、5档作文,N-gram List Length 1,Save; Length 2, Save; Length 3, Save.
2.生成各档作文的主题词表和2-3词主题词 块表
导入2档作文,N-gram List Length 1,右下角Keyness, Load Ref. Wordlist导入参照语料库词表,点击Count生成二档作文的主题词表,点击Save
N-gram List Length 2, 同上
3.观察分析特点
2档作文相对于其它档作文显著使用的词 或词块(简单如常用词,口语化如第二人称you,I think,缩写)(复杂,派生词,表达观点时更复杂)(复杂程度更高,正式,表达丰富,语篇组织词)
1.主题词指的是一个语料库相对于另一个语料库显著多用的词汇,可以反映语言使用的特点。我们将主题词分析技术应用到分道作文研究中,目的是想通过对比不同档次的作文来考察不同档次的作文各自都有什么样的语言使用特点;
2.涉及两个语料库之间的对比,也就是观察语料库和参照语料库,观察和分析的语料库就叫做观察语料库,用于对比的语料库就叫做参照语料库;
3.power conc软件进行主题词分析时需要两个步骤。第一是需要提前准备好参照语料库的词表或者是词块表。其次第二步才能生成观察语料库的主题词表或者主题词块表;
4.语料库软件统计数据,但是并不能解释数据。在做学术研究中,既要重视对数据的统计和呈现,又要重视对数据的解读。



主题词:一个语料库相对于另一个语料库显著多用的一些人称代词等口语词汇,这些就是主题词,它能在一定程度上反应口语语体的特点
采用主题词分析法考查不同档次的作文各自有什么语言使用特点
一、研究问题
各档作文主题词和主题词块使用情况有何差异?
二、语料来源
某市高三模拟测试作文
题目:义务劳动算学分:太功利还是有必要?
2档至5档作文各随机抽取100篇
2档: 5.5分一 10分 ( 100篇)
3档: 10.5分一 15分 ( 100篇)
4档: 15.5分一 20分 (100篇)
5档: 20.5分一25分 (100 篇)
分档作文语料库(样本)位置:
2017 Corpus\01_ Texts\04_ 作文分析\分档作文RAW
三、研究工具
BFSU PowerConc
四、研究步骤1.建立参照语料库的词表和2-3词词块表2.生成各档作文的主题词表和2-3词主题词块表
五、结果与讨论
各档作文主题词和主题词块使用情况的差异可以从
以下角度分析:
词汇难度、丰富度
口语化倾向
立场词块
语篇词块
思考题
本研究发现的高分作文的语言特征,对英语作文
教学有何启示?
1.主题词指的是一个语料库相对于另一个语料库显著多用的词汇,可以反映语言使用的特点。我们将主题词分析技术应用到分道作文研究中,目的是想通过对比不同档次的作文来考察不同档次的作文各自都有什么样的语言使用特点;
2.涉及两个语料库之间的对比,也就是观察语料库和参照语料库,观察和分析的语料库就叫做观察语料库,用于对比的语料库就叫做参照语料库;
3.power conc软件进行主题词分析时需要两个步骤。第一是需要提前准备好参照语料库的词表或者是词块表。其次第二步才能生成观察语料库的主题词表或者主题词块表;
4.语料库软件统计数据,但是并不能解释数据。在做学术研究中,既要重视对数据的统计和呈现,又要重视对数据的解读。
分档作文的主题词和主题词块研究——作文的语言使用特点
1. definition-主题词:一个语料库相对于另一个语料库显著多用“人称代词”及“缩合形式”
2. 研究文题:S各档作文主题词和主题词块使用情况有何差异?
3. 语料来源:


4. 研究工具:BFSU PowerConc(检索工具)
5. 研究步骤:
(1) 建立参照语料库的词表和2-3词词块表(观察语料库和参照语料库)
(2) 生成各档作文的主题词表和词块表
a. 点击参照语料库(示例中采用的是G345)
b. 在powerconc中点击n-gram list生成词表,并“save”保存。根据词长生成不同词长的词表(一词词表,bi-gram list,trigram list)
c. 加载观察语料库(指g-2),点击n-gram list 生成unigram list(data type,word;length,1;count)————> 点击keyness,加载参照词表(load ref.wordlist),count. 并save。依次重复步骤完成bigram 和trigram的keyword的对比表。

?如何提出其中涉及的主题词并且筛出从试卷文本中摘抄的文字。?

总体呈现用词的复杂性,比如多用派生词(词人员汇的不同形式。)

比如正式的用词,如which is of+抽象名词(如importance),coherence,几乎没有人称代词和缩合形式。
?高分作文所展示的文本特征对于教师教学有什么启示?