分档作文的主题词和主题词块研究
一、研究问题:各档作文主题词和主题词块使用情况有何差异?
二、语料来源
三、研究工具: BFSU PowerConc
四、研究步骤:
1、建立参照语料库的词表和2-3词词块表
2、生成各档作文的主题词表和2-3词主题词块表
五、结果与讨论:
各档作文主题词和注意词块使用情况的差异可以从一下角度分析:
1、词汇难度丰富度
2、口语化倾向
3、立场词块
4、语篇词块
分档作文的主题词和主题词块研究
一、研究问题:各档作文主题词和主题词块使用情况有何差异?
二、语料来源
三、研究工具: BFSU PowerConc
四、研究步骤:
1、建立参照语料库的词表和2-3词词块表
2、生成各档作文的主题词表和2-3词主题词块表
五、结果与讨论:
各档作文主题词和注意词块使用情况的差异可以从一下角度分析:
1、词汇难度丰富度
2、口语化倾向
3、立场词块
4、语篇词块
主题词是指在一个语料库中显著多于另一个语料库的词汇,它能够反映出该语料库的语言使用特点。我们将主题词分析技术应用于分道作文研究,旨在对比不同档次作文的语言使用特征,以了解各级别作文的独特之处。
这项研究涉及两个语料库的对比分析:观察语料库是我们关注的对象,而参照语料库则用于进行对比。
使用power conc软件进行主题词分析时,可以分为两个步骤。首先,需要准备参照语料库的词表或词块表;其次,才能生成观察语料库的主题词表或主题词块表。
语料库软件可以统计数据,但无法解释这些数据。在学术研究中,我们需要同时重视数据的统计和呈现,以及对数据的深入解读。
1.教学语料库设计的原则
a.教学针对性原则
b.实用性原则
c.开放性、资源共享原则
2.文本信息录入及文本赋码
3.语料库创建所需软件介绍
二、语料库设计的特点:
1.需要搜集的语料类型和文类
2.语料来源及获取语料的方法
3.入库文本的基本格式及编码
分档作文的主题词和主题词块研究
一、研究问题:各档作文主题词和主题词块使用情况有何差异?
二、语料来源
三、研究工具: BFSU PowerConc
四、研究步骤:
1、建立参照语料库的词表和2-3词词块表
2、生成各档作文的主题词表和2-3词主题词块表
五、结果与讨论:
各档作文主题词和注意词块使用情况的差异可以从一下角度分析:
1、词汇难度丰富度
2、口语化倾向
3、立场词块
4、语篇词块
课时17
1.主题词指的是一个语料库相对于另一个语料库显著多用的词汇,可以反映语言使用的特点。我们将主题词分析技术应用到分道作文研究中,目的是想通过对比不同档次的作文来考察不同档次的作文各自都有什么样的语言使用特点;
2.涉及两个语料库之间的对比,也就是观察语料库和参照语料库,观察和分析的语料库就叫做观察语料库,用于对比的语料库就叫做参照语料库;
3.power conc软件进行主题词分析时需要两个步骤。第一是需要提前准备好参照语料库的词表或者是词块表。其次第二步才能生成观察语料库的主题词表或者主题词块表;
4.语料库软件统计数据,但是并不能解释数据。在做学术研究中,既要重视对数据的统计和呈现,又要重视对数据的解读。
工具:
DocToTxt批量转格式工具
文本整理器,清洁文本
Tree Tagger 3.0 自动词性赋码器
CLAWS 7 POS 工具
Sub-corpus Creator 子文件夹创建工具
教材语料库命名:
出版信息,分级,分模块,分单元。
按篇切分,按文体分类,按话题分类。

doctotext
提前新建文件夹 eg. 01txt
文本整理器(批量处理)

tree-tagger(标注软件)

子文件夹创建工具

非空格 \S+
e.g. >F< 女生作文
创建小学教学语料库的意义

设计原则
1.教学针对性原则(教材试题音频口语) 2. 实用性 3.开放性、资源共享原则



语料的代表性及平衡问题——阅读文本低于300词的文本不采纳(根据实际情况调整)
创建语料库可用工具:
1.DocToTxt 批量转格式工具
2.文本整理器 清洁文本
3.Tree Tagger 3.0 自动词性赋码器
4.CLAWS 7 POS 工具
5.Sub-corpus Creator 子文件夹创建工具

步骤:先将文件转为txt格式;再处理空格和全角(批量处理是:点击“批量处理”
,添加整理方案 tree-tagger赋码, “open-dir”打开文件夹)
文本信息:
1.文头信息——言语言信息

2.生文本——raw
3.赋码文本——Tree-Tagger
注意比较生文本和赋码文本

语料库的设计:语料库建设最重要的环节,直接
影响到语料库的质量和使用。语料库的设计要遵循以下三个原则:
教学针对性原则
实用性原则
开放性、资源共享原则

教学性针对原则有以下几个板块:教材语料库、试题语料库、音频及视频语料库学生口笔语语料库

实用性原则的重点是建立“微型文本”,即按照不同的教学目标,从大型语料库中提取目标
语料制作微型文本,适应课堂教学的要求。
采用自动赋码标软件进行词性和语法标注。

开放性、资源共享原则体现在以下几个方面:1、团队合力参与语料的收集、整理和筛选
2.实现语料的动态更新和即时补充
3.在保证语料质量的前提下尽量扩大库容量,使语料库更具代表性
4.实现资源的开放和共享

一、创建小型教学语料库:
1.教学语料库设计的原则
a.教学针对性原则
b.实用性原则
c.开放性、资源共享原则
2.文本信息录入及文本赋码
3.语料库创建所需软件介绍
二、语料库设计的特点:
1.需要搜集的语料类型和文类
2.语料来源及获取语料的方法
3.入库文本的基本格式及编码
文本信息录入及文本赋码:
1.文本文头信息
2.书面语语料库文头文件
3.Raw Test
4.赋码文本(Tree-Tagger 3.0)
5.生文本及赋码文本比较
6.带文头信息文本 (with metadata)
7.文本录入中的小问题
a.撇号不对
b.标点符号后面的单词与标点符号之间无空格
DocToTxt批量转格式工具
文本整理器 清洁文本
Tre Tagger 3.0 自动词性赋码器
CLAWS7 POS 工具
Sub-corpus Creator子文件夹创建工具
文本信息录入、文本赋码
(1)文头信息——言语言信息
(2)生文本——raw
(3)赋码文本——Tree-Tagger
注意比较生文本和赋码文本
1. 课程标准的语言知识;内容检索和重组——用教材教
2.中小学的缺少的部分——多模态,吸收到最多百分之五十左右。
3.历时跟踪;常见错误分析
一、创建小型教学语料库:
1.教学语料库设计的原则
a.教学针对性原则
b.实用性原则
c.开放性、资源共享原则
2.文本信息录入及文本赋码
3.语料库创建所需软件介绍
二、语料库设计的特点:
1.需要搜集的语料类型和文类
2.语料来源及获取语料的方法
3.入库文本的基本格式及编码
语料库创建所需软件介绍