语料库的选取与词块的提取

更新日期：2020-04-27 来源：宿州教育学院学报浏览次数：219 在线投稿

[ 论文导航搜索 ] [ 加入收藏 ] [ 告诉好友 ] [ 打印文本 ] [ 关闭窗口 ]

核心提示：对于词块的界定，已有的研究基本使用两种界定方法：一是采用Wray(2002)的定义，从心理语言学的视角出发，以是否整体储存和提取为标准；二是采用语料库

对于词块的界定，已有的研究基本使用两种界定方法：一是采用Wray(2002)的定义，从心理语言学的视角出发，以是否整体储存和提取为标准；二是采用语料库方法，以频数为准则提取。Read & Nation(2004)强调要获取有效的研究效果，研究者必须综合采取以上两个词块判断标准。因此，本研究基于语料库提取多词，依据Biber等(1999)对词块赋予的特征描述—在每50万词的语料中重复出现至少10次以上的词语序，本研究将词块临时定义为 “在语料库中频繁出现的不同长度的连续词语片段”进行初步提取，并参照Wray的定义对提取的多词进行筛选以确定最终词块。

语料库研究在本质上既是量化的又是质化的，研究者既要看目标数据的频数等又要对该数据做出解释和定论。大规模的真实数据为语言研究提供了有力的实证性的依据，弥补了过往学者单从理论上研究语言的不足。（Biber et al., 1998）本研究所采用的学习者语料库CLEC (Chinese Learners’ English Corpus)，是由杨慧中和桂诗春(2003)共同组建，是我国第一个大规模的英语学习者语料库，由于其充分涵盖不同层级的中国英语学习者的英语输出特征，自其建立以来，许多学者纷纷借助其进行语言研究。本研究选取CLEC中S5，S6文本为研究对象：S5主要为英专学生TEM4写作文本总字数约214510，S6为TEM8文本字数约为226510。因此，本研究中CLEC英专学生文本词数为440616。其写作主题包含“traditional Chinese festival”，“employment situation in China”,“ science and language study”, “studying abroad”, “Whether euthanasia should be legalized in China”等。英语本族语语料库LOCNESS (Louvain Corpus of Native English Essays)是由Granger（1998）组织人员共同组建而成。它由三部分组成，第一部分为英国小学生的论文写作，第二、第三部分分别为英国、美国大学生的写作文本，故后两部分的文本为对比语料库研究对象，其词数之和为264095。其主题包括“capital punishment”, “homo sexuality”, ”animal testing”, “sex equality”, “profit: good or evil”, “cheating in colleges”, “the welfare system”等。

两个语料库的写作文本体裁均为议论文，即该体裁类型均需学生陈述事实，解释、分析现象，表明观点；选取的书面语词块的写作者均为大学生，因此具有可比性。外语教学的最终目标是使学生者的语言输出水平能接近或达到该语言本族语者的使用水平，将学习者语料库CLEC与本族语者语料库LOCNESS对比，将研究发现将有助于为我国英语学习者在写作上提供帮助，促进外语教学。

本研究首先使用 Wordsmith Tools 3.0版本的 Word list 功能，分数次对 S5，S6两个文本中的词频信息进行提取, 将 Word list的 Cluster 长度设置为4, 将Frequency设置为10，提取四词词块，并将其转换成Excel文档存储备用；然后人工删除非词块词语序列，如to me and to，not want a long，tell you that I等这些不合语法或者结构残缺的词块，及文章标题词块如euthanasia should be legalized等，从而获取最终的四词词块。所选取的两个语料库的词数之比大致为2:1(440616:264095≈1.7:1)，因此将LOCENSS中词块提取的Frequency设置为5，按照同样的方法提取本族语语料库中的四词词块。

点击在线投稿

上一篇：语料库的选取与词块的提取

下一篇：语料库的选取与词块的提取

在线客服