中学英语网络书面语料的采集:书面语

  语料库作为一种新的资源和技术走进课堂需要实践创新,过程凸现的是语料库的“教学加工”理念[1]的实施,能促使“语言教师从语料库产品的被动接受者和消费者转变为主动参与者、构建者和创新研究者”[2]。
  对于教学而言,语料库具有能将大量有真实语境意义的实例以数据或语境共现的形式呈现在学习者面前的优势和特点,能够形成一种吸引学习者注意力,有利于强化记忆以及帮助学习者利用语境获取语义和总结规律的学习环境的潜在特质,一直以来都被认为是语料库语言学应用的重要部分。对于处于教学一线的中学英语教师而言,如何自己动手获得适合自己各个阶段教学活动的语料素材,是语料库语言学理念及技术能否走进课堂的首要先决条件,下面笔者将介绍四种从网络收集书面语料的技术和步骤。
  按照语料库语言学常见的区分用词,获取语料主要有两种途径:Retrieving和Collecting。Retrieving是指直接从网络把他人已经做成可供使用形式(有的是原始语料,有的是标注语料)的语料库下载。这种途径获取的语料具有方便快捷的特点,但是由于取样和标注的模式主要是出于既定的目的,如用于中介语研究、语言变体研究等,与我国中学英语教学不具有衔接性;而且词次(token)过大,从百万到上亿词次的语料库都较为普遍,一般难以直接应用于教学。Collecting收集的并非语料库,而是语料。与大型语料库及基于语言研究目的的语料库不同,个人收集的语料具有针对性,是自己个人教学活动所驱动的,为了解决具体教学活动和问题而收集的,一般词次较小,但有的放矢,对英语教师后续应用来说更加具有意义。因此,本文所介绍的四种方法为后一种途径,即Collecting的方法。
  一、浏览器文本输出法
  这是最简单易用而又快捷的获取书面语料的方法。文本输出是一般浏览器都具有的功能。无论是我国大陆普遍使用的IE浏览器,还是Mozilla Foxfire等浏览器,都提供这个功能。执行步骤如下:
  1. 打开所需要的网页页面,如某篇英语新闻报道。
  2. 单击浏览器工具栏中的“页面”按钮,从其下拉菜单中点击“另存为”。
  3. 在弹出对话框的文件名输入你需要的文件名字,尽量按一定的统一体例起文件名,以便日后统一管理或横向对比。另外,文件名中用下横线(如“news_20120901”)而不用空格键,这样做是为了日后语料文档增多时电脑自动排序以方便搜寻和管理文档。
  4. 在文件名下面的保存类型选择文本文件,这是最关键的一步,因为网页中图片、视频等都是无关信息,而且语料库文本一般都采用文本文件格式储存,也方便后续清理和编码等工作。
  5. 在编码选项框选择Unicode(UTF-8)。Unicode(UTF-8)编码能有效地解决因文字编码不同而产生的乱码现象。
  6. 点击“保存”,保存到需要的文件夹中。一个页面的文字瞬间保存下来了,由于以文本格式保存,网页中的所有非文字内容,如图片和动画等都自动剔除,该文档已经是可以马上被使用的语言材料。
  二、浏览器超文本标记语言输出法
  HTML(Hyper Text Mark-up Language)即超文本标记语言,是WWW的描述语言,由Tim Berners-lee提出。设计HTML语言的目的是为了能把存放在一台电脑中的文本或图形与另一台电脑中的文本或图形方便地联系在一起,形成有机的整体,人们不用考虑具体信息是在当前电脑上还是在网络的其他电脑上。这样,你只要使用鼠标在某一文档中点取一个图标,Internet就会马上转到与此图标相关的内容上去,而这些信息可能存放在网络的另一台电脑中。HTML文本是由HTML命令组成的描述性文本,HTML命令可以说明文字、图形、动画、声音、表格、链接等。HTML的结构包括头部(Head)、主体(Body)两大部分。头部描述浏览器所需的信息,主体包含所要说明的具体内容。
  顾名思义,超文本标记语言与文本输出的最大区别就在于,它包含了一些描述浏览器所需的信息,在某些情况下,我们对这些信息是感兴趣的,不想在获取过程中丢失的话,可以在进行“浏览器文本输出法”操作时,在第四步选择“保存类型”时选择“网页,仅HTML”选项,其余的步骤不变。使用超文本标记语言输出的语料最大的特点在于能保留材料来源网页的“源格式”(source format),在特定的情况下,是有它无可比拟的优势的。
  三、使用ICEweb 软件获取语料
  ICEweb是由香港城市大学外语系Martin Weisser博士自行设计编写的一款免费小软件(在香港城市大学Martin Weisser个人网页可免费下载),目的是让使用者自己获取网络书面语料。该软件对设备的要求不高,操作简便,界面友好,不需要操作者有很高的技术,与其他一些语料库软件的技术性和专业性相比,更适合于介绍给中学英语教师使用。下面介绍该软件的功能和使用特色。
  1. 将ICEweb软件放进一个专用文件夹,因为后续的文件必须存在同一文件夹,而且区分大小写,因此文件名必须按要求命名。
  2. 打开ICEweb 软件,得到如图1界面。
  3. 在左上角add new region/category输入自己需要的文件名,如“China_daily_01”。
  4. 点击正下方的create region/category按钮,完成这一步,表示在收集语料的框架中,已经形成了一个“中国日报”的路径。
  5. 如果需要,在接下来的对话框输入子分支名称(按自己的材料收集方式和源头自己掌握),如输入,表示国内新闻部分。
  6. 单击下方的create structure,此时主对话框显示已经安排好了材料的框架(见图2)。
  7. 框架建立后,可以往里面填充语料了。方法是点击add/edit URLs按钮,弹出对话框(见图3)   将所需网页的地址栏复制、粘贴,然后按回车。注意要一个网址一行。重复直到所需的网页地址全部粘贴完毕,储存然后关闭URL editor对话框。
  8. 点击start retrieving,你会看到在ICEweb文件夹中出现三个文档:urls.txt, dirIndex.html和 index.csv,还有四个文件夹:html, raw, tok和frq。下面介绍一下这些结果的作用。urls.txt文件存储语料来源网址;dirIndex.html文件储存来源网站HTML格式及超链接;index.csv文件包含一个索引的网页,可以以电子表格的方式查看。四个文件夹中后缀为html代表超文本文件格式,后缀为.raw代表生语料格式,后缀为.tok代表token,即这个文档的具体词次信息,而后缀为.frq则代表这个文本的频数信息,如词频。点击open result file就可以查看上述几个格式的文件。在实际教学活动中,并不需要所有的文件,raw和frequency信息应该是最有用的,因为可以看到频数信息和语境。
  使用ICEweb 软件获取并自建语料比使用浏览器的方法稍微复杂,但是其优点是可以批量地提取材料,而且如果教师心目中已有材料安排的逻辑的话,能在一次操作中自动归类和储存,免除反复之繁。最后,软件编写者已经默认在提取材料的过程中自动统计出词次、词频等对教学有用的信息,无须再使用其他语料库工具进行提取,具有操作集成性的特点。
  四、其他格式的文档提取方法
  有时候,我们所需要的文档以DOC、PDF等格式存在,无法用网页或纯文本的方式获取,下面介绍一种解决的方法。该方法以使用Google搜索引擎为例。
  1. 打开Google搜索界面。
  2. 在搜索栏输入“corpus linguistics filetype:doc”,然后按“搜索”,即:搜索主题为“corpus linguistics” 的后缀为.doc的文档。
  3. 浏览搜索结果,选择自己感兴趣的内容,点击就会直接弹出“打开或储存”对话框,选择“储存”,储存后可以按照自己的要求整理使用语料。
  4. 在搜索栏输入“corpus linguistics filetype:pdf”,然后按“搜索”,即:搜索主题为“corpus linguistics” 的后缀为.pdf的文档。
  5. 同样道理,选取需要的文档储存并使用,如使用PDF OCR转换器直接将文档转换格式成为文本文档。
  这种方法的优点在于,网页往往受篇幅所限,而以PDF 等格式存在的文档没有这个问题,一篇普通的学术论文可以到达几十页、数万字符的容量,因此获取语料效率可迅速提高。点击就可以下载,跳过网页浏览步骤,较为省时。
  本文介绍的获取语料的方法主要针对中学英语教师,在实际教学过程中、问题驱动的情况下需要获取个性化的语料的技术路线,不涉及语料的取样、标注和后续清理整理等问题。另外与语料库语言学和计算机语言学等学术研究有较大区别的是,注重方便快捷、简单易用的原则,出发点是凭借低门槛的技术、经济要求和简易上手的操作使方法易于推广,避免曲高和寡的科研与教学分离现象。通过介绍语料库收集技术,试图发挥现代语言学新理念在英语教学中的优势,以期为信息技术环境下中学英语教学增添新的思路。教师如能恰当利用这些方法,应该能在英语课程的教学资源、课堂教学模式、学生学习模式等方面有所创新,实现教学绩效的良性提升。
  参考文献:
  [1] 何安平.语料库的“教学加工”[J].现代外语,2009(2):14-16.
  [2] MCCARTHY M. Accessing and interpreting corpus information in the teacher education context [J]. Language Teaching, 2008, 41(4): 563-572.

推荐访问:语料 采集 书面 中学英语