1、中文信息处理的概述
中文信息处理是用计算机对汉语的音、形、义等语言文字信息进行的加工和操作,包括对字、词、短语、句、篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等各方面的处理技术。它是一门与计算机科学、语言学、心理学、声学等多种学科相关联的综合性学科,是自然语言信息处理的一个分支。
中文信息处理有汉字信息处理和汉语信息处理两部分。汉字信息处理是计算机直接对汉字信息进行输入、输出、加工和处理的技术,是信息符号层的处理,研究适合汉字特点的操作系统和汉字计算机语言。汉语信息处理是在汉字输入的基础上,研究词语切分、词性标注、结构分析、意义理解、推理、翻译等,是信息内容层的处理,它是汉字信息处理的进一步发展,是中文信息处理的高级阶段。目前汉字信息处理成果已经得到广泛的应用,如中文输入、字库、字处理软件、排版等,但是汉语信息处理,在词语识别和词性标注方面虽已经取得重要进展,但是句子结构分析和语义分析方面还有待探索。
2、中文信息处理的研究内容
中文信息处理的研究内容一般有几下几种:
(1)汉字键盘的输入和输出
汉字输入有键盘输入、手写或扫描输入和语音输入,对应的技术有中文输入法、中文手写输入、光学字符识别和中文语音输入,分别是汉字键盘输入法、汉字识别和汉语语音识别的研究内容。汉字输出技术有汉字字模技术(字体库)、汉字激光照排、汉语语音合成、动态组字等;在屏幕和打印机等设备上的汉字输出、语音输出,是汉字字形技术和汉语语音合成的研究内容。
(2) 汉语信息的检索和提取
提供关键字或主题词,得到相关信息的是信息检索。对相关信息加以分析总结并以条理化的形式显示的是信息提取,如自动文摘和自动校对就是信息提取,这是中文信息处理研究的一个新热点。
(3)汉语信息的转换
汉字简体和繁体之间的转换、汉语和其他语言之间的机器翻译,属于不同自然语言之间的转换, 也是中文信息处理的重要研究内容。