中文信息处理复习

中文信息处理复习

中文信息处理复习

重点

1. 字符集

2. 汉字的字形

  • 点阵【最重点】
  • 轮廓矢量
  • 曲线轮廓

3. 计算显示器可以显示的汉字行数、列数、总数

4. 显卡的工作模式

  • 图形工作模式
    • Windows的命令行控制台是在图形工作模式下,模拟的字符工作模式
  • 字符工作模式

5. 计算显存大小需求(分辨率、n位色)

6. 终端和显示器的区别

  • 汉字终端是一个能处理汉字的固化计算机系统。一般由主控板、显示器、键盘三大部分组成。
  • 主机系统不能输入和显示中文,无法实现汉字机内码到汉字字形码的转换,就把西文字符或汉字等字符内码交给终端,由终端接收、判别内码,找到字形信息,经过处理在屏幕上显示。

7. 分词

  • 真/伪歧义
  • 交叉型/组合型歧义
  • 正向/逆向最大匹配分词算法

8. 码长、码元等概念理解

9. 常用数据结构(如 码本)、拼音输入码的压缩

10. 字形码压缩

  • 黑白段、线性增量压缩等

11. Base64编码解码

  • 算法、程序

12. TTS实验


第一章 概论

2. 什么是中文信息处理?它包含哪些主要内容?[FE]

  • 定义:用计算机对汉语的音、形、义等语言文字信息进行的加工操作,包括对字、词、短语、句、篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等各方面的处理技术。
  • 简单地说,中文信息处理就是利用计算理论和计算技术处理中国语言文字信息的一门学科,是计算机科学和语言文字学的交叉学科。
  • 内容
    • 字符层
      • 字符编码集
      • 汉字的输入码编码
      • 中文平台和中文操作系统
      • 汉字输入技术(输入法、手写、语音输入等)
      • 汉字字形和字形库管理技术
      • 汉字输出技术
    • 内容层
      • 汉语分词
      • 中文信息检索
      • 中文信息抽取
      • 中文文本分类

4. 什么是字频、词频?什么是高频字和高频词? [FE]

  • 字频:字频是一个汉字的相对使用频率,也就是一个汉字使用次数与所统计材料的总字数的比例,一般用百分比表示,用于体现一个汉字的覆盖面;
  • 词频:词频就是一个词的相对使用频率。统计词频需要对汉字串进行切词处理,较为复杂,与统计字频不同。
  • 高频字:统计材料中,使用频率较高的字;
  • 高频词,统计材料中,使用频率较高的词。

6. 中文信息处理的主要研究对象有哪些?

  • 汉字键盘输入技术
  • 汉字输出技术
  • 软件汉化技术
  • 汉字字形识别技术
  • 汉语语音识别技术
  • 激光照排技术
  • 中文平台
  • 文本分类
  • 信息检索
  • 其它:邮件过滤、舆情处理……

8. 软件的国际化和本地化对中文信息处理有何意义?

  • 国际化:把原来只为英文设计的计算机系统或应用软件改写成同时支持多种语言和文化习俗和编码集。在系统层提供一种多国语言的支持机制。
  • 本地化:把计算机系统软件或应用软件转为使用并兼容某种特定语言的过程。

第二章 汉字信息在计算机内部的表示

3. 什么是代码页?其作用是什么?

  • 代码页:代码页是一个内部表,操作系统用它将符号映射为字符编号。代码页通过编号引用。
  • 作用:通过代码页,操作系统将符号(字母、数字和标点符号)映射为字符编号,不同的代码页支持不同国家(地区)所使用的字符集。使得无需开发不同的操作系统,在成本、系统维护与升级等方面的开销大大减小。

5. 字符在ISO 10646中如何编码的?ISO10646中的基本位平面的作用是什么?

  • ISO 10646编码结构:4个字节,依次为组、面、行、位。
    • 128个组,每组256个字面,每个字面256行,每个行256个字位。
  • 基本位平面作用:ISO 10646的第0组第0面,称为”基本多文种字面“BMP,编码与Unicode相同。包含拼音文字、中日韩汉字、符号区等……

11. 从字符编码标准的角度谈谈计算机中文信息处理的特点。 [FE]

  • 字汇大

12. 什么是Unicode字符编码标准?其特点是什么? [FE]

  • 16位,两个字节容纳全世界各种语言的字符和符号
  • 位于ISO 10646的第0组第0字面,即与BMP基本多文种字面兼容。
  • 机内码
  • 编码简单、实现容易、深受工业界欢迎

第三章 汉字字符编码集的应用

2. 提出一种实现汉字简-繁转换的方法,并讨论如何采取措施提高其转换的准确率? [FE]

  • 通过统计分析,分离字汇为:简繁一一对应字汇,简繁一对多字汇;如字在一一对应字汇中,则直接查表替换,简单高效;如字在一对多字汇中,通过词汇简繁映射表,根据搭配进行简繁转换。
  • 提高准确率:收录足够多的简繁转换词汇数据,这样才能避免遇到陌生的简体/繁体词汇。

3. Internet上的字符编码是如何产生的?

  • 因为邮件协议等网络协议无法传输8位字符编码,高位置1的字节通常会被认作为控制字符等信息。因此,需要相应的字符编码来解决此问题,实现8位字符也可以通过邮件协议等网络协议进行正常的传输。

4. UUENCODE、QP、HZ等编码主要解决什么问题? [FE]

  • 因为邮件协议等网络协议无法传输8位字符编码,高位置1的字节通常会被认作为控制字符等信息。因此,需要相应的字符编码来解决此问题,实现8位字符也可以通过邮件协议等网络协议进行正常的传输。

第四章 汉字编码技术

5. “小键盘编码”和“大键盘编码”各有哪些优缺点?

  • 大键盘编码:如 PC标准键盘
    • 优点:
      • 拼音码元与按键存在一一对应的关系,映射简单、方便,无需进行转换;
      • 大键盘可以双手输入,可以实现快速输入;
    • 缺点:
      • 根据海曼公式,大键盘码元数较多,汉字编码时间就较长,需要记忆的信息也相应增多(全拼方法除外),不利于输入和学习。
  • 小键盘编码:如 手机T9键盘
    • 优点:码元数少,汉字编码时间较小;
      • 需要记忆的信息少,有利于输入和学习。
    • 缺点:只能单手输入,因此小键盘相对大键盘输入速度较慢。

7. 如何理解汉字编码技术中的”以字为基础,以词为主导“? [FE]

  • Hints: 以词加快输入
  • 输入法要能打出两万多个汉字,但实际输入主要以词为主

12. 给出一种汉字键盘编码的码本对照表设计方案,使之能实现“动态调频”和“高频先见”,并给出该检索引擎的检索算法和相关数据结构,评价码本对照表的结构方案对检索的效率有何影响?


第五章 中文平台与中文操作系统

1. 中文操作系统有哪几种设计方法?各有什么特点?

  1. 专用的中文输入输出设备与西文操作系统结合
    1. 专用设备成本很高;
    2. 不实用,需要很大的键盘,检索汉字按键也很麻烦;
  2. 设计一个全新的中文操作系统
    1. 优:系统功能关系协调,可以完全解决中西文不兼容的问题;
    2. 缺:周期长,成本高,其他组织机构难以实现。
  3. 修改原有的西文操作系统
    1. 优:中西文兼容;实现周期短;
    2. 缺:可能会影响原来操作系统的部分功能;中文信息处理的特点和效率不能最好表现。

2. 汉字信息处理系统中,从信息的输入到信息的输出过程中,各个模块的作用是什么? [FE]

  • Important: 书P78 图5.1 汉字处理模块与代码体系关系图
  1. 汉字输入管理模块
    1. 提供汉字输入的功能
      1. 语音识别
      2. 手写输入
      3. 键盘输入
  2. 汉字打印管理模块
    1. 将汉字处理模块传过来的汉字内码抛给字库管理模块,获取该汉字的字模信息,得到汉字的字形码,转而控制打印机打印
  3. 汉字显示管理模块
    1. 将汉字处理模块传过来的汉字内码抛给字库管理模块。获取该汉字的字母信息,得到汉字的字形码,然后控制显示卡在显示器上显示;
  4. 汉字字库管理模块
    1. 管理多种字体的汉字库,根据显示/打印模块传来的汉字内码进行映射检索找到字形信息,并将其返回。
  5. 通信管理模块
    1. 将汉字处理模块传过来的内码编程交换码输出;
  6. 汉字处理模块
    1. 处理文字编辑、排版等;主要由各个应用程序实现。

4. 嵌入式操作系统和台式机上的操作系统有何不同? [FE]

  • 嵌入式操作系统
    • 低功耗
    • 小内存
    • 稳定性要求高

第六章 汉字输入技术

重点:

  • 汉字码本的数据结构、优缺点
    • 定长结构
    • 变长结构
    • 计算结构
    • 索引结构

注:

  • 内码输入法(区位码输入)无需码本

1. 试述汉语语音输入、键盘输入和扫描输入的各自特点和应用领域。 [FE]

  • 键盘输入:
    • 最早、最广泛、最主要的输入方法;
    • 输入快速、无需额外设备、编码方案丰富;
  • 语音输入:
    • 人机对话,前景广阔;
    • 实现在计算机网络上不同语言人之间的直接交谈、开会和其它合作工作;
  • 扫描输入:
    • 批量识别、速度快
    • 整理、保全计算机出现前的文书资料,绝版古籍资料,图像处理,桌面排版,印刷出版,字符识别,图文数据库,广告美术设计,多媒体图文通信,办公自动化。

4. 阐述Windows中的钩子机制。

  • 通过钩子机制,实现输入系统先于应用程序得到键盘按键。
  • 例如:NewGetChar作为输入系统定义的GetChar函数的钩子,那么应用程序读取键盘缓冲区字符时,实际会调用NewGetChar,在NewGetChar中,系统调用GetChar读取字符,传递给输入系统处理;输入系统处理完后,把结果给NewGetChar返回给应用程序。

5. 输入码对照表在汉字输入系统中的作用是什么? 【FE】

  • 输入码对照表是汉字键盘输入中的一个重要的数据结构,是汉字输入码到机内码转换的核心,反映了汉字输入码到机内码之间的映射关系。
  • 汉字输入过程最主要的一个环节是根据用户输入的输入码,在对照表中检索得到输入码所对应的汉字。

11. 在一个具体的汉字输入法中是如何实现“动态调频”和“联想”功能的?在输入程序和对照表的设计中如何合理解决这一问题? [FE, Opt]

记录频度

  • 频度需要防止溢出,例如,达到200时,折半到100,并把其它频度也整体调整,保持大小关系

第七章 汉字字形和字形库管理技术

会写汉字点阵码

  • 注意汉字点阵码有横向点阵和纵向点阵

3. 什么是点阵字库、矢量字库和曲线字库?它们各有什么特点? [FE]

  • 点阵
  • 轮廓矢量
    • 直线
    • 优点:不怕放大
    • 缺点:方法有折线、锯齿
  • 曲线轮廓
    • 二次、三次曲线
    • 不怕放大、且平滑、避免了折线锯齿

4. “黑白段表示法”和“线性增量表示法”各有哪些特点? [FE]

  • 汉字字形压缩算法
    • 解决汉字字形点阵字库存储量过大的问题
  • 黑白段表示法
    • 仅当全空白行或者壁画均为竖直线才能压缩。汉字笔画中非竖直笔画多,字稿难以挂正,常有扫描误差、毛刺,使黑白段压缩效率降低。
  • 线性增量表示法
    • 在黑白段信息格式的基础上,增加增量信息。
    • 可以处理汉字笔画中大量出现的斜线,进一步压缩字形信息。
    • 对高分辨率的字库压缩倍率大,对低分辨率字库的压缩倍率小。
    • 缺点:有可能会改变原来的字形,压缩时不可勉强。

第八章 汉字输出技术

搞清楚汉字终端显示器的区别

1. 什么叫显示器的显示模式?字符显示模式和图形显示模式有何不同? [FE]

  • 字符显示模式
    • 西文ASCII码通过系统调用写入显存,显卡读取ASCII码,通过显卡ROM中的ASCII码字形库找到字形点阵信息并显示。
  • 图形显示模式
    • 汉字只能显示在图形显示模式下,汉字显示系统将汉字机内码通过软件转换的形式转换为汉字字型码,继而将点阵信息写入显示存储器,提供给屏幕显示。

7. 汉字显示终端和PC机上的显示器有哪些异同之处? [FE]

  • 汉字终端是一个能处理汉字的固化计算机系统。一般由主控板、显示器、键盘三大部分组成。主机系统不能输入和显示中文,则通过汉字终端输入、显示输出中文。汉字终端可以接受、辨别内码,并查字形库进行显示;也可以处理用户操作的输入。
  • 显示器只接收、显示字符、图形信息,不具备汉字内码输入输出的处理能力。

第九章 汉语分词

考试要求不高

知道汉语分词的主要障碍

不要求掌握太复杂的汉字分词算法,掌握最基本的:正向最大匹配、逆向最大匹配。比较哪个效率高。了解词典数据结构和分词性能。(如果检索词很长,对词典排序有讲究)

1. 什么是汉语分词?其特点是什么? [FE]

  • 分词规范问题
    • 词的概念不清,词该如何界定
  • 歧义切分问题
    • 存在多种理解方式
  • 未登录词识别
    • 专业术语、新词、缩略词等
  • 分词理解的先与后
    • 先分词才能后理解,但分词又需要以理解为基础

2. 什么是歧义?歧义有哪几种?歧义切分是指什么? [FE]

  • 分法1:
    • 交集型歧义:ABC、AB/C、A/BC
    • 组合型歧义:AB、A/B
  • 分法2:
    • 真歧义
    • 假歧义

4. 什么是真歧义?什么是伪歧义? [FE]

  • 真歧义:句子有多种合理的含义。人也无法识别出来。
  • 伪歧义:句子只有一种合理含义。人能识别出来,但计算机分词无法辨别出合理的含义。

第十章 中文信息检索

  • 对象:文字信息

  • 起源于图书馆的参考咨询和文摘索引工作

  • 研究从一定规模的文档库(Document Collection)中找出满足用户提出的信息求(User Information Need)的技术

区分:

  • 结构化文档
    • 内容按照结构组织
    • 如:数据表文件
  • 半结构化文档
    • 部分有结构、部分没结构
    • 如:网页、邮件
  • 非结构化文档
    • 无格式
    • 如:自然文本

主要用到的技术

  • 统计模型
  • 语义模型

Web信息检索和普通的信息检索有什么区别?

  • Web信息检索更麻烦
  • 但Web信息重爬下的标签有用

Web搜索≠文本信息检索

  • Web搜索=文本信息检索+针对Web搜索的新技术
  • 面向海量数据,查准比查全更重要

第十一章 中文信息抽取


第十二章 中文文本分类技术

重点

1. 字符集

2. 汉字的字形

  • 点阵【最重点】
  • 轮廓矢量
  • 曲线轮廓

3. 计算显示器可以显示的汉字行数、列数、总数

4. 显卡的工作模式

  • 图形工作模式
    • Windows的命令行控制台是在图形工作模式下,模拟的字符工作模式
  • 字符工作模式

5. 计算显存大小需求(分辨率、n位色)

6. 终端和显示器的区别

  • 汉字终端是一个能处理汉字的固化计算机系统。一般由主控板、显示器、键盘三大部分组成。
  • 主机系统不能输入和显示中文,无法实现汉字机内码到汉字字形码的转换,就把西文字符或汉字等字符内码交给终端,由终端接收、判别内码,找到字形信息,经过处理在屏幕上显示。

7. 分词

  • 真/伪歧义
  • 交叉型/组合型歧义
  • 正向/逆向最大匹配分词算法

8. 码长、码元等概念理解

9. 常用数据结构(如 码本)、拼音输入码的压缩

10. 字形码压缩

  • 黑白段、线性增量压缩等

11. Base64编码解码

  • 算法、程序

12. TTS实验


第一章 概论

2. 什么是中文信息处理?它包含哪些主要内容?[FE]

  • ​定义:用计算机对汉语的音、形、义等语言文字信息进行的加工操作,包括对字、词、短语、句、篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等各方面的处理技术。
  • 简单地说,中文信息处理就是利用计算理论和计算技术处理中国语言文字信息的一门学科,是计算机科学和语言文字学的交叉学科。
  • 内容
    • 字符层
      • 字符编码集
      • 汉字的输入码编码
      • 中文平台和中文操作系统
      • 汉字输入技术(输入法、手写、语音输入等)
      • 汉字字形和字形库管理技术
      • 汉字输出技术
    • 内容层
      • 汉语分词
      • 中文信息检索
      • 中文信息抽取
      • 中文文本分类

4. 什么是字频、词频?什么是高频字和高频词? [FE]

  • 字频:字频是一个汉字的相对使用频率,也就是一个汉字使用次数与所统计材料的总字数的比例,一般用百分比表示,用于体现一个汉字的覆盖面;
  • 词频:词频就是一个词的相对使用频率。统计词频需要对汉字串进行切词处理,较为复杂,与统计字频不同。
  • 高频字:统计材料中,使用频率较高的字;
  • 高频词,统计材料中,使用频率较高的词。

6. 中文信息处理的主要研究对象有哪些?

  • 汉字键盘输入技术
  • 汉字输出技术
  • 软件汉化技术
  • 汉字字形识别技术
  • 汉语语音识别技术
  • 激光照排技术
  • 中文平台
  • 文本分类
  • 信息检索
  • 其它:邮件过滤、舆情处理……

8. 软件的国际化和本地化对中文信息处理有何意义?

  • 国际化:把原来只为英文设计的计算机系统或应用软件改写成同时支持多种语言和文化习俗和编码集。在系统层提供一种多国语言的支持机制。
  • 本地化:把计算机系统软件或应用软件转为使用并兼容某种特定语言的过程。

第二章 汉字信息在计算机内部的表示

3. 什么是代码页?其作用是什么?

  • 代码页:代码页是一个内部表,操作系统用它将符号映射为字符编号。代码页通过编号引用。
  • 作用:通过代码页,操作系统将符号(字母、数字和标点符号)映射为字符编号,不同的代码页支持不同国家(地区)所使用的字符集。使得无需开发不同的操作系统,在成本、系统维护与升级等方面的开销大大减小。

5. 字符在ISO 10646中如何编码的?ISO10646中的基本位平面的作用是什么?

  • ISO 10646编码结构:4个字节,依次为组、面、行、位。
    • 128个组,每组256个字面,每个字面256行,每个行256个字位。
  • 基本位平面作用:ISO 10646的第0组第0面,称为”基本多文种字面“BMP,编码与Unicode相同。包含拼音文字、中日韩汉字、符号区等……

11. 从字符编码标准的角度谈谈计算机中文信息处理的特点。 [FE]

  • 字汇大

12. 什么是Unicode字符编码标准?其特点是什么? [FE]

  • 16位,两个字节容纳全世界各种语言的字符和符号
  • 位于ISO 10646的第0组第0字面,即与BMP基本多文种字面兼容。
  • 机内码
  • 编码简单、实现容易、深受工业界欢迎

第三章 汉字字符编码集的应用

2. 提出一种实现汉字简-繁转换的方法,并讨论如何采取措施提高其转换的准确率? [FE]

  • 通过统计分析,分离字汇为:简繁一一对应字汇,简繁一对多字汇;如字在一一对应字汇中,则直接查表替换,简单高效;如字在一对多字汇中,通过词汇简繁映射表,根据搭配进行简繁转换。
  • 提高准确率:收录足够多的简繁转换词汇数据,这样才能避免遇到陌生的简体/繁体词汇。

3. Internet上的字符编码是如何产生的?

  • 因为邮件协议等网络协议无法传输8位字符编码,高位置1的字节通常会被认作为控制字符等信息。因此,需要相应的字符编码来解决此问题,实现8位字符也可以通过邮件协议等网络协议进行正常的传输。

4. UUENCODE、QP、HZ等编码主要解决什么问题? [FE]

  • 因为邮件协议等网络协议无法传输8位字符编码,高位置1的字节通常会被认作为控制字符等信息。因此,需要相应的字符编码来解决此问题,实现8位字符也可以通过邮件协议等网络协议进行正常的传输。

第四章 汉字编码技术

5. “小键盘编码”和“大键盘编码”各有哪些优缺点?

  • 大键盘编码:如 PC标准键盘
    • 优点:
      • 拼音码元与按键存在一一对应的关系,映射简单、方便,无需进行转换;
      • 大键盘可以双手输入,可以实现快速输入;
    • 缺点:
      • 根据海曼公式,大键盘码元数较多,汉字编码时间就较长,需要记忆的信息也相应增多(全拼方法除外),不利于输入和学习。
  • 小键盘编码:如 手机T9键盘
    • 优点:码元数少,汉字编码时间较小;
      • 需要记忆的信息少,有利于输入和学习。
    • 缺点:只能单手输入,因此小键盘相对大键盘输入速度较慢。

7. 如何理解汉字编码技术中的”以字为基础,以词为主导“? [FE]

  • Hints: 以词加快输入
  • 输入法要能打出两万多个汉字,但实际输入主要以词为主

12. 给出一种汉字键盘编码的码本对照表设计方案,使之能实现“动态调频”和“高频先见”,并给出该检索引擎的检索算法和相关数据结构,评价码本对照表的结构方案对检索的效率有何影响?


第五章 中文平台与中文操作系统

1. 中文操作系统有哪几种设计方法?各有什么特点?

  1. 专用的中文输入输出设备与西文操作系统结合
    1. 专用设备成本很高;
    2. 不实用,需要很大的键盘,检索汉字按键也很麻烦;
  2. 设计一个全新的中文操作系统
    1. 优:系统功能关系协调,可以完全解决中西文不兼容的问题;
    2. 缺:周期长,成本高,其他组织机构难以实现。
  3. 修改原有的西文操作系统
    1. 优:中西文兼容;实现周期短;
    2. 缺:可能会影响原来操作系统的部分功能;中文信息处理的特点和效率不能最好表现。

2. 汉字信息处理系统中,从信息的输入到信息的输出过程中,各个模块的作用是什么? [FE]

  • Important: 书P78 图5.1 汉字处理模块与代码体系关系图
  1. 汉字输入管理模块
    1. 提供汉字输入的功能
      1. 语音识别
      2. 手写输入
      3. 键盘输入
  2. 汉字打印管理模块
    1. 将汉字处理模块传过来的汉字内码抛给字库管理模块,获取该汉字的字模信息,得到汉字的字形码,转而控制打印机打印
  3. 汉字显示管理模块
    1. 将汉字处理模块传过来的汉字内码抛给字库管理模块。获取该汉字的字母信息,得到汉字的字形码,然后控制显示卡在显示器上显示;
  4. 汉字字库管理模块
    1. 管理多种字体的汉字库,根据显示/打印模块传来的汉字内码进行映射检索找到字形信息,并将其返回。
  5. 通信管理模块
    1. 将汉字处理模块传过来的内码编程交换码输出;
  6. 汉字处理模块
    1. 处理文字编辑、排版等;主要由各个应用程序实现。

4. 嵌入式操作系统和台式机上的操作系统有何不同? [FE]

  • 嵌入式操作系统
    • 低功耗
    • 小内存
    • 稳定性要求高

第六章 汉字输入技术

重点:

  • 汉字码本的数据结构、优缺点
    • 定长结构
    • 变长结构
    • 计算结构
    • 索引结构

注:

  • 内码输入法(区位码输入)无需码本

1. 试述汉语语音输入、键盘输入和扫描输入的各自特点和应用领域。 [FE]

  • 键盘输入:
    • 最早、最广泛、最主要的输入方法;
    • 输入快速、无需额外设备、编码方案丰富;
  • 语音输入:
    • 人机对话,前景广阔;
    • 实现在计算机网络上不同语言人之间的直接交谈、开会和其它合作工作;
  • 扫描输入:
    • 批量识别、速度快
    • 整理、保全计算机出现前的文书资料,绝版古籍资料,图像处理,桌面排版,印刷出版,字符识别,图文数据库,广告美术设计,多媒体图文通信,办公自动化。

4. 阐述Windows中的钩子机制。

  • 通过钩子机制,实现输入系统先于应用程序得到键盘按键。
  • 例如:NewGetChar作为输入系统定义的GetChar函数的钩子,那么应用程序读取键盘缓冲区字符时,实际会调用NewGetChar,在NewGetChar中,系统调用GetChar读取字符,传递给输入系统处理;输入系统处理完后,把结果给NewGetChar返回给应用程序。

5. 输入码对照表在汉字输入系统中的作用是什么? 【FE】

  • 输入码对照表是汉字键盘输入中的一个重要的数据结构,是汉字输入码到机内码转换的核心,反映了汉字输入码到机内码之间的映射关系。
  • 汉字输入过程最主要的一个环节是根据用户输入的输入码,在对照表中检索得到输入码所对应的汉字。

11. 在一个具体的汉字输入法中是如何实现“动态调频”和“联想”功能的?在输入程序和对照表的设计中如何合理解决这一问题? [FE, Opt]

记录频度

  • 频度需要防止溢出,例如,达到200时,折半到100,并把其它频度也整体调整,保持大小关系

第七章 汉字字形和字形库管理技术

会写汉字点阵码

  • 注意汉字点阵码有横向点阵和纵向点阵

3. 什么是点阵字库、矢量字库和曲线字库?它们各有什么特点? [FE]

  • 点阵
  • 轮廓矢量
    • 直线
    • 优点:不怕放大
    • 缺点:方法有折线、锯齿
  • 曲线轮廓
    • 二次、三次曲线
    • 不怕放大、且平滑、避免了折线锯齿

4. “黑白段表示法”和“线性增量表示法”各有哪些特点? [FE]

  • 汉字字形压缩算法
    • 解决汉字字形点阵字库存储量过大的问题
  • 黑白段表示法
    • 仅当全空白行或者壁画均为竖直线才能压缩。汉字笔画中非竖直笔画多,字稿难以挂正,常有扫描误差、毛刺,使黑白段压缩效率降低。
  • 线性增量表示法
    • 在黑白段信息格式的基础上,增加增量信息。
    • 可以处理汉字笔画中大量出现的斜线,进一步压缩字形信息。
    • 对高分辨率的字库压缩倍率大,对低分辨率字库的压缩倍率小。
    • 缺点:有可能会改变原来的字形,压缩时不可面前。

第八章 汉字输出技术

搞清楚汉字终端显示器的区别

1. 什么叫显示器的显示模式?字符显示模式和图形显示模式有何不同? [FE]

  • 字符显示模式
    • 西文ASCII码通过系统调用写入显存,显卡读取ASCII码,通过显卡ROM中的ASCII码字形库找到字形点阵信息并显示。
  • 图形显示模式
    • 汉字只能显示在图形显示模式下,汉字显示系统将汉字机内码通过软件转换的形式转换为汉字字型码,继而将点阵信息写入显示存储器,提供给屏幕显示。

7. 汉字显示终端和PC机上的显示器有哪些异同之处? [FE]

  • 汉字终端是一个能处理汉字的固化计算机系统。一般由主控板、显示器、键盘三大部分组成。主机系统不能输入和显示中文,则通过汉字终端输入、显示输出中文。汉字终端可以接受、辨别内码,并查字形库进行显示;也可以处理用户操作的输入。
  • 显示器只接收、显示字符、图形信息,不具备汉字内码输入输出的处理能力。

第九章 汉语分词

考试要求不高

知道汉语分词的主要障碍

不要求掌握太复杂的汉字分词算法,掌握最基本的:正向最大匹配、逆向最大匹配。比较哪个效率高。了解词典数据结构和分词性能。(如果检索词很长,对词典排序有讲究)

1. 什么是汉语分词?其特点是什么? [FE]

  • 分词规范问题
    • 词的概念不清,词该如何界定
  • 歧义切分问题
    • 存在多种理解方式
  • 未登录词识别
    • 专业术语、新词、缩略词等
  • 分词理解的先与后
    • 先分词才能后理解,但分词又需要以理解为基础

2. 什么是歧义?歧义有哪几种?歧义切分是指什么? [FE]

  • 分法1:
    • 交集型歧义
    • 组合型歧义
  • 分法2:
    • 真歧义
    • 假歧义

4. 什么是真歧义?什么是伪歧义? [FE]

  • 真歧义:句子有多种合理的含义。人也无法识别出来。
  • 伪歧义:句子只有一种合理含义。人能识别出来,但计算机分词无法辨别出合理的含义。

第十章 中文信息检索

  • 对象:文字信息

  • 起源于图书馆的参考咨询和文摘索引工作

  • 研究从一定规模的文档库(Document Collection)中找出满足用户提出的信息求(User Information Need)的技术

区分:

  • 结构化文档
    • 内容按照结构组织
    • 如:数据表文件
  • 半结构化文档
    • 部分有结构、部分没结构
    • 如:网页、邮件
  • 非结构化文档
    • 无格式
    • 如:自然文本

主要用到的技术

  • 统计模型
  • 语义模型

Web信息检索和普通的信息检索有什么区别?

  • Web信息检索更麻烦
  • 但Web信息重爬下的标签有用

Web搜索≠文本信息检索

  • Web搜索=文本信息检索+针对Web搜索的新技术
  • 面向海量数据,查准比查全更重要

第十一章 中文信息抽取


第十二章 中文文本分类技术