第 8 章 声学语音学(Acoustic Phonetics)¶
Ladefoged & Johnson《A Course in Phonetics》(6th ed.) 第三部分·通用语音学 前几章从发音角度描写语音;本章转向声学——教你"读"语图(spectrogram)。核心理论是源—滤波器理论(source/filter theory):声带振动是"源",声道形状是"滤波器",二者共同塑造元音音质(共振峰 formants)。随后用管模型、扰动理论解释共振峰,再系统讲解元音、辅音的语图特征,以及宽带/窄带语图、谐波、个体差异。 ⚠️ 符号说明:原书 IPA 与语图在抽取中乱码,下文已按标准 IPA 重建;语图特征以文字描述。
0. 本章主线¶
一条理论主线 + 一套读图实务: 1. 源—滤波器理论:声带(源)+ 声道(滤波器)→ 共振峰(formants)。两种解释工具:管模型(tube models)与扰动理论(perturbation theory)。 2. 共振峰与传统发音描述的对应:F1 ↔(反向)舌高;F2 与 F1 之差 ↔ 前后。 3. 读语图:元音(共振峰)、辅音(locus、过渡、velar pinch、burst)、宽带 vs 窄带、谐波、个体差异(forensic 含义)。
高/低通滤波直觉(开篇实验):把句子高通滤波(删 2500 Hz 以下)→ 声音"尖薄"、擦音突出、语调难辨;低通(删 1000 Hz 以上)→ "轰鸣"、元音与语调突出、擦音噪声少。说明语言之音主要靠语图垂直维(频谱)上能量的精细分布来区分。
1. 源—滤波器理论(Source/Filter Theory)¶
元音音质取决于泛音结构——元音同时含多个音高:实际说出的音高 + 若干赋予其独特音质的泛音。泛音即共振峰(formants),最低三个共振峰区分元音。
三共振峰的体感听辨: - F1:开口、做声门塞、用指弹颈侧下颌下方 → 听到一个音(如弹瓶);查 [i ɪ e ɛ æ ɑ ɔ ʊ u] 一遍,前四元音 F1 上升、后四下降。 - F2:在 [i ɪ e ɛ æ] 序列中音高下降(耳语时更易听)。 - F3:增添音质区别,无简便听辨法。
共振峰从何而来:声道里的空气像风琴管/瓶里的空气。声从噪声源(浊音中=声带振动)传到唇 → 大部分能量辐射出去供人听,部分反射回声道 → 反射能与源能叠加,在某些频率放大、某些频率衰减(取决声道长度与形状)。故:声带=声源;声道=频率滤波器,改变声带声的音色(timbre)。元音的音色即元音质(vowel quality)。 - 类比:铜管乐器(唇=源、长铜管=滤波器)、马林巴(击键=源、键下管=滤波器)。人声更像长号——单一可变源(声带,可变音高与振幅)+ 单一可变滤波器(声道,可增强/衰减不同频率)。
长度因素(均匀管公式):若声道像园艺水管(声门到唇等径),共振频率为 $$F_n = \frac{(2n-1)c}{4L}$$ - n = 1,2,3 对应 F1,F2,F3;c = 声速;L = 声道长。 - 例:Ladefoged 声道 17.5 cm → c/4L = 35000/(4×17.5) = 500 → F1=500×1=500、F2=500×3=1500、F3=500×5=2500 Hz。 - Keith Johnson 声道 ~16 cm → 各共振峰略高(F1≈547、F2≈1641、F3≈2734 Hz)。 - 不同音的共鸣段长不同:元音用整个声道(声门→唇);擦音共鸣段更短(如 [s] 仅齿龈→唇,2–3 cm → F1 远高于元音,故高通滤波时擦音噪声突出)。唯一不比元音高的擦音是 [h](用整个声道)。
2. 管模型(Tube Models)¶
不同元音的共振峰源于声道不同形状。任何气团(声道或瓶中)振动方式取决其大小形状(吹空瓶低音、加水后气团小→音高)。元音声道形状复杂 → 不同气团产生多个泛音。
- 声带每开合一次 → 一个声能脉冲,像"敲打"声道气,使共鸣腔振动产生多个频率(如同时敲多个瓶);
- 无论声带振动率如何,只要声道形状不变,气就在这些频率共振 → 共振峰频率独立于音高(声带振快/慢只改 pitch,不改共振峰)。
- 直觉:声道后部气以一种方式振动(低频波形)、舌前小腔以另一方式(高频)、第三种模式更高频;元音听到的是这些波形之和。
历史:Helmholtz(约 150 年前)提出共振峰总论;更早 1829 Robert Willis:"一个元音不过是其特有音的快速重复"——今表述为:元音是其特有的两三个音(共振峰)随声带振动的快速重复。不仅元音,所有浊音都可由共振峰频率彼此区分。
合成演示(CD):逐层叠加 "A bird in the hand…"——仅 F1(闷音版,单调音高,靠泛音变化传递音质与节奏)→ 加 F2(传递大量元音质)→ 加 F3(贡献较小)→ 三共振峰相加(高度可懂,但无塞音爆破与擦音噪声)→ 加固定高共振峰 → 加噪声爆破与擦音 → 加基频变化(合理语调)。
3. 扰动理论(Perturbation Theory)¶
均匀管也有同时共振频率,且在不同位置挤压时,频率以可预测方式变化 → 可把元音声学建模为对均匀管的"扰动"。例:圆唇使唇处管径变小 → 可预测圆/不圆元音的共振峰差异。
规则(Fig 8.2):每个共振峰在声道里都有压力极大(P)与速度极大(V)的位置(共振驻波在唇—声门间往返)。 - 在速度极大(V)处收窄 → 该共振频率降低; - 在压力极大(P)处收窄 → 该共振频率升高。
应用到 F1(管闭于声门、开于唇,约 [ɛ] 形状): - 声门附近收窄(低元音)近 P → 低元音 F1 高于 schwa; - 唇附近收窄(高元音、圆唇)近 V → 高元音 F1 低于 schwa。 - 同理调 F2/F3:升 F2 最常用"舌抵上腭"(在 F2 波的某 V 处之外收窄)。
4. 声学分析与共振峰图(Acoustic Analysis & Formant Chart)¶
可测量实际共振峰频率并作图(Fig 8.3:八个美式元音前三共振峰均值)。
共振峰与传统发音描述的对应(Fig 8.4/8.5 语图:heed/hid/head/had/hod/hawed/hood/who'd): - F1 ↔ 舌高(反向):heed→had,F1 随舌高下降而上升;hod→who'd,F1 随舌高上升而下降。F1 与元音高度的相关很好。 - F2 ↔ 前后:前元音 F2 远高于后元音;但 F2 与"后"的相关不如 F1 与高那么好,因 F2 同时受圆唇影响。 - 语图细节:[ɪ] 起于较高 F2;[ʊ] F2 大幅上移;[æ] F2 略降(双元音化)。更高共振峰因人而异、非语言性,但标示个人嗓音质。
共振峰图(Formant Chart,Fig 8.6): - 纵轴 F1、横轴 F2,轴反置(零频在右上角)使图与传统发音描述(高在上、前在左)一致; - 用 Bark 标度(感知等距的音高对应等距);F2 标度因其能量小于 F1(F1 约占元音 80% 能量)而不如 F1 展开。 - 结果:[i][u] 在左上/右上、[æ][ɑ] 在底部,其余居中——复现传统元音四边形。
重要立场(呼应 Ch1/4):传统发音描述"不全令人满意",常与真实发音不符。元音"高度"更对应 F1 而非舌高;"前后"最好对应 F2 与 F1 之差(二者越近,越"后")。语音学先驱 G. Oscar Russell 名言:"语音学家在用声学事实思考,却用生理幻想来表达。"
5. 辅音的声学(Acoustics of Consonants)¶
辅音声学通常比元音复杂。许多辅音可看作"开始/结束一个元音的特定方式",辅音调音本身常无区别特征:[b d g] 闭合期声音几乎无别,[p t k] 闭合期全是静默。
塞音靠对邻接元音的影响传递音质: - 唇闭→开([bɛ]):共振峰起于较低位置(唇闭使所有共振峰降低,见扰动理论)→ 迅速升到 [ɛ] 位;[ɛb] 则共振峰随唇闭下降。 - locus(轨迹/原点):每个调音部位的共振峰"表观起点"。起点依邻接元音而变(因不参与闭合的舌部位大致取邻元音位置)。
三个浊塞 [b d g](Fig 8.7,bed/dead/[gɛg]): - 三词 F1 都从低位上升(仅标示"有塞闭合",不区分部位); - 区分靠 F2/F3 的起讫:[b] F2/F3 起点低、F2 明显上升(低 locus);[d] F2 起始较平、F3 略降;[g] F2 与 F3 在元音边缘相互靠拢(仿佛趋向共同点)——这种 F2/F3 靠拢称 velar pinch(软腭夹挤),是软腭辅音的典型标志。 - 注:该说话人(如许多英语者)词首"浊"塞无浊音条(voice bar);词尾浊塞近基线有微弱浊音条。
三个清塞 [p t k](Fig 8.8,[pʰɛm][tʰɛn][kʰɛŋ]): - 释放标志=突然尖峰(噪声爆破 burst)→ 一段送气噪声(F1 无能量、无规则浊音竖纹)分隔爆破与元音浊音段; - 爆破频率:[p] 最低;[t][k] 噪声超过 4000 Hz,最高频在 [t] 爆破;耳语 [t k p] 序列:音高 [t]>[k]>[p],响度 [t]>[k]>[p]([p] 爆破有时弱到几无尖峰); - 送气后共振峰过渡发生在送气期,故不如浊塞后明显。
鼻音 [m n ŋ](Fig 8.8): - 清晰标志=闭合形成时语图突变(鼻音、边音皆然); - 共振峰结构似元音但更弱,位置取决鼻腔特征共鸣;通常极低 F1 约 250 Hz,其上有一大段无能量区;区分靠前接元音的过渡([m] 前 F2 降、[ŋ] 前 velar pinch),但部位线索有时不清。
清擦音 [f θ s ʃ](Fig 8.9,fie/thigh/sigh/shy,频标升到 8000 Hz): - 都有宽频随机噪声;[f] 与 [θ] 噪声型相近(靠 F2 过渡区分:[f] 几无移动、[θ] F2 从 ~1200 Hz 下移;二者噪声环境中常混淆,Cockney fin/thin 不分); - [s] 噪声集中高频(5000–6000 Hz);[ʃ] 较低(下探至 ~2500 Hz);[s][ʃ] 声强大、图案更深;F2 locus 在 fie→shy 递增(shy 中近 [i] 位再大幅下落)。
浊擦音 [v ð z ʒ](Fig 8.10,元音间): - 似清版但加浊音竖纹;[v](ever)擦音成分比 [f] 更弱、几乎只在后续元音起始可见;靠邻元音共振峰区分([ð] 周围 F2 高于 [v]); - [z][ʒ] 高频擦音能量明显;[z] 有微弱浊音条、[ʒ] 浊音难见。
近音 [l r w j](Fig 8.11,led/red/wed/yell): - 都有似元音的共振峰;[l] 共振峰约 250/1100/2400 Hz,在元音起始处强度突变(鼻/边音特征);词末 [l] 可能无中央接触→实为后非圆元音;初始边音 F2 ~1100–1200 Hz 是多数人典型; - [r](=[ɹ]) 最显著特征=F2、F3 频率低,尤 F3 极低(本例起点 ~1600 Hz); - [w] 三共振峰皆起于低位,但 F2 升得最陡(似离开极短 [u]);[j] 似离开极短 [i];[w][j] 称半元音(semivowels)。
辅音特征的声学对应(Table 8.1,粗略指南): - 浊:对应声带振动的竖纹; - 双唇:F2、F3 locus 都较低; - 齿龈:F2 locus 约 1700–1800 Hz; - 软腭:F2 locus 通常高;F2、F3 过渡共同起点(velar pinch); - 卷舌:F3、F4 普遍降低; - 塞:图案空隙 + 清塞爆破噪声/浊塞共振峰骤起; - 擦:随机噪声(尤高频,依部位); - 鼻:似元音但有鼻共振峰约 250/2500/3250 Hz; - 边:似元音但共振峰约 250/1200/2400 Hz,高共振峰强度大减; - 近音:似元音、通常在变化中。
6. 读语图(Interpreting Spectrograms)¶
连续语流中音更难辨。读图策略(以 "She came back and started again"、"I should have thought spectrograms were unreadable"、"He left here—three days ago" 等为例): 1. 先找最明显的:清擦音 [s][ʃ] 最突出([ʃ] 频率低于 [s]); 2. 由已知锚点向两端推; 3. 注意连读中本"该浊"的音可能清化(如 "I should have thought" 整段可无浊音 → [aɪʃtf̩θɔt];spectrograms 的 [t] 高送气使后 [r] 几乎全清 [ɹ̥]); 4. 善用 velar pinch(F2/F3 靠拢)定软腭塞;F3 低定 [r]/r 音色;闭合期短浊音条定浊塞或闪音 [ɾ]; 5. 弱化元音多记 [ə] 或 [ɪ](弱读、velar 前常 [ɪ]); 6. 用对可能英语词的知识"走通"候选路径(如 (1)…(10) 列出每段候选符号再连成 He left here)。
7. 宽带 vs 窄带语图与谐波(Wide/Narrow-Band & Harmonics)¶
物理权衡(测不准):不能同时精确知道"声音何时发生"与"其频率"。分析需足够长时窗以观察多次气压重复 → 时间精度与频率精度互斥。 - 宽带语图(wide-band):时间精确——每次声带振动=一条竖线、塞音爆破=竖尖;但频率不精确(一个共振峰内多个分量混在一宽带里)。 - 窄带语图(narrow-band):频率精确(牺牲时间精度,爆破尖被时间维抹开)——可见构成各共振峰的谐波。
谐波(Harmonics):声带振动产生基频的整数倍谐波(基频 100 Hz → 200/300/400… Hz)。某元音中显现的谐波是对应该元音声道共振的那些。 - 例(Fig 8.16,Is Pat sad, or mad?):sad 基频 ~118 Hz → 第 5/10/15 谐波 = 590/1180/1770 Hz;sad 的 F1 由第 5、6 谐波构成,F2 主成分为第 14、15 谐波;mad(同 /æ/)共振峰相似。 - 音质取决共振峰频率,音高取决基频(声带振动率)。 - 女声(基频高)共振峰更难精确定位([ʊ] 因不同谐波递补呈"阶梯"变化,Fig 8.17)。 - 窄带语图利于测语调/声调:看基频本身,或看第 10 谐波(基频 100→120 Hz 时第 10 谐波 1000→1200 Hz 更易见),实际基频=第 10 谐波的 1/10。低基频或声带不规则振动时,窄带分析尤有用。
语图能/不能给的信息(小结): - 最可靠:段长(常比波形更佳);元音/鼻音/边音之别(波形中难见); - 较可靠:相对元音质(F1 准确示舌高、F2 较好示前后但受圆唇干扰);许多调音方式(塞弱化为擦/近音、塞擦化、颤 vs 闪、清 vs 浊、相对运动速率); - 不能:测鼻化程度;区分相邻调音部位(须用别的技术)。
8. 个体差异(Individual Differences)¶
重要性:(1) 判断某语音型属言语社群典型还是个人特异;(2) 测量语言性特征时须排除纯个人特征;(3) 声学分析用于法庭(forensic)说话人辨识的有效性。
- 语图中个体差异明显——故前文只说语图示相对元音质。可用 Fig 8.5 类共振峰图说明"美式 who'd 平均比 hawed 更前",但难断定某词在甲口中的元音是否高于乙。
- 一般:两说话人发相同音质的元音集时,共振峰图上相对位置相似,但绝对值因人而异(Fig 8.18,两加州英语者:相对位置似、绝对值异;加州大学生多不分 hod/hawed、cot/caught)。
- 无简单技术能完全平均掉个体特征。一种办法:以第四共振峰平均频率作个人头围指标,再把其他共振峰表为 F4 均值的百分比。
9. 本章速记总表¶
源—滤波器理论:声带(源,定音高/基频)+ 声道(滤波器,定共振峰/音质)
共振峰公式(均匀管):Fn = (2n−1)c/4L;声道越长共振峰越低;擦音共鸣段短→F1 高([h] 例外)
两种解释工具: - 管模型:声道复杂形状→多气团→多泛音之和;共振峰独立于声带振动率 - 扰动理论:V 处收窄→频率降;P 处收窄→频率升(解释圆唇、高低元音的共振峰)
共振峰↔发音:F1 ↔ 舌高(反向)· (F2−F1) ↔ 前后 · F2 受圆唇影响
辅音语图特征:locus · F2/F3 过渡 · velar pinch(软腭 F2/F3 靠拢)· burst(爆破,[t]>[k]>[p] 频率与响度)· voice bar(浊音条)· 鼻/边音的突变与弱共振峰 · [r] 的低 F3 · [s]高频/[ʃ]较低 · [w][j] 半元音过渡
宽带 vs 窄带:宽带时间准(竖线/竖尖)· 窄带频率准(见谐波);测不准权衡
谐波:基频整数倍;音质=共振峰、音高=基频;窄带利于测语调(看第 10 谐波)
个体差异:相对位置似、绝对值异;forensic 辨识须谨慎;F4 ≈ 头围指标
10. 章末练习概览(原书 Exercises,供自测)¶
本章练习以测量共振峰、绘共振峰图、读/转写语图为主,强依赖 WaveSurfer 等软件与 CD 音频:
- 测量与作图:用 Fig 8.4/8.5 的箭头测 F1/F2 频率(按左侧标尺),列表并在共振峰图上绘出八元音;用 WaveSurfer 录自己的 heed/hid/head/had 做语图,对比 Fig 8.3。
- 读图转写:对 Fig 8.12–8.15 的语图做音段转写——先定锚点([s]/[ʃ] 突出、velar pinch 定软腭塞、低 F3 定 [r]、突变定鼻/边音),注意连读清化,用英语词知识走通候选路径(如 He left here—three days ago)。
- 声学概念应用:用扰动理论预测圆/不圆、高/低元音的共振峰差异;用谐波解释窄带图中共振峰由哪些谐波构成;判断给定语图为宽带还是窄带。
注:本章练习多依赖软件实测与语图判读,答案随说话者(口音、性别、头围)而异;目标是建立"看语图即能描述声学结构"的能力。