般处理器内核 ● Cache结构 ●CPU内总线 Power Mang CPUCLK PLL 6-Stage Integer Pipeline ●PCI总线桥 Instr. Cache Data Cache Branch Table ●流水线结构 Intemal Bus Interface Unit Timer(x2) ●PCI总线 32-bit CPU Internal Bus 32-bit Internal DMA bus GFX UART CAIO EDO/SDRAM DMA Parallel port Controller (x ge Controller Interface
一般处理器内核 ⚫ Cache结构 ⚫ CPU内总线 ⚫ PCI总线桥 ⚫ 流水线结构 ⚫ PCI总线
单内核DSP functional block diagram of the 54x intenal hardware IPTR 多总线结构 ●硬件乘法器 流水线结构 OAE 内部PLI IRaqis SAT RoU
单内核DSP ⚫ 多总线结构 ⚫ 硬件乘法器 ⚫ 流水线结构 ⚫ 内部PLL
多内核DSP ●分组FIE结构 Block diagram: TMS320C6201 VLⅠW指令结构 Program RAM/Cache Data RAM 32-Bit Address 32-Bif Address ●EMIF接口 256-Bit Data 8,16-,32 Bit Data EMIF 512K Bits RAN 512K Bits RAM Host Port 以 Buses 32 C6200 CPU Core Enhanced buffered Program Fetch (1/E1 Instruction Decode Serial Port Enhanced Buffered Emulation (T1/E1) 图M Serial Port N Timer
多内核DSP ⚫ 分组FILE结构 ⚫ VLIW指令结构 ⚫ EMIF接口
DSP内核特点对算法的影响 1)硬件上采用了多总线哈佛结构,提高 了数据的处理能力与速度。 我们可以利用块搬移指令在程序与数 据空间,两块数据空间之间实现快速 的数据块搬移 2)采用了独立的硬件乘加器,极大地提高 了数字信号处理算法的运行速度。 特别在实现FIR滤波器、相关器、卷积器 等数字信号处理算法时应当充分利用这个 特性
DSP内核特点对算法的影响 1)硬件上采用了多总线哈佛结构,提高 了数据的处理能力与速度。 我们可以利用块搬移指令在程序与数 据空间,两块数据空间之间实现快速 的数据块搬移。 2)采用了独立的硬件乘加器,极大地提高 了数字信号处理算法的运行速度。 特别在实现FIR滤波器、相关器、卷积器 等数字信号处理算法时应当充分利用这个 特性
权衡现有优化算法与算法的DSP优化间的利弊 注意现有优化算法不一定适合DSP的实现 3)DSP设有循环寻址、位反转寻址等特殊指令 循环寻址在实现滤波器,多采样率滤波器 上有很大好处。 位反转寻址加速了FFT算法的实现。 4)内部独立的DMA总线控制器,通过DSP器件中 组或多组独立的DMA总线,可以实现程序执 行与数据传输的并行工作 5)指令执行采用流水线结构,具有较高的指令执 行速度,我们在设计算法,特别是程序编写时 应特别注意一方面利用好流水线,另一方面有 效地防止流水线冲突
权衡现有优化算法与算法的DSP优化间的利弊 注意现有优化算法不一定适合DSP的实现 3)DSP设有循环寻址、位反转寻址等特殊指令 循环寻址在实现滤波器,多采样率滤波器 上有很大好处。 位反转寻址加速了FFT算法的实现。 4)内部独立的DMA总线控制器,通过DSP器件中 一组或多组独立的DMA总线,可以实现程序执 行与数据传输的并行工作。 5)指令执行采用流水线结构,具有较高的指令执 行速度,我们在设计算法,特别是程序编写时 应特别注意一方面利用好流水线,另一方面有 效地防止流水线冲突