TI代理,常备极具竞争力的充足现货
TI官网今日有何新闻? TI新闻头条报导
TI内部演示报告泄露:理解几张图片TMS320C6678处理器的真实性能
(2025年6月17日更新)

简介

南皇电子专注于整合中国优质电子TI代理商国内领先的现货资源,提供合理的行业价格、战略备货、快速交付控制TI芯片供应商,轻松满足您的需求TI芯片采购需求.(http://www.litesemi.com/)

本白皮书讨论过TMS320C6678处理器的VLFFT演示。通过8个固定和浮点DSP内核的TMS320C执行16678处理器K-1024K一维单精度浮点FFT采用1、2、4或8核时检测算法样本的运行时间。演示结果证明C66X DSP内核的优异性能,以及TMS320C6678处理器跨多核平行化执行性能与内核数量成正比的特性。

采用本文演示FFT该算法经常应用于医学成像、通信、军事和商业雷达、电子战(干扰器、抗干扰器)等领域。演示结果显示,运行速度为1 GHz,DSP当内核为8时,使用TMS320C6678处理器执行1024K的FFT算法样本只需6.4毫秒。

TMS320C6678 SoC

TMS320C6678处理器8台DSP基于内核TI的C66x固定和浮点DSP内核以及TI享有多核权利的创新型创新型KeyStone构建。最高运行速度为1.25GHz,在这种速度下,它可以每秒计算160千兆次浮点,通常消耗的电能不到10千兆次w.TMS320C6678处理器的特点是每个处理器DSP内核都有512KB的L内存;另外,8MB芯片内存中有4个MB共享内存,这两个内存都有纠错码。它的DDR3界面为64位,有8位纠错码,运行速度可达每秒1600兆比特,支持8位GB存取外部存储器数据。此外,TMS320C6678配套外设包括PCle、Serial RapidIO、Gigabit Ethernet以及TI的HyperLink该界面连接到TI的其他DSP,ARM,ARM DSP处理器和第三方FPGA高达50Gbps连接速度。

在本文的VLFFT演示中,TMS320C6678处理器运行速度为1GHz,DDR3界面传输速度为1333MHz.

图一:TMS320C6678框图

VLFFT演示

由于VLFFT算法要求将输入的数据存储在处理器的外部存储器中。在这个演示过程中,数据通过DSP内核访问、分配和处理,最后将结果输出到外部存储器中。同时,循环计数和时间测量始终保持在整个过程中。演示时,为TMS320C用不同数量的内核(1、2、4或8)计算6678处理器FFT这些不同尺寸的结果FFT规格包括:16K 32K 64K 128K 156K 512K 1024K

在演示过程中,将计算负载分布到多个核并充分利用C66X DSP确保内核高性能计算能力的实施FFT性能最大化。同时,利用基本时间提取算法,一维提取算法VLFFT类似的二维算法FFT表达算法。这种方法是在遇到非常大的数据N时,分解成N=N1*N2的形式。在本演示过程中,如果一维输入数组非常大,就采用N1行*N二列二维数组表示,然后通过以下步骤计算FFT:

计算N2列数组在N1行数组中的不同大小时FFT;乘以旋转因子;存储N2列在N一行大小不同FFT算法的结果形成N2*N二维数组;计算N1行数组在N不同大小时的2列数组FFT;存储列方向上的数据形成N2*N1二维数组。

这个算法被Takahashi称为Hitachi SR8000高性能平行FFT算法。

实施多核算法时,第一步是计算N2列(核的数量)在N1行规格下的FFT算法,第四步是计算N1行(核的数量)在N2列规格下的FFT算法。0核是主核,负责与剩余的所有附属核同步。根据N1数组和N2数组的大小,每个核心计算的FFT总数被分成几个小模块来适应每个核L2 SRAM内存空间。每组数据都通过外部存储器中的数据DMA预取到L2 SRAM在内存中,然后通过DDR将数据返回到外部存储器。每个核都用两个DMA通道存储在外部(DDR3)和内部存储器(L2 SRAM)中转输入输出数据。

结果

下页图1显示TMS320C6678评估版(TMDSEVM6678LE)分别在一个DSP周期和毫秒单位时间内运行FFT代码结果。理想情况下,当用于计算的内核数量增加一倍时,循环计数将减少一半。但实际上,由于信息运行的上限,它受到内存大小和信息宽度(内存)的限制,TI芯片这种情况很难实现。在这种情况下,用双核代替单核时,运行FFT平均时间减少了49.3 %,基本达到理想周期数的一半。用四核代替一核时,运行FFT平均时间减少了72.5%,而八核时平均运行时间减少了81.6%.

表格一:FFT分别为1/2/4/8DSP核时周期和毫秒结果

由此可见,无论是双核还是四核,随之而来FFT的大小从16k增加到256k,运行时间减少的幅度越来越大,而八核运行时间减少的幅度越来越大。这是因为小FFT,核数越多,并行代码的成本远低于额外增加核数来提高性能。以前256KB的FFT,提高性能的效果并不理想。双核时只能增加2倍,四核时只能增加4倍,但八核时性能会降低。这是由于八核处理数据的速度远高于外部存储器传输数据的速度,因此存储空间达到上限。在本演示中,计算1024的大小k的FFT,也就是一百万点FFT,在采用8个DSP运行速率为1的内核GHz运行时间仅为6.4毫秒。

图2:单核和多核性能提升

结论

综上所述,使用TI的TMS320C6678处理器执行百万点FFT,在1GHz在工作频率下,8核同时运行只需6.4毫秒。如此高速的DSP内核足以实现雷达、电子战争、医学绘图等某些应用的实时操作。若使用最大速度1.25GHz来运行TMS320C6678处理器同时使用更高的带宽DDR3和1600MTPS执行操作所需的时间会更短。

TI公司被热门关注的产品型号
TS3A24159:开关与多路复用器
TI 具有 1.8V 输入逻辑电平的 0.3? 导通状态电阻、3.3V、2:1 (SPDT)、2 通道模拟开关
TMS320F28378D:微控制器 (MCU) 和处理器
TI 具有 800MIPS、2xCPU、2xCLA、FPU、TMU、1024KB 闪存、CLB、EMIF、12 位 ADC 的 C2000 32 位 MCU
LP38501-ADJ:电源管理
TI 具有使能功能的 3A、可调节超低压降稳压器
TPS826716:电源管理
TI 600mA、高效 MicroSiP 降压转换器模块(厚度 <1.0mm)
SN54BCT8374A:逻辑和电压转换
TI 具有八路边沿触发式 D 型触发器的扫描测试设备
LP87332B-Q1:电源管理
TI 汽车类 2A/1.25V + 2A/3.3V 降压转换器和双路 300mA/3.3V 线性稳压器
MSP430F2272-Q1:微控制器 (MCU) 和处理器
TI 具有 32KB 闪存、512B SRAM、10 位 ADC 和 I2C/SPI/UART 的汽车类 16MHz MCU
SN74S257:逻辑和电压转换
TI 具有三态输出的四路 2 线路到 1 线路数据选择器/多路复用器
LM10500:电源管理
TI 具有 PowerWise 自适应电压调节功能的 5A 降压式能量管理单元
TMS320F28054M:微控制器 (MCU) 和处理器
TI 具有 60MHz 频率、128KB 闪存、InstaSPIN-MOTION、PGA 的 C2000 32 位 MCU
MSP430F6735A:微控制器 (MCU) 和处理器
TI 具有 3 个 Σ-Δ ADC、LCD、实时时钟、128KB 闪存和 4KB RAM 的单相位计量 SoC
UC2843AQ:电源管理
TI 具有 8.5V/7.9V UVLO 和 100% 占空比的汽车类单端 500KHz 电流模式 PWM 控制器
TS3DV20812:接口
TI 适用于 DVI 1.0/HDMI 1.2a 应用的 2.2Gbps 2 通道差动 1 至 2 和 2 至 1 多路复用器
SN65HVD71:接口
TI 3.3V、全双工 RS-485、12kV IEC ESD、400kbps 数据速率,无使能功能
PCM1820:音频
TI 具有 113dB SNR 的立体声通道 32 位 192kHz 音频模数转换器 (ADC)
OPA4322-Q1:放大器
TI Automotive-grade, quad, 5.5-V, 20-MHz, 65-mA output current, low noise (8.5-nV/√Hz), RRIO op amp
SN54ALS151:逻辑和电压转换
TI 8 选 1 数据选择器/多路复用器
TPS54525:电源管理
TI 4.5V 至 18V 输入、5.5A 同步降压转换器
TPS75301-EP:电源管理
TI 快速瞬态响应 1.5A 低压降稳压器(增强型产品)
TPS62225:电源管理
TI 2.2V 输出、400mA、效率为 95% 的降压转换器,15uA,采用 ThinSOT-23 封装
TI代理|TI中国代理 - 国内领先的TI芯片采购平台
丰富的可销售TI代理库存,专业的销售团队可随时响应您的紧急需求,目标成为有价值的TI代理