跪求解决方案,C++并发处理矩阵算法解决办法

跪求解决方案,C++并发处理矩阵算法
各位大神,有哪位可以帮忙看看这个问题,在整个循环中有一段处理关于矩阵的算法,由于数据量太大,而且必须瞬间完成,所以必须将4核全部使用来进行运算,但是现在出现的问题是在运行的过程中只有一个核在工作,而且是爆满状态,尝试了几种办法都失败了,跪求哪位大神可以帮忙解决一下。
------解决方案--------------------
这个问题问在这个区就算白瞎了,楼主还是去VC或C/C++版块问吧.
------解决方案--------------------
CUDA ?
------解决方案--------------------
Intel有个NAG并行算法库,喽喽?
------解决方案--------------------
Intel TPP
这个蛮久以前用过,用起来很简单,蛮适合并行运算的
------解决方案--------------------
BLAS (Basic Linear Algebra Subprograms)

 5) Are optimized BLAS libraries available? Where can I find optimized BLAS libraries?

YES! Machine-specific optimized BLAS libraries are available for a variety of computer architectures. These optimized BLAS libraries are provided by the computer vendor or by an independent software vendor (ISV) (see list below). For further details, please contact your local vendor representative.

Alternatively, the user can download ATLAS to automatically generate an optimized BLAS library for his architecture. Some prebuilt optimized BLAS libraries are also available from the ATLAS site. Goto BLAS is also available for a given set of machines. Efficient versions of the Level 3 BLAS, based on an efficient matrix matrix multiplication routine, are provided by the GEMM-Based BLAS.

If all else fails, the user can download a Fortran77 reference implementation of the BLAS from netlib. However, keep in mind that this is a reference implementation and is not optimized.

BLAS vendor library List
Last updated: July 20, 2005
Vendor

URL
AMD  ACML
Apple  Accelerate framework
Compaq  CXML
Cray  libsci
HP  MLIB
IBM  ESSL
Intel  MKL
NEC  PDLIB/SX
SGI  SCSL
SUN  Sun Performance Library