為了模擬譜方法在CUDA上操作
稍微改變了矩陣相乘的運作概念
應用在CUDA上的概念是一個矩陣對應一個Block(仿Domain)
矩陣內的每一個元素則對應每一個thread(仿Degree)

透過Fortran -> C -> CUDA -> C -> Fortran
完成計算過程

而由於CUDA的硬體限制
# threads per block <= 512個 ( th.x*th.y*th.z <= 512 )
# blocks per grid <= 65535個 ( gd.x*gd.y <= 65535 )

矩陣點數有上限(22*22)
矩陣個數有上限(65535)

但是,兩者相乘的總量也有上限
原因較不明朗,推測是顯卡的記憶體總量

fengka 發表在 痞客邦 留言(0) 人氣()