Processing [report1.sqlite] with [/usr/local/cuda-12.6/NsightSystems-cli-2024.4.2/target-linux-x64/reports/cuda_gpu_kern_sum.py]... Time (%),Total Time (ns),Instances,Avg (ns),Med (ns),Min (ns),Max (ns),StdDev (ns),Name 82.1,5473376566,46917,116660.8,155134.0,47456,691065,59637.8,sm90_xmma_gemm_bf16bf16_bf16f32_f32_tn_n_tilesize64x128x64_warpgroupsize1x1x1_execute_segment_k_off_kernel__5x_cublas 2.6,175570808,18560,9459.6,9536.0,8960,11136,322.2,void cutlass::Kernel2(T1::Params) 1.7,115144769,37601,3062.3,3072.0,2271,5120,312.1,"void at::native::elementwise_kernel<(int)128, (int)4, void at::native::gpu_kernel_impl_nocast>>(at::TensorIteratorBase &, const T1 &)::[lambda(int) (instance 1)]>(int, T3)" 1.2,77083281,18720,4117.7,4032.0,3103,5568,576.9,"void at::native::elementwise_kernel<(int)128, (int)4, void at::native::gpu_kernel_impl_nocast(at::TensorIteratorBase &, const T1 &)::[lambda(int) (instance 1)]>(int, T3)" 1.1,72863511,18837,3868.1,3904.0,3360,4992,256.9,"void at::native::reduce_kernel<(int)512, (int)1, at::native::ReduceOp, unsigned int, float, (int)4>>(T3)" 1.0,65670069,18880,3478.3,3520.0,2751,6145,274.5,"void at::native::::CatArrayBatchedCopy::OpaqueType<(unsigned int)2>, unsigned int, (int)4, (int)64, (int)64>(T1 *, at::native::::CatArrInputTensorMetadata, at::native::::TensorSizeStride, int, T2)" 1.0,64508122,19071,3382.5,3424.0,1311,3904,215.5,"void at::native::unrolled_elementwise_kernel, TrivialOffsetCalculator<(int)1, unsigned int>, TrivialOffsetCalculator<(int)1, unsigned int>, at::native::memory::LoadWithCast<(int)1>, at::native::memory::StoreWithCast<(int)1>>(int, T1, T2, T3, T4, T5, T6)" 1.0,63819319,37280,1711.9,1663.0,1215,3232,289.2,"void at::native::vectorized_elementwise_kernel<(int)4, at::native::CUDAFunctor_add, at::detail::Array>(int, T2, T3)" 0.9,61070759,18400,3319.1,3327.0,2815,3935,205.5,"void at::native::::CatArrayBatchedCopy_contig::OpaqueType<(unsigned int)2>, unsigned int, (int)4, (int)128, (int)1>(T1 *, at::native::::CatArrInputTensorMetadata, at::native::::TensorSizeStride, int, T2)" 0.8,56060276,19071,2939.6,2912.0,1600,4320,140.0,"void at::native::unrolled_elementwise_kernel, TrivialOffsetCalculator<(int)1, unsigned int>, TrivialOffsetCalculator<(int)1, unsigned int>, at::native::memory::LoadWithCast<(int)1>, at::native::memory::StoreWithCast<(int)1>>(int, T1, T2, T3, T4, T5, T6)" 0.8,54023440,28036,1926.9,1855.0,1536,5151,229.2,"void at::native::vectorized_elementwise_kernel<(int)4, at::native::BinaryFunctor>, at::detail::Array>(int, T2, T3)" 0.8,53346719,18720,2849.7,2848.0,2367,4128,334.1,"void at::native::elementwise_kernel<(int)128, (int)4, void at::native::gpu_kernel_impl_nocast(at::TensorIteratorBase &, const T1 &)::[lambda(int) (instance 1)]>(int, T3)" 0.7,48946665,6080,8050.4,8352.0,6144,8640,749.5,"void pytorch_flash::flash_fwd_kernel>, (bool)0, (bool)0, (bool)0, (bool)0, (bool)0, (bool)1, (bool)0>(pytorch_flash::Flash_fwd_params)" 0.7,46533021,18837,2470.3,2464.0,2240,3616,104.6,"void at::native::elementwise_kernel<(int)128, (int)2, void at::native::gpu_kernel_impl_nocast>>(at::TensorIteratorBase &, const T1 &)::[lambda(int) (instance 1)]>(int, T3)" 0.6,42061064,18720,2246.9,2240.0,2143,3040,85.1,"void cublasLt::splitKreduce_kernel<(int)32, (int)16, int, float, __nv_bfloat16, float, __nv_bfloat16, (bool)1, (bool)0, (bool)0>(cublasLt::cublasSplitKParams, const T4 *, const T5 *, T5 *, const T6 *, const T6 *, const T7 *, const T4 *, T7 *, void *, long, T6 *, int *)" 0.5,32922283,18837,1747.7,1728.0,1280,2369,157.6,"void at::native::vectorized_elementwise_kernel<(int)4, at::native::rsqrt_kernel_cuda(at::TensorIteratorBase &)::[lambda() (instance 2)]::operator ()() const::[lambda() (instance 2)]::operator ()() const::[lambda(float) (instance 1)], at::detail::Array>(int, T2, T3)" 0.5,32854413,18837,1744.1,1729.0,1279,2592,150.6,"void at::native::vectorized_elementwise_kernel<(int)4, at::native::CUDAFunctorOnSelf_add, at::detail::Array>(int, T2, T3)" 0.4,29117804,18837,1545.8,1536.0,1471,2624,81.5,"void at::native::vectorized_elementwise_kernel<(int)4, void at::native::::pow_tensor_scalar_kernel_impl(at::TensorIteratorBase &, T2)::[lambda(float) (instance 1)], at::detail::Array>(int, T2, T3)" 0.3,21731120,9360,2321.7,2304.0,2080,4256,187.9,"void at::native::vectorized_elementwise_kernel<(int)4, at::native::::silu_kernel(at::TensorIteratorBase &)::[lambda() (instance 1)]::operator ()() const::[lambda() (instance 6)]::operator ()() const::[lambda(c10::BFloat16) (instance 1)], at::detail::Array>(int, T2, T3)" 0.3,20063273,3200,6269.8,6272.0,5952,6624,110.2,"void pytorch_flash::flash_fwd_splitkv_kernel>, (bool)0, (bool)0, (bool)0, (bool)0, (bool)1, (bool)1, (bool)0>(pytorch_flash::Flash_fwd_params)" 0.2,12733119,234,54415.0,54400.0,53376,55647,413.7,"void at::native::::cunn_SoftMaxForward<(int)4, float, float, float, at::native::::SoftMaxForwardEpilogue>(T4 *, const T2 *, int)" 0.1,8760909,3200,2737.8,2752.0,2527,2912,72.7,"void pytorch_flash::flash_fwd_splitkv_combine_kernel>, (int)4, (int)1, (bool)1>(pytorch_flash::Flash_fwd_params)" 0.1,4589018,468,9805.6,9760.5,9184,10688,278.1,"void at::native::mbtopk::radixFindKthValues(at::cuda::detail::TensorInfo, unsigned int, unsigned int *, unsigned int, T2, int, int, unsigned int, T3, unsigned int *, T3 *, short *, T1 *)" 0.1,4353862,468,9303.1,9376.0,8320,11231,614.2,"void at_cuda_detail::cub::DeviceRadixSortOnesweepKernel, unsigned long long>::Policy900, (bool)0, float, at::cuda::cub::detail::OpaqueType<(int)8>, unsigned long long, int, int, at_cuda_detail::cub::detail::identity_decomposer_t>(T7 *, T7 *, T5 *, const T5 *, T3 *, const T3 *, T4 *, const T4 *, T6, int, int, T8)" 0.1,3345970,117,28598.0,28672.0,27073,29601,551.5,"void at::native::reduce_kernel<(int)512, (int)1, at::native::ReduceOp, unsigned int, long, (int)4>>(T3)" 0.0,1650221,160,10313.9,10320.5,9728,11521,362.2,void cutlass::Kernel2(T1::Params) 0.0,1644379,117,14054.5,14112.0,13633,14751,258.8,"void at::native::reduce_kernel<(int)512, (int)1, at::native::ReduceOp>, unsigned int, float, (int)4>>(T3)" 0.0,1640787,117,14023.8,14016.0,13663,14496,243.0,"void at::native::reduce_kernel<(int)512, (int)1, at::native::ReduceOp>, unsigned int, float, (int)4>>(T3)" 0.0,1625400,117,13892.3,13920.0,13471,14400,254.4,"void at::native::reduce_kernel<(int)512, (int)1, at::native::ReduceOp::operator ()(at::TensorIterator &)::[lambda(float, float) (instance 1)]>, unsigned int, float, (int)4>>(T3)" 0.0,1146431,468,2449.6,2432.0,2336,2816,67.6,"void at::native::mbtopk::computeBlockwiseWithinKCounts(T1 *, short *, unsigned int, int, bool, unsigned int *, unsigned int)" 0.0,746519,80,9331.5,9392.0,8192,10112,369.4,"void pytorch_flash::flash_fwd_kernel>, (bool)0, (bool)1, (bool)0, (bool)0, (bool)0, (bool)1, (bool)0>(pytorch_flash::Flash_fwd_params)" 0.0,738617,234,3156.5,3167.0,2848,3456,114.0,"void at_cuda_detail::cub::DeviceScanByKeyKernel, long>, unsigned int, unsigned int, cuda::std::__4::plus>::Policy900, at_cuda_detail::cub::TransformInputIterator, long>, unsigned int *, unsigned int *, at_cuda_detail::cub::ReduceByKeyScanTileState, cuda::std::__4::equal_to, cuda::std::__4::plus, at_cuda_detail::cub::NullType, int, unsigned int, unsigned int>(T2, T11 *, T3, T4, T5, int, T6, T7, T8, T9)" 0.0,689337,117,5891.8,5920.0,5471,6368,213.5,"void at::native::radixSortKVInPlace<(int)-2, (int)-1, (int)32, (int)4, float, long, unsigned int>(at::cuda::detail::TensorInfo, T7, T7, T7, at::cuda::detail::TensorInfo, T7, bool)" 0.0,629725,234,2691.1,2784.0,2208,3424,300.5,"void at::native::::CatArrayBatchedCopy_aligned16_contig::OpaqueType<(unsigned int)8>, unsigned int, (int)2, (int)128, (int)1>(T1 *, at::native::::CatArrInputTensorMetadata, at::native::::TensorSizeStride, int, T2)" 0.0,606459,117,5183.4,5279.0,4512,5408,203.0,"void at::native::mbtopk::gatherTopK(at::cuda::detail::TensorInfo, T2, T2, bool, unsigned int, T2, at::cuda::detail::TensorInfo, T2, at::cuda::detail::TensorInfo, T2, unsigned int, unsigned int, T1 *, unsigned int *, unsigned int *, unsigned int)" 0.0,566850,351,1615.0,1568.0,1280,2176,234.8,"void at::native::vectorized_elementwise_kernel<(int)4, void at::native::compare_scalar_kernel(at::TensorIteratorBase &, at::native::::OpType, T1)::[lambda(float) (instance 1)], at::detail::Array>(int, T2, T3)" 0.0,543898,160,3399.4,3392.0,3072,3808,254.5,"void at::native::elementwise_kernel<(int)128, (int)4, void at::native::gpu_kernel_impl_nocast>(at::TensorIteratorBase &, const T1 &)::[lambda(int) (instance 1)]>(int, T3)" 0.0,503368,351,1434.1,1472.0,1311,1569,96.9,"void at::native::vectorized_elementwise_kernel<(int)4, at::native::AUnaryFunctor::CompareEqFunctor>, at::detail::Array>(int, T2, T3)" 0.0,472540,117,4038.8,4032.0,3905,4192,43.0,"void at::native::_scatter_gather_elementwise_kernel<(int)128, (int)4, void at::native::_cuda_scatter_gather_internal_kernel<(bool)1, at::native::OpaqueType<(int)1>>::operator ()(at::TensorIterator &, long, long, long, const T1 &)::[lambda(int) (instance 1)]>(int, T3)" 0.0,429087,352,1219.0,1264.0,1087,1600,98.2,"void at::native::vectorized_elementwise_kernel<(int)4, at::native::FillFunctor, at::detail::Array>(int, T2, T3)" 0.0,427098,117,3650.4,3648.0,3615,3712,18.8,"void at_cuda_detail::cub::DeviceRadixSortHistogramKernel, unsigned long long>::Policy900, (bool)0, float, unsigned long long, at_cuda_detail::cub::detail::identity_decomposer_t>(T4 *, const T3 *, T4, int, int, T5)" 0.0,421793,234,1802.5,1792.0,1727,1857,31.8,"void at::native::vectorized_elementwise_kernel<(int)4, at::native::::masked_fill_kernel(at::TensorIterator &, const c10::Scalar &)::[lambda() (instance 1)]::operator ()() const::[lambda() (instance 7)]::operator ()() const::[lambda(float, bool) (instance 1)], at::detail::Array>(int, T2, T3)" 0.0,419424,117,3584.8,3584.0,3360,4000,130.6,"void at_cuda_detail::cub::DeviceScanKernel>::Policy900, const float *, float *, at_cuda_detail::cub::ScanTileState, std::plus, at_cuda_detail::cub::NullType, int, float>(T2, T3, T4, int, T5, T6, T7)" 0.0,419098,116,3612.9,3663.5,3328,4064,150.5,void cutlass::Kernel2(T1::Params) 0.0,379354,117,3242.3,3263.0,2816,3776,234.5,"void at::native::reduce_kernel<(int)512, (int)1, at::native::ReduceOp, unsigned int, bool, (int)4>>(T3)" 0.0,373581,234,1596.5,1600.0,1280,2080,185.6,"void at::native::vectorized_elementwise_kernel<(int)4, at::native::CUDAFunctorOnSelf_add, at::detail::Array>(int, T2, T3)" 0.0,371615,120,3096.8,3120.0,2784,3583,207.0,"void at::native::reduce_kernel<(int)512, (int)1, at::native::ReduceOp, unsigned int, bool, (int)4>>(T3)" 0.0,366906,234,1568.0,1600.0,1376,1920,119.5,"void at::native::vectorized_elementwise_kernel<(int)4, at::native::BinaryFunctor>, at::detail::Array>(int, T2, T3)" 0.0,362405,117,3097.5,3104.0,2976,3232,43.5,"void at::native::elementwise_kernel<(int)128, (int)4, void at::native::gpu_kernel_impl_nocast::CompareFunctor>(at::TensorIteratorBase &, const T1 &)::[lambda(int) (instance 1)]>(int, T3)" 0.0,357757,234,1528.9,1567.5,1376,1823,114.2,"void at::native::vectorized_elementwise_kernel<(int)4, at::native::AUnaryFunctor>, at::detail::Array>(int, T2, T3)" 0.0,350008,117,2991.5,3007.0,2943,3040,24.0,"void at::native::::distribution_elementwise_grid_stride_kernel(at::TensorIteratorBase &, double, T1)::[lambda() (instance 1)]::operator ()() const::[lambda() (instance 2)]::operator ()() const::[lambda(float) (instance 1)]>(at::TensorIteratorBase &, T4, T5)::[lambda(curandStatePhilox4_32_10 *) (instance 2)], void at::native::::distribution_nullary_kernel(at::TensorIteratorBase &, double, T1)::[lambda() (instance 1)]::operator ()() const::[lambda() (instance 2)]::operator ()() const::[lambda(float) (instance 1)]>(at::TensorIteratorBase &, T4, T5)::[lambda(curandStatePhilox4_32_10 *) (instance 2)], void at::native::templates::cuda::exponential_kernel(at::TensorIteratorBase &, double, T1)::[lambda() (instance 1)]::operator ()() const::[lambda() (instance 2)]::operator ()() const::[lambda(float) (instance 1)]>(at::TensorIteratorBase &, T4, const T5 &, T6)::[lambda(int, float) (instance 1)]>(int, at::PhiloxCudaState, T3, T4)" 0.0,342395,234,1463.2,1488.0,1311,1632,100.1,"void at::native::vectorized_elementwise_kernel<(int)4, at::native::BinaryFunctor>, at::detail::Array>(int, T2, T3)" 0.0,335393,116,2891.3,2848.0,2720,3424,102.6,"void at::native::::indexSelectSmallIndex(at::cuda::detail::TensorInfo, at::cuda::detail::TensorInfo, at::cuda::detail::TensorInfo, int, int, T3, long)" 0.0,328441,117,2807.2,2911.0,2464,3200,228.4,"void at::native::reduce_kernel<(int)512, (int)1, at::native::ReduceOp>, unsigned int, long, (int)4>>(T3)" 0.0,326081,234,1393.5,1424.0,1215,1569,146.3,"void at_cuda_detail::cub::DeviceScanByKeyInitKernel, at_cuda_detail::cub::TransformInputIterator, long>>(T1, T2, std::iterator_traits::value_type *, unsigned int, int)" 0.0,322298,117,2754.7,2848.0,2432,3168,213.5,"void at::native::reduce_kernel<(int)512, (int)1, at::native::ReduceOp::operator ()(at::TensorIterator &)::[lambda(long, long) (instance 1)]>, unsigned int, long, (int)4>>(T3)" 0.0,301087,116,2595.6,2608.0,2208,3008,255.9,"void at::native::index_elementwise_kernel<(int)128, (int)4, void at::native::gpu_index_kernel>(at::TensorIteratorBase &, c10::ArrayRef, c10::ArrayRef)::[lambda(char *, const char *, long) (instance 1)]>(at::TensorIteratorBase &, c10::ArrayRef, c10::ArrayRef, const T1 &)::[lambda(int) (instance 1)]>(long, T3)" 0.0,282998,117,2418.8,2432.0,2335,2497,46.6,"void at::native::vectorized_elementwise_kernel<(int)4, at::native::BinaryFunctor>, at::detail::Array>(int, T2, T3)" 0.0,282531,116,2435.6,2512.0,2111,2912,272.9,"void at::native::::CatArrayBatchedCopy_aligned16_contig::OpaqueType<(unsigned int)4>, unsigned int, (int)3, (int)128, (int)1>(T1 *, at::native::::CatArrInputTensorMetadata, at::native::::TensorSizeStride, int, T2)" 0.0,249796,118,2116.9,2160.0,1856,2433,170.5,"void at::native::elementwise_kernel<(int)128, (int)4, void at::native::gpu_kernel_impl_nocast::CompareEqFunctor>>(at::TensorIteratorBase &, const T1 &)::[lambda(int) (instance 1)]>(int, T3)" 0.0,241437,118,2046.1,2047.0,1792,2432,87.4,"void at_cuda_detail::cub::DeviceScanKernel>::Policy900, const long *, long *, at_cuda_detail::cub::ScanTileState, std::plus, at_cuda_detail::cub::NullType, int, long>(T2, T3, T4, int, T5, T6, T7)" 0.0,240282,117,2053.7,2048.0,1984,2112,22.1,"at::native::::fill_reverse_indices_kernel(long *, int, at::cuda::detail::IntDivider)" 0.0,222944,117,1905.5,1920.0,1760,2176,100.4,"void at::native::vectorized_elementwise_kernel<(int)4, at::native::cos_kernel_cuda(at::TensorIteratorBase &)::[lambda() (instance 2)]::operator ()() const::[lambda() (instance 2)]::operator ()() const::[lambda(float) (instance 1)], at::detail::Array>(int, T2, T3)" 0.0,221632,117,1894.3,1920.0,1728,2208,105.4,"void at::native::vectorized_elementwise_kernel<(int)4, at::native::sin_kernel_cuda(at::TensorIteratorBase &)::[lambda() (instance 2)]::operator ()() const::[lambda() (instance 2)]::operator ()() const::[lambda(float) (instance 1)], at::detail::Array>(int, T2, T3)" 0.0,217469,117,1858.7,1984.0,1663,2080,179.3,"void at::native::mbtopk::computeBlockwiseKthCounts(T1 *, short *, unsigned int, unsigned int, unsigned int *)" 0.0,217211,117,1856.5,1856.0,1663,2080,76.4,"void at::native::unrolled_elementwise_kernel>, at::detail::Array, TrivialOffsetCalculator<(int)2, unsigned int>, TrivialOffsetCalculator<(int)1, unsigned int>, at::native::memory::LoadWithCast<(int)2>, at::native::memory::StoreWithCast<(int)1>>(int, T1, T2, T3, T4, T5, T6)" 0.0,208992,117,1786.3,1824.0,1663,2112,100.8,"void at::native::vectorized_elementwise_kernel<(int)4, void at::native::compare_scalar_kernel(at::TensorIteratorBase &, at::native::::OpType, T1)::[lambda(long) (instance 1)], at::detail::Array>(int, T2, T3)" 0.0,199384,117,1704.1,1696.0,1663,2112,58.0,"void at::native::vectorized_elementwise_kernel<(int)4, at::native::BUnaryFunctor>, at::detail::Array>(int, T2, T3)" 0.0,194342,117,1661.0,1664.0,1472,1793,71.2,"void at::native::unrolled_elementwise_kernel, TrivialOffsetCalculator<(int)1, unsigned int>, TrivialOffsetCalculator<(int)1, unsigned int>, at::native::memory::LoadWithCast<(int)1>, at::native::memory::StoreWithCast<(int)1>>(int, T1, T2, T3, T4, T5, T6)" 0.0,190154,117,1625.2,1600.0,1503,1729,92.4,"void at_cuda_detail::cub::DeviceRadixSortExclusiveSumKernel, unsigned long long>::Policy900, unsigned long long>(T2 *)" 0.0,187007,117,1598.4,1568.0,1313,2177,176.1,"void at::native::vectorized_elementwise_kernel<(int)4, at::native::::masked_fill_kernel(at::TensorIterator &, const c10::Scalar &)::[lambda() (instance 1)]::operator ()() const::[lambda() (instance 4)]::operator ()() const::[lambda(long, bool) (instance 1)], at::detail::Array>(int, T2, T3)" 0.0,184958,117,1580.8,1632.0,1408,1952,160.4,"void at::native::mbtopk::fill(T1 *, T1, T2)" 0.0,184767,117,1579.2,1568.0,1311,1856,140.0,"void at::native::vectorized_elementwise_kernel<(int)4, at::native::CUDAFunctor_add, at::detail::Array>(int, T2, T3)" 0.0,179481,117,1534.0,1567.0,1376,2048,116.7,"void at::native::vectorized_elementwise_kernel<(int)4, at::native::BinaryFunctor>, at::detail::Array>(int, T2, T3)" 0.0,169534,117,1449.0,1408.0,1312,1631,97.4,"void at::native::vectorized_elementwise_kernel<(int)4, at::native::bitwise_not_kernel_cuda(at::TensorIteratorBase &)::[lambda(bool) (instance 1)], at::detail::Array>(int, T2, T3)" 0.0,167964,118,1423.4,1360.0,1248,1600,143.8,"void at_cuda_detail::cub::DeviceScanInitKernel>(T1, int)" 0.0,167266,119,1405.6,1440.0,1280,1728,109.1,"void at::native::vectorized_elementwise_kernel<(int)4, at::native::FillFunctor, at::detail::Array>(int, T2, T3)" 0.0,166104,117,1419.7,1503.0,1247,1600,143.6,"void at_cuda_detail::cub::DeviceScanInitKernel>(T1, int)" 0.0,165696,117,1416.2,1376.0,1280,1537,93.7,"void at::native::vectorized_elementwise_kernel<(int)4, at::native::AUnaryFunctor::CompareEqFunctor>, at::detail::Array>(int, T2, T3)" 0.0,164197,117,1403.4,1408.0,1280,1536,93.4,"void at::native::vectorized_elementwise_kernel<(int)4, at::native::CUDAFunctorOnOther_add, at::detail::Array>(int, T2, T3)" 0.0,142269,117,1216.0,1184.0,1088,1344,96.5,"void at::native::unrolled_elementwise_kernel, at::detail::Array, TrivialOffsetCalculator<(int)0, unsigned int>, TrivialOffsetCalculator<(int)1, unsigned int>, at::native::memory::LoadWithoutCast, at::native::memory::StoreWithoutCast>(int, T1, T2, T3, T4, T5, T6)" 0.0,5888,1,5888.0,5888.0,5888,5888,0.0,"void at::native::::indexSelectLargeIndex(at::cuda::detail::TensorInfo, at::cuda::detail::TensorInfo, at::cuda::detail::TensorInfo, int, int, T3, T3, long)" 0.0,3232,1,3232.0,3232.0,3232,3232,0.0,void cutlass::Kernel2(T1::Params) 0.0,2720,1,2720.0,2720.0,2720,2720,0.0,"void at::native::::CatArrayBatchedCopy::OpaqueType<(unsigned int)4>, unsigned int, (int)3, (int)64, (int)64>(T1 *, at::native::::CatArrInputTensorMetadata, at::native::::TensorSizeStride, int, T2)" 0.0,1728,1,1728.0,1728.0,1728,1728,0.0,"void at::native::unrolled_elementwise_kernel(at::TensorIteratorBase &, at::native::::OpType, T1)::[lambda(long) (instance 1)], at::detail::Array, TrivialOffsetCalculator<(int)1, unsigned int>, TrivialOffsetCalculator<(int)1, unsigned int>, at::native::memory::LoadWithoutCast, at::native::memory::StoreWithoutCast>(int, T1, T2, T3, T4, T5, T6)" 0.0,1409,1,1409.0,1409.0,1409,1409,0.0,"void at::native::unrolled_elementwise_kernel, at::detail::Array, TrivialOffsetCalculator<(int)1, unsigned int>, TrivialOffsetCalculator<(int)1, unsigned int>, at::native::memory::LoadWithoutCast, at::native::memory::StoreWithoutCast>(int, T1, T2, T3, T4, T5, T6)"