<html><head></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; ">OK, thanks.<div>It is as Paolo suggested: some parts of the code are not parallelized over k-points. This said, I don't see why these parts of the code show a much larger timing when going from the serial run to the run with&nbsp;k-point parallelization. For instance, I would expect that newd has the same timing more or less, but it takes 3 times more. Also the timing of sum_band looks quite higher. Maybe there is a communication overhead between MPI processes, or the memory contention problem that was mentioned before (since the volume of data between cores and main memory largely increases when passing from 1 to 6 pools).</div><div><br></div><div><br></div><div><br></div><div>GS</div><div><br></div><div><br></div><div><div><div>Il giorno 15/feb/2011, alle ore 11.37, Davide Sangalli ha scritto:</div><br class="Apple-interchange-newline"><blockquote type="cite"><div>Dear Paolo and Gabriele,<br>thanks a lot for all your comments.<br><br>For Gabriele, in case you are still interested, I post the details of my <br>calculations.<br><br>Best regards and thank you again,<br>Davide<br><br>****************************************************************<br>TEST 1: &nbsp;Serial run<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;init_run &nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;24.83s CPU &nbsp;&nbsp;&nbsp;&nbsp;25.13s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;1 calls)<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;electrons &nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;349.01s CPU &nbsp;&nbsp;&nbsp;351.40s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;1 calls)<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;forces &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;17.99s CPU &nbsp;&nbsp;&nbsp;&nbsp;18.04s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;1 calls)<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;stress &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;44.14s CPU &nbsp;&nbsp;&nbsp;&nbsp;44.30s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;1 calls)<br><br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Called by init_run:<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;wfcinit &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;10.50s CPU &nbsp;&nbsp;&nbsp;&nbsp;10.64s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;1 calls)<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;potinit &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;1.93s CPU &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;1.97s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;1 calls)<br><br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Called by electrons:<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;c_bands &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;209.73s CPU &nbsp;&nbsp;&nbsp;211.25s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;10 calls)<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;sum_band &nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;65.96s CPU &nbsp;&nbsp;&nbsp;&nbsp;66.35s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;10 calls)<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;v_of_rho &nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;8.64s CPU &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;8.82s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;11 calls)<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;newd &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;70.57s CPU &nbsp;&nbsp;&nbsp;&nbsp;70.81s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;11 calls)<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;mix_rho &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;0.79s CPU &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;0.79s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;10 calls)<br><br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Called by c_bands:<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;init_us_2 &nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;1.45s CPU &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;1.46s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;138 calls)<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;cegterg &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;205.73s CPU &nbsp;&nbsp;&nbsp;206.86s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;60 calls)<br><br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Called by *egterg:<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;h_psi &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;119.93s CPU &nbsp;&nbsp;&nbsp;119.97s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;217 calls)<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;s_psi &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;24.87s CPU &nbsp;&nbsp;&nbsp;&nbsp;24.88s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;217 calls)<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;g_psi &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;1.04s CPU &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;1.03s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;151 calls)<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;cdiaghg &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;3.98s CPU &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;4.07s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;211 calls)<br><br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Called by h_psi:<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;add_vuspsi &nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;24.87s CPU &nbsp;&nbsp;&nbsp;&nbsp;24.87s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;217 calls)<br><br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;General routines<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;calbec &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;39.51s CPU &nbsp;&nbsp;&nbsp;&nbsp;39.52s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;289 calls)<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;cft3s &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;64.52s CPU &nbsp;&nbsp;&nbsp;&nbsp;65.52s WALL ( &nbsp;&nbsp;22216 calls)<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;interpolate &nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;0.79s CPU &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;0.79s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;21 calls)<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;davcio &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;0.01s CPU &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;0.63s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;198 calls)<br><br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Parallel routines<br><br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;PWSCF &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;7m16.35s CPU time, &nbsp;&nbsp;&nbsp;&nbsp;7m19.59s WALL time<br><br>****************************************************************<br>TEST 1: &nbsp;kpts parallelization<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;init_run &nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;29.99s CPU &nbsp;&nbsp;&nbsp;&nbsp;30.29s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;1 calls)<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;electrons &nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;441.37s CPU &nbsp;&nbsp;&nbsp;453.52s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;1 calls)<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;forces &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;51.92s CPU &nbsp;&nbsp;&nbsp;&nbsp;52.91s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;1 calls)<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;stress &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;133.94s CPU &nbsp;&nbsp;&nbsp;137.38s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;1 calls)<br><br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Called by init_run:<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;wfcinit &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;2.64s CPU &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;2.68s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;1 calls)<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;potinit &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;1.92s CPU &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;2.02s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;1 calls)<br><br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Called by electrons:<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;c_bands &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;40.54s CPU &nbsp;&nbsp;&nbsp;&nbsp;42.66s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;10 calls)<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;sum_band &nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;177.87s CPU &nbsp;&nbsp;&nbsp;182.15s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;10 calls)<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;v_of_rho &nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;11.17s CPU &nbsp;&nbsp;&nbsp;&nbsp;11.74s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;11 calls)<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;newd &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;228.49s CPU &nbsp;&nbsp;&nbsp;229.61s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;11 calls)<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;mix_rho &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;2.67s CPU &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;2.68s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;10 calls)<br><br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Called by c_bands:<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;init_us_2 &nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;0.64s CPU &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;0.68s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;21 calls)<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;cegterg &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;39.15s CPU &nbsp;&nbsp;&nbsp;&nbsp;40.36s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;10 calls)<br><br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Called by *egterg:<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;h_psi &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;34.15s CPU &nbsp;&nbsp;&nbsp;&nbsp;34.19s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;37 calls)<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;s_psi &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;1.64s CPU &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;1.64s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;37 calls)<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;g_psi &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;0.22s CPU &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;0.22s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;26 calls)<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;cdiaghg &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;0.48s CPU &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;0.48s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;36 calls)<br><br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Called by h_psi:<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;add_vuspsi &nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;1.67s CPU &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;1.67s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;37 calls)<br><br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;General routines<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;calbec &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;2.83s CPU &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;2.83s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;49 calls)<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;cft3s &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;25.51s CPU &nbsp;&nbsp;&nbsp;&nbsp;25.77s WALL ( &nbsp;&nbsp;&nbsp;3904 calls)<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;interpolate &nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;1.57s CPU &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;1.58s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;21 calls)<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;davcio &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;0.00s CPU &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;0.09s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;10 calls)<br><br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Parallel routines<br><br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;PWSCF &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;: 10m57.44s CPU time, &nbsp;&nbsp;&nbsp;11m14.40s WALL time<br><br>****************************************************************<br>TEST 1: FFT parallelization<br><br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;init_run &nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;7.12s CPU &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;8.04s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;1 calls)<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;electrons &nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;71.85s CPU &nbsp;&nbsp;&nbsp;&nbsp;77.28s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;1 calls)<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;forces &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;8.49s CPU &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;8.68s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;1 calls)<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;stress &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;21.95s CPU &nbsp;&nbsp;&nbsp;&nbsp;22.46s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;1 calls)<br><br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Called by init_run:<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;wfcinit &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;1.61s CPU &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;2.06s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;1 calls)<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;potinit &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;0.74s CPU &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;0.79s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;1 calls)<br><br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Called by electrons:<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;c_bands &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;35.48s CPU &nbsp;&nbsp;&nbsp;&nbsp;38.71s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;11 calls)<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;sum_band &nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;16.47s CPU &nbsp;&nbsp;&nbsp;&nbsp;17.71s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;11 calls)<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;v_of_rho &nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;2.59s CPU &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;2.75s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;12 calls)<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;newd &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;18.12s CPU &nbsp;&nbsp;&nbsp;&nbsp;18.81s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;12 calls)<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;mix_rho &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;0.42s CPU &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;0.44s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;11 calls)<br><br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Called by c_bands:<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;init_us_2 &nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;0.65s CPU &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;0.66s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;150 calls)<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;cegterg &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;34.41s CPU &nbsp;&nbsp;&nbsp;&nbsp;37.31s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;66 calls)<br><br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Called by *egterg:<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;h_psi &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;23.01s CPU &nbsp;&nbsp;&nbsp;&nbsp;25.34s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;239 calls)<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;s_psi &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;1.95s CPU &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;1.94s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;239 calls)<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;g_psi &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;0.23s CPU &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;0.23s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;167 calls)<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;cdiaghg &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;2.90s CPU &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;3.18s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;233 calls)<br><br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Called by h_psi:<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;add_vuspsi &nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;1.91s CPU &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;1.91s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;239 calls)<br><br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;General routines<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;calbec &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;3.54s CPU &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;3.81s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;317 calls)<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;cft3s &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;12.24s CPU &nbsp;&nbsp;&nbsp;&nbsp;15.25s WALL ( &nbsp;&nbsp;24298 calls)<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;interpolate &nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;0.35s CPU &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;0.37s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;23 calls)<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;davcio &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;0.00s CPU &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;0.54s WALL ( &nbsp;&nbsp;&nbsp;&nbsp;216 calls)<br><br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Parallel routines<br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;fft_scatter &nbsp;: &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;4.34s CPU &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;6.95s WALL ( &nbsp;&nbsp;24298 calls)<br><br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;PWSCF &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;: &nbsp;1m49.61s CPU time, &nbsp;&nbsp;&nbsp;&nbsp;1m56.75s WALL time<br><br><br><br><br>On 02/14/2011 06:22 PM, Paolo Giannozzi wrote:<br><blockquote type="cite">Also notice that parallelization on k-points has (in principle)<br></blockquote><blockquote type="cite">a linear speedup on the diagonalization of H and related operations<br></blockquote><blockquote type="cite">depending on the number of k-points, but not for other operations<br></blockquote><blockquote type="cite">depending upon the charge density such as calculation of V[n(r)].<br></blockquote><blockquote type="cite">The latter are typically small in comparison with the former, but<br></blockquote><blockquote type="cite">it depends a lot upon the specific system. FFT parallelization<br></blockquote><blockquote type="cite">distributes both calculations (and yes, it distributes most memory,<br></blockquote><blockquote type="cite">I stand by my statement)<br></blockquote><blockquote type="cite"><br></blockquote><blockquote type="cite">P.<br></blockquote><br>Davide Sangalli<br>MDM Lab, IMM, CNR<br>Agrate (MI), Italy<br>_______________________________________________<br>Pw_forum mailing list<br><a href="mailto:Pw_forum@pwscf.org">Pw_forum@pwscf.org</a><br>http://www.democritos.it/mailman/listinfo/pw_forum<br></div></blockquote></div><br><div>
<span class="Apple-style-span" style="border-collapse: separate; color: rgb(0, 0, 0); font-family: Helvetica; font-size: medium; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-align: auto; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-border-horizontal-spacing: 0px; -webkit-border-vertical-spacing: 0px; -webkit-text-decorations-in-effect: none; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; "><div><span class="Apple-style-span" style="color: rgb(126, 126, 126); font-size: 16px; font-style: italic; "><br class="Apple-interchange-newline">§ Gabriele Sclauzero,&nbsp;EPFL SB ITP CSEA</span></div><div><font class="Apple-style-span" color="#7E7E7E"><i>&nbsp;&nbsp; PH H2 462, Station 3,&nbsp;CH-1015 Lausanne</i></font></div></span>
</div>
<br></div></body></html>