<div dir="ltr"><div style>Hi Haiwei, </div><div style><br></div><div style>AFAIK there isn&#39;t any way to see the actual instructions that the JIT is generating.  Why do you think it would be helpful in this case?  </div>
<div style><br></div><div style>It may be helpful to use raco decompile, however -- that allows you to see what the bytecode version of your program looks like (which is what is actually being fed to the JIT).</div><div style>
<br></div><div style>-James</div><div><br></div><br><div class="gmail_extra"><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Message: 6<br>
Date: Mon, 25 Feb 2013 17:53:34 +0800<br>
From: Haiwei Zhou &lt;<a href="mailto:highfly22@gmail.com">highfly22@gmail.com</a>&gt;<br>
To: Danny Yoo &lt;<a href="mailto:dyoo@hashcollision.org">dyoo@hashcollision.org</a>&gt;<br>
Cc: users &lt;<a href="mailto:users@racket-lang.org">users@racket-lang.org</a>&gt;<br>
Subject: Re: [racket] The performance of fannkuch-redux<br>
Message-ID:<br>
        &lt;CABLXuO9nJAUa=Xn7779377NPnoQX6Ze3Tdkf6bvF=<a href="mailto:sta%2BbG6wQ@mail.gmail.com">sta+bG6wQ@mail.gmail.com</a>&gt;<br>
Content-Type: text/plain; charset=&quot;iso-8859-1&quot;<br>
<br>
Updated a parallel version to <a href="https://github.com/highfly22/fannkuch-redux" target="_blank">https://github.com/highfly22/fannkuch-redux</a><br>
It takes about 1m50s in the four cores PC, while the script in the shoutout<br>
takes about 4m30s. It looks like the task division is not perfect.<br>
<br>
I am just curious on the native implement of JIT. How to dump assemble code<br>
after JIT?<br>
<br>
When I try to define count-flips as a macro, racket complains &quot;to many<br>
forms&quot;? What does that mean?<br>
<br>
Thanks,<br>
Haiwei<br>
<br>
<br>
On 24 February 2013 11:03, Danny Yoo &lt;<a href="mailto:dyoo@hashcollision.org">dyoo@hashcollision.org</a>&gt; wrote:<br>
<br>
&gt; &gt;&gt; &gt; It&#39;s amazing fast. If it is only 6 times slower than C version. If<br>
&gt; &gt;&gt; &gt; parallelizing the time consuming operations, it would be 2x slower<br>
&gt; than<br>
&gt; &gt;&gt; &gt; C<br>
&gt; &gt;&gt; &gt; version in the four cores CPU.<br>
&gt; &gt;&gt;<br>
&gt; &gt;&gt;<br>
&gt; &gt;&gt; Do you mean the version you&#39;ve written, or the one in the Racket<br>
&gt; &gt;&gt; benchmark suite?<br>
&gt; &gt;<br>
&gt; &gt; It&#39;s the one in the benchmark suite.<br>
&gt;<br>
&gt;<br>
&gt; What does the code look like if you add the parallelizing?  Can you<br>
&gt; show us?   Thanks!<br>
&gt;<br>
-------------- next part --------------<br>
An HTML attachment was scrubbed...<br>
URL: &lt;<a href="http://lists.racket-lang.org/users/archive/attachments/20130225/8e591afb/attachment-0001.html" target="_blank">http://lists.racket-lang.org/users/archive/attachments/20130225/8e591afb/attachment-0001.html</a>&gt;<br>

<br>
------------------------------<br></blockquote></div></div></div>