<div dir="ltr"><div><div>I see that the documentation suggests that (entity-charset) is supposed to return a symbol. However, it nearly always returns a string. In particular, it appears to me that it returns a symbol only when it returns its default, 'us-ascii.<br><br></div>I feel compelled to repair this, but there are two ways to fix it:<br></div><div>1) make it match the docs and always return a symbol, or<br></div><div>2) change the docs and the default to return a string.<br><br></div><div>It looks to me like #2 will break (less) code, though it's certainly possible that people depend on the default value's being a string.<br><br></div><div>Opinions? In my tree, I've added contract checks on the structure exports and changed the documentation and default to always return a string. If people like this, I can just submit it as a pull request.<br><br></div><div>John<br><br></div></div><div class="gmail_extra"><br><div class="gmail_quote">On Tue, Mar 3, 2015 at 10:11 PM, John Clements <span dir="ltr"><<a href="mailto:clements@brinckerhoff.org" target="_blank">clements@brinckerhoff.org</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><span class=""><br>
On Mar 3, 2015, at 4:31 PM, Matthew Flatt <<a href="mailto:mflatt@cs.utah.edu">mflatt@cs.utah.edu</a>> wrote:<br>
<br>
> You can use "windows-1252" as an encoding name with, for example,<br>
> `reencode-input-port`:<br>
><br>
>> (read-line (reencode-input-port (open-input-bytes #"\xA3")<br>
>                                   "windows-1252"))<br>
</span>> “£"<br>
<br>
Perfect!<br>
<br>
I went looking for a place where I might add a “windows-1252” search term, but it looks like it might be hard, since the list of supported encodings is apparently platform dependent. Would it make sense simply to attach a free-floating search tag of “windows-1252” to this part of the documentation?<br>
<span class=""><br>
><br>
> For handling e-mail, see also `generalize-encoding` from `net/unihead`.<br>
<br>
</span>That probably saved me another half-hour of searching and head-scratching.<br>
<br>
Thanks!<br>
<br>
John<br>
<br>
(p.s.: no one whose mailer checks DMARC records will get this e-mail, sadly. Can’t wait to change to google groups.)<br>
<div class="HOEnZb"><div class="h5"><br>
><br>
> At Tue, 3 Mar 2015 16:22:26 -0800, John Clements wrote:<br>
>> I'm trying to process a bunch of e-mail, and I've discovered that lots of<br>
>> it is encoded using the "windows-1252" charset.  It looks pretty<br>
>> straightforward to map this to unicode, but I thought I'd check: has anyone<br>
>> written this code already?<br>
>><br>
>> John Clements<br>
>> ____________________<br>
>>  Racket Users list:<br>
>>  <a href="http://lists.racket-lang.org/users" target="_blank">http://lists.racket-lang.org/users</a><br>
<br>
</div></div></blockquote></div><br></div>