FineReader: An application to format text file, including convert HTML file to text file, merge text files, paragraph and reparagragh.

作者:马健
邮箱:stronghorse@163.net
主页:http://stronghorse.yeah.net

FAQ
使用说明
    一、软件安装/删除
    二、软件使用
附录 版本更新记录

FAQ

Q:FineReader是什么?
A:这是一个专为整理电子版小说而开发的工具,包括HTML到文本文件的转换,文件合并,段落合并,段落分行等功能。

Q:为什么FineReader不包含BIG5到GB的转换?
A:在转码方面,我没有信心做得比南极星更好,不如藏拙。

Q:为什么要开发FineReader?
A:我曾经极度热衷于电子版小说,但是看HTML版的小说总有点遗憾:看到错别字的时候修改很麻烦,打印是个问题,翻页也很累……最后发现解决的办法就是将HTML转换、合并成一个TXT文件,然后在Word下观看。现成的HTML到TXT的转换工具有不少,但是集转换、合并、分段等功能于一体的好像还没有,尤其是分段工具,多半分完段后都会有哭笑不得的感觉,所以我才自己开发了这个工具。把分完段后的文件再按照指定的行宽重新分行的功能,则是在一个网友的要求下加进去的,估计是用于整理网络图书馆。

使用说明

一、软件安装/删除

本软件为纯正的绿色软件,不需要安装,下载ZIP包后直接展开、运行即可。删除时删除可执行文件和帮助文件即可。

二、软件使用

1、HTML文件到文本文件的转换(HTML->Text)

根据需要设置选项(也可以使用预设值),点击Go按钮,在弹出的对话框中选择需要转换的文件(可以选多个),然后点“打开”或“Open”按钮即可。

2、文件合并(Merge Files)

一般网站刊登电子版小说时,都是一章一个文件,因此在将HTML文件转换成TXT文件后,一般还需要按照章节顺序将转换出来的诸多TXT文件合并成一个文件。

使用方法:点击Browse按钮,在弹出的对话框中输入合并后的文件名,然后点Go按钮,在弹出的对话框中选择需要合并的文件即可。

注意:文件的合并顺序,等同于在Go对话框中“文件名”(File Name)项中的显示顺序。通常最先选择的文件将排在末尾,而最后选择的文件将排在开头。最简单的选择方法:先选择最后一个文件,然后按住Shift健,选择第一个文件。

3、分段(Paragraph)

在把HTML转换成TXT文件后,由于去掉了HTML中的段落控制,转出来的文件看起来可能会参差不齐,需要重新合并、分段。

使用方法:点Browse按钮选择需要分段的文件(如果前面做过文件合并,这里会自动填入合并后的文件名),根据需要设置选项,点Go按钮开始分段。

选项说明:

“Input paragraph is”框指定分段条件,即在输入文件中,满足什么样的条件算一个段落。这样的条件可以有4个:

  1. 以2个或指定个数的中文空格开头。
  2. 以4个或指定个数的英文空格开头。
  3. 后面跟一个空行。
  4. 某一行的长度小于平均行长的1/20(可设置)。一般这个条件用于OCR出来、没有整理过的文件。

“Output paragraph is”框指定输出格式,可以指定的内容包括:

  1. 段落的引导字符:可以是2个中文空格、4个英文空格或者什么也没有。
  2. 在段落后面加一个空行。
  3. 删除原文文本行的引导空格。
  4. 删除原文文本行的末尾空格。

4、分行(Reparagraph)

有时候在用分段功能对原文中的段落进行合并、整理后,还需要按照指定的行宽,对段落进行分行,避免在没有自动环绕功能的浏览器上出现横向滚动条。

使用方法:点Browse按钮选择需要分行的文件(如果前面做过文件合并或分段,这里会自动填入文件名),根据需要设置选项,点Go按钮开始分段。

选项说明:

  1. Maximum line length项说明分行的行长,以英文字符为单位。注意一个中文字符等于两个英文字符。
  2. Begin with选项设置分行后段落的引导字符,可以是2个中文字符、4个英文字符或者什么也没有。
  3. Add a blank line after paragraph说明是否需要在段落后加一个空行。

附录 版本更新记录

Version 1.45
在分段(Paragraph)的时候,可以去除行首、行尾的制表符。

Version 1.44
在HTML->TXT对话框中,增加“Convert iso8859-1 sequence”选项,即将 转成空格,将·转成·等。

Version 1.43
1、增加分行(Reparagrahp)功能。
2、增加本说明文件。