`
zchening
  • 浏览: 14213 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
文章分类
社区版块
存档分类
最新评论

文本文件的字符编码检测

阅读更多

从代码看,是基于频率分析,还是比较准确的。 
测试代码如下:

import java.io.File;  
import java.io.UnsupportedEncodingException;  
import java.net.MalformedURLException;  
import java.net.URL;  
  
public class Test {  
  public static void main(String[] args) throws UnsupportedEncodingException, MalformedURLException {  
    BytesEncodingDetect s = new BytesEncodingDetect();  
    String str = "??¤¤¤å";  
    System.out.println(BytesEncodingDetect.nicename[s.detectEncoding(str.getBytes("ISO-8859-1"))]);  
    System.out.println(new String(str.getBytes("ISO-8859-1"), "BIG5"));  
    System.out.println(BytesEncodingDetect.nicename[s.detectEncoding("Java世界".getBytes())]);  
    System.out.println(BytesEncodingDetect.nicename[s.detectEncoding(new URL("http://www.iteye.com"))]);  
    System.out.println(BytesEncodingDetect.nicename[s.detectEncoding(new File("src/Test.java"))]);  
  }  
}  

 

输出结果:

Big5  
??中文  
GB-2312  
UTF-8  
UTF-8 
 

附件:

 

分享到:
评论

相关推荐

    字符编码 类型检测 打开

    程序可以自动检测文本文件的编码类型,并用记事本以正确的编码类型打开,基本结局了windows记事本因编码类型错误引起的乱码情况。 使用方式cmd下 chartype /?查看命令行使用方式。 鼠标右键快捷方式直接打开。 文件...

    Java自动识别文件字符编码工具类.rar

    Java自动识别文件字符编码工具类 参考博客 https://blog.csdn.net/superbeyone/article/details/103036914 使用方式: String encode = EncodingDetect.getFileEncode(geoJsonFile); log.info("系统检测到文件[ {}...

    Java判断文件编码格式 - 明明是悟空 - 博客园1

    它的类库很小,只有500K左右,利用该类库判定文本文件的代码如下(由于cpdetector的算法使用概率统计,所以结果并不是100%准确的,但是是迄今为止我见过

    C++实现判断一个字符串是否为UTF8或GBK格式的方法

    本文实例讲述了C++实现判断一个字符串是否为UTF8或GBK格式的方法。分享给大家供大家参考,具体如下: ...//UFT8可用1-6个字节编码,ASCII用一个字节 unsigned char chr = *str; bool bAllAscii = t

    字符编码UTF8转GB2312+可批量转换+需安装Python

    下载到的代码中文显示乱码怎么办?多半可能是字符编码不对。 该工具用于字符编码UTF8转GB...注意:需安装Python,Python 2和3 需安装通用编码检测器,文件内有安装方法; 该工具对于入门学习Python 也是很有参考价值;

    PilotEdit(文件编辑器软件)官方中文版64位V15.6.0 | 含pilotedit使用说明

    PilotEdit完全支持UNICODE文件和DOS/UNIX文件,能自动检测文本文件编码,将多个文件的编码从一种编码更改为另一种编码,当用户在不同编码的文件之间复制/粘贴时,PilotEdit将自动调整文本编码,从而避免pilotedit...

    PilotEdit(文件编辑器软件)官方中文版32位V15.6.0 | 含pilotedit使用说明

    PilotEdit完全支持UNICODE文件和DOS/UNIX文件,能自动检测文本文件编码,将多个文件的编码从一种编码更改为另一种编码,当用户在不同编码的文件之间复制/粘贴时,PilotEdit将自动调整文本编码,从而避免pilotedit...

    xstrings:打印文件中已编码的可打印字符的字符串

    与字符串不同,xstrings能够使用简单的编码(例如按位XOR,按位向右旋转,按位向左移位等)检测隐藏在文件中的混淆字符串,这在恶意软件中非常常见。 默认情况下,xstrings使用所有可用的编码方法查找所有可打印...

    Python tkinter 设计功能齐全的文本编辑器

    编辑文本文件; 编辑二进制文件 (字符会以转义序列形式显示, 如’abc\xff’); 支持ansi、gbk、utf-8等编码, 支持自动检测文件编码; 支持查找、替换、改变字体大小; 支持撤销、重做; 编辑python代码文件时, 支持代码...

    功能超级强悍的文本编辑器 PilotEdit 14.3.0 + x64 中文多语免费版.zip

    >当从十六进制编辑模式切换回文本模式时自动检测文件类型 >在十六进制编辑模式和文本模式中无限的undo/redo 5. 列模式 >键盘输入的字符将被插入到列模式中所有选中的行 >如果粘贴一行文字,这行文字将被插入到列模式...

    PilotEdit Lite v12.7.0.zip

    当从十六进制编辑模式切换回文本模式时自动检测文件类型 在十六进制编辑模式和文本模式中无限的undo/redo 5. 列模式 键盘输入的字符将被插入到列模式中所有选中的行 如果粘贴一行文字,这行文字将被插入到列模式...

    PilotEdit支持超过400G的文件编辑

     >当从十六进制编辑模式切换回文本模式时自动检测文件类型  >在十六进制编辑模式和文本模式中无限的undo/redo  5、列模式  >键盘输入的字符将被插入到列模式中所有选中的行  >如果粘贴一行文字,这行文字将...

    基于python+CNN的网络入侵检测算法源码+项目说明.zip

    数据集中,有三个字符特征,是protocol_type、service和flag,由于他们是字符特征,所以需要进行one-hot编码,从而把字符型转为数值型 第二步:对数据做归一化处理。把所有数据的特征缩放到0和1之间,使用的处理方法...

    C语言程序设计标准教程

     ASCII文件也称为文本文件,这种文件在磁盘中存放时每个字符对应一个字节,用于存放对应的ASCII码。例如,数5678的存储形式为: ASC码: 00110101 00110110 00110111 00111000  ↓ ↓ ↓ ↓ 十进制码: 5 6 7 ...

    rar压缩软件.rar

    列表文件是一个包括处理的文件名的纯文本文件。第一列应该以文件名开始。可以 在//字符后添加注释。例如,你可以创建包含下列字符串的 backup.lst: c:\work\doc\*.txt //备份文本文档 c:\work\image\*.bmp //...

    前端助手FeHelper插件

    当web前端程序与后台进行数据交互的时候使用URL编码肯定是必不可少的了,但是我们往往需要预先知道这款字符编码以后的情况,以为与后台开发人员一同提前作出相应处理或对字符发送期间产生的问题进行排查。...

    基于python+CNN的网络入侵检测算法源码+使用说明(优质项目).zip

    把所有数据的特征缩放到0和1之间,使用的处理方法为min-max方法,此时将文本文件变成了五个不同流量类型的cvs文件,在目录DataSet/Change/中。 从预测文件夹的不同的文件夹中读取图片进行预测。对应代码Predict,...

    文件批处理百宝箱 v10.0.rar

    提供了对doc/ppt/txt/asp/html等文档进行智能字符批量替换(支持正则,Word通配符),对txt文本行的添加、删除、提取、统计分割等的处理,对doc/txt类型互转,对xls表合并 ,对ppt转word,Office文档密码筛查, txt...

    JS Minifier / Packer - 目前最好用的(C#.net 2.0)js精简/压缩工具

    3、既支持文件列表批量(重命名/覆盖) 精简化,又支持javascript代码字符串(多文件拖放合并) 精简化; 4、支持JS输入/输出文件编码指定; 5、带有 “最小化js输出行数” 选项(通过检测行尾是否以 ;结束, 如果不是...

    JSMinifier - 目前最好用的(C#.net 2.0)js精简化工具

    2、既支持文件列表批量(重命名/覆盖) 精简化,又支持javascript代码字符串(多文件拖放合并) 精简化; 3、支持JS输入/输出文件编码指定; 4、带有 “最小化js输出行数” 选项(通过检测行尾是否以 ;结束, 如果不是...

Global site tag (gtag.js) - Google Analytics