字符编码

2017-01-13

编程过程中偶尔会遇到乱码问题,对字符编码进行一定的理解可以加快解决问题的速度.

基本概念

字符集:系统支持的所有抽象字符的集合。
常见字符集：ASCII、ISO-8859-1、GB2312、GBK、GB18030、BIG5、Unicode等。
编码(encoding): 编码是信息从一种形式或格式转换为另一种形式的过程。解码，是编码的逆过程。
字符编码(character encoding): 把字符集中的字符编码为指定集合中某一对象（例如：比特模式、自然数序列、8位元组或者电脉冲），以便文本在计算机中存储和通过通信网络的传递。一般一种字符集对应一种字符编码方式，其中Unicode字符集有多种编码方式，比如UTF-8、UTF-16、UTF-32。不同字符集间转换一般使用Unicode字符集作为中介，先转换为Unicode字符，然后再查码表进行转换。

Unicode

Unicode (万国码,国际码,统一码,单一码)是计算机领域的一项业界标准,对世界上大部分文字系统进行整理和编码,使电脑可以用更为简单的方式类呈现和处理文字.

Java程序在运行时，内存中的字符使用Unicode字符集，使用UTF-16的编码方式（一般为2个字节，辅助平面字符需要4个字节）
Unicode使用16位的编码空间，每个字符占用2个字节(附加字符需要4个字节)
一个字符的Unicode编码是确定的
Unicode的实现方式称为Unicode转换格式（Unicode Transformation Format，简称为UTF）.

UTF-8

UTF-8（8-bit Unicode Transformation Format）是一种针对Unicode的可变长度字元编码，也是一种前缀码。它可以用来表示Unicode标准中的任何字元，且其编码中的第一个位元组仍与ASCII相容，这使得原来处理ASCII字元的软体无须或只须做少部份修改，即可继续使用。因此，它逐渐成为电子邮件、网页及其他储存或传送文字的应用中，优先采用的编码。

只包含7位ASCII字符的文件在ASCII和UTF-8两种编码方式下是一樣的
UTF-8是一种变长编码方式(1-4个字节),兼容ASCII
其中英文字符占用1个字节,中文字符占用3个字节,所以相对来说,占用存储空间较少

UTF-16

采用2个字节或者4个字节(辅助平面字符)的编码方式,是Java中字符的编码方式
英文也占用2个字节,所以比较浪费空间
优点是编解码方便,效率高,字符定位容易
缺点是占用空间大,采用顺序编码,若字符损坏无法进行校验

UTF-32

采用4个字节的定长编码方式
英文也占用4个字节
占用空间大
有大小端的区别

Java中的编码

Java程序默认使用UTF-16编码(字符串String的编码)
JVM编码:Uninx默认使用UTF-8,Windows默认使用GBK(文件系统编码方式),所以最好指定编码方式,加入JVM参数-Dfile.encoding=utf8
String的getBytes()方法默认使用的是JVM默认的编码方式来编码(不同操作系统可能会不一样,所以最好指定编码方式)
String的getBytes(Charset)方法指定编码方式来编码字符串
new String(byte[])方法默认使用的是JVM默认的编码方式来解码(不同操作系统可能会不一样,所以最好指定编码方式)
new String(byte[],Charset)方法可以对byte[]进行指定编码方式解码
乱码需要使用当时编码时候用的错误解码方式进行编码后再重新解码
很多框架使用ISO-8859-1编码,存在黑洞问题,容易造成中文丢失,new String(str.getBytes("utf-8"),"iso-8859-1");有可能能解决问题

不同编码方式占用字节(byte)

非特殊字符情况下

编码方式	1个英文字符(ASCII)	1个中文字符
GB2312	1	2
GBK	1	2
UTF-8	1	3
UTF-16	2	2
UTF-32	4	4
Unicode	2	2

其中GBK兼容GB2312,可以说GBK是GB2312的超集

参考链接:

WIKI_编码

WIKI_字符编码

WIKI_Unicode

字符集和字符编码（Charset & Encoding）

展开全文 >>

MySQL数据类型

2017-01-06

MySQL 数据类型

char与varchar

char性能优于varchar（会用1-2个字节存储字符串长度），也不易产生碎片，适合用于存储长度较为固定的字符串
进行字符比较时候默认是不区分大小写的
char(4)可以存4个字符，根据编码方式占据不同的字节（UTF-8每个字符占据3字节）
varchar(4)可以存4个字符，根据编码方式以及存放字节长度占据不同的字节（会用1-2个字节存储字符串长度）
char和varchar末尾有空格的话，char会自动去掉空格后存储，varchar虽然不会去掉空格，但在进行字符串比较时，会去掉空格进行比较

字符比较区分大小写的方法：

select时候加上binary，如：select * from test where name like binary '%王%';
建表时候或者修改表列数据类型为varchar(32) binary这种格式

binary

binary保存二进制字符串，它保存的是字节，没有字符集限制，比较时候比较的是字节，区分大小写，按字节比较比字符简单快速
binary(8)可以保存8个字节的数据，结尾使用\0填充，而不是空格

Blob与Text

BLOB是二进制大对象，容纳可变数量的数据。有4种类型：TINYBLOB、BLOB、MEDIUMBLOB和LONGBLOB。可容纳值的最大长度不同。
TEXT类型也有四种：TINYTEXT、TEXT、MEDIUMTEXT和LONGTEXT。对应4种BLOB类型，有相同的最大长度和存储需求。
大体上可将BLOB列视为能够足够大的VARBINARY列，将TEXT列视为VARCHAR列。
BLOB和TEXT列不能有默认值。

由于BLOB和TEXT值可能会非常长，使用它们时可能遇到一些约束：

当排序时只使用该列的前max_sort_length个字节。max_sort_length的默认值是1024；该值可以在启动mysqld服务器时使用–max_sort_length选项进行更改。

运行时增加max_sort_length的值可以在排序或组合时使更多的字节有意义。任何客户端可以更改其会话max_sort_length变量的值：
复制代码代码如下:

mysql> SET max_sort_length = 2000;

mysql> SELECT id, comment FROM tbl_name

1	-> ORDER BY comment;

当你想要使超过max_sort_length的字节有意义，对含长值的BLOB或TEXT列使用GROUP BY或ORDER BY的另一种方式是将列值转换为固定长度的对象。标准方法是使用SUBSTRING函数。例如，下面的语句对comment列的2000个字节进行排序：
复制代码代码如下:

mysql> SELECT id, SUBSTRING(comment,1,2000) FROM tbl_name

1	-> ORDER BY SUBSTRING(comment,1,2000);

BLOB或TEXT对象的最大大小由其类型确定，但在客户端和服务器之间实际可以传递的最大值由可用内存数量和通信缓存区大小确定。你可以通过更改max_allowed_packet变量的值更改消息缓存区的大小，但必须同时修改服务器和客户端程序。例如，可以使用mysql和mysqldump来更改客户端的max_allowed_packet值。

每个BLOB或TEXT值分别由内部分配的对象表示。这与其它列类型形成对比，后者是当打开表时为每1列分配存储引擎。

展开全文 >>

Java Web 项目配置文件提取方案

2016-12-01

Java Web 项目配置文件提取方案

如果使用war包部署项目,配置文件在war包里面会有很多不便,所以考虑将配置文件提取出来,当然,这是针对传统Java Web项目

开发时

在开发时候,配置文件使用项目中的配置文件

首先,修改web.xml,添加定制配置文件目录项目中的/WEB-INF/config作为基础配置文件目录

<context-param>
		<param-name>configDir</param-name>
		<param-value>/WEB-INF/config</param-value>
</context-param>

在需要导入配置的地方可以用如下方式导入

1	<context:property-placeholder location="${configDir}/database.properties" ignore-unresolvable="true"/>

比如,spring的配置注入

<bean id="configProperties" class="org.springframework.beans.factory.config.PropertiesFactoryBean">
        <property name="locations">
            <list>
                <value>${configDir}/*.properties</value>
            </list>
        </property>
</bean>
<bean id="propertyConfigurer" class="org.springframework.beans.factory.config.PreferencesPlaceholderConfigurer">
        <property name="properties" ref="configProperties" />
</bean>

生产环境

生产环境中,使用其他目录作为配置文件目录,已确保更新war包时候不会把原配置替换掉

要自定义配置目录，则可以修改webapp的Context Descriptor。以tomcat为例：
在如下目录${CATALINA_HOME}/conf/Catalina/localhost/下建立[webapp_name].xml，这里是
registryService.xml，内容如下：

<?xml version="1.0" encoding="UTF-8"?>
<Context>
  <Parameter name="configDir" value="file:/app/config" override="false"/>
</Context>

其中,value="file:/app/config"表示配置文件都放在/app/config目录下

展开全文 >>