Avery's Blog

Work on Web Dev, Infra Dev & ML

0%

在使用Pandas读取表格时,如果表格内容不规整(例如Schema信息包含8列,但是某一行包含了9列信息),Pandas会报 Pandas Error Tokenizing Data 的错,程序会立即停止执行。报这一错误可以分为两种场景:

表格Schema信息解析异常

第一种场景是表格的Schema信息,也即第一行不规整,导致Pandas无法正确解析。

据官方文档,如果 sep=None(不传sep参数则默认为None),pandas会自动推断分隔符,但是在某些场景下自动推断并不好用。

1
df = pandas.read_csv(fileName, sep='delimiter', header=None)
Read more »

什么是JDK

Sun公司在创造Java这一门语言时便有提到Java技术体系至少包括4个部分:

  1. Java程序设计语言
  2. 各平台上的Java虚拟机 (Java Virtual Machine,JVM)
  3. Java API类库
  4. 一系列辅助工具,最知名的如javac

而 2+3 构成了JRE(Java Runtime Environment,Java运行时环境),是Java程序运行依赖的最小环境。

1+2+3+4 构成了JDK (Java Development Kit),也即 JRE+1+4 是Java开发所依赖的最小环境。

从低级向高级,从底层到高层而言,是JVM -> JRE -> JDK的顺序。

Read more »