tika-app-1.6.jar是一份很重要的文件包,是Tika环境配置必须的一个文件包,能够完成内容分析功能,尤其对于引擎抓取有着极大的帮助,小编特意为大家带来的这份文件希望大家喜欢。感兴趣的朋友欢迎前来万能驱动网下载体验吧!
Tika基本介绍
Tika是一个内容分析工具,自带全面的parser工具类,能解析基本所有常见格式的文件,得到文件的metadata,content等内容,返回格式化信息。总的来说可以作为一个通用的解析工具。特别对于搜索引擎的数据抓去和处理步骤有重要意义。
Tika是一个目的明确,应用于简单的Apache的开源项目。
Tika发展历程
Tika项目之初来源于Nutch项目(大家应该都不陌生),现在是Lucene的子项目,所以也是来源于搜索引擎。其实Nutch这个项目的开发过程中,孕育了不少东西,应该都归功于Doug Cutting。我个人也是觉得这件事情很赞,要搞Nutch这样一个通用的搜索引擎,包括了全文索引和Web爬虫两大块内容,在开发过程中逐渐诞生出一些核心的周边产品,再孕育成子项目,包括hadoop,Lucene,Tika等等这些现代很主流,应用于人群很广的通用项目,带给了IT界不少便利。我个人对此很憧憬,觉得甚是美好。
TIKA环境配置
第1步:验证安装java
为了验证Java安装,打开控制台并执行下面的Java命令。
Windows打开命令控制台\>java –version
Linux打开命令终端$java –version
如果Java已经正确地在您的系统已经安装,那么应该得到以下输出之一,具体取决于您所应用于的平台上。
Windows
Java version "1.7.0_60"
Java (TM) SE Run Time Environment (build 1.7.0_60-b19)
Java Hotspot (TM) 64-bit Server VM (build 24.60-b09, mixed mode)
Lunix
java version "1.7.0_25"
Open jdk Runtime Environment (rhel-2.3.10.4.el6_4-x86_64)
Open JDK 64-Bit Server VM (build 23.7-b01, mixed mode)
第2步:设置Java环境
设置JAVA_HOME环境变量指向到安装在机器上的Java基本目录的位置。例如,
Windows设置环境变量 JAVA_HOME to C:\ProgramFiles\java\jdk1.7.0_60
Linuxexport JAVA_HOME=/usr/local/java-current
附加Java编译器的位置到系统路径的完整路径。
WindowsAppend the String; C:\Program Files\Java\jdk1.7.0_60\bin to the end of the system variable PATH.
Linuxexport PATH=$PATH:$JAVA_HOME/bin/
验证命令java版本,命令提示符如上所述。
第3步:设置Apache Tika环境
可以在自己的环境中通过应用于集成Apache Tika :
命令行,
Tika API,
Tika(CLI)的命令行界面,
Tika的图形用户界面(GUI),或
源代码
对于任何一种方法,首先,必须下载的Tika源代码。
下载文件后,设置类路径的JAR文件 tika-app-1.6.jar。添加 jar 文件的完整路径。
Windows添加字符串 “C:\jars\Tika-app-1.6.jar” 到用户环境变量 CLASSPATH
Linux
Export CLASSPATH=$CLASSPATH:
/usr/share/jars/Tika-app-1.6.tar:
Apache提供Tika应用程序,应用于eclipse的图形用户界面(GUI)应用程序。
版权声明:tika app 1.6.jar包所展示的资源内容均来自于第三方用户上传分享,您所下载的资源内容仅供个人学习交流使用,严禁用于商业用途,软件的著作权归原作者所有,如果有侵犯您的权利,请来信告知,我们将及时撤销。
软件下载信息清单:
软件名称 | 发布日期 | 文件大小 | 下载文件名 |
---|---|---|---|
tika app 1.6.jar包安装包 | 2024年11月10日 | 25.5M | tikaapp16_qudong9.com.zip |
软件评论