下载吧 系统软件

分类分类

OpenRefine(数据清理工具)

OpenRefine(数据清理工具)

v3.4.1 免费版

大小:115.6 MB 更新:2025/01/11

类别:系统软件系统:WinAll

立即下载

  OpenRefine是一款绿色安全、免费开源的数据清理工具,使用这款软件用户可以轻松对电脑中的所有数据进行整理并清理,同时还可以将整个电脑中的文件夹整理成表格进行分析,非常方便实用,该软件界面简洁直观、没有过多的操作功能,可通过可视化的方式分析和整理数据,用户只需将选择的文件添加上传到软件即可进行数据整理和清理;OpenRefine支持数据文件查询、过滤、去重、分析等多种特色功能,可以添加到软件上的数据文件变成整齐的电子表格,还能够将整理后的文件以多种格式文件导出。

OpenRefine(数据清理工具)

功能介绍

  1、从计算机上的一个或多个文件导入数据

  2、从网络上的一个或多个链接导入数据

  3、通过粘贴剪贴板中的文本导入数据

  4、从Google云端硬盘导入一个或多个表格

  5、从数据库导入数据

  6、可以加载任何文件格式

软件特色

  辅助功能

  OpenRefine被设计为传统的桌面应用程序...恰好在您的浏览器中运行。因此,很遗憾,我们没有投资于满足任何可访问性准则(例如WCAG或其他)。我们有很多可以利用文字转语音等功能的标签,仅此而已。这并不是说我们不会阻止任何人进入并帮助我们进行任何可访问性方面的工作,但是由于OpenRefine的设计方式,它的许多功能非常脆弱,对于那些视力障碍者来说无疑变得更加容易访问,因为最初设计OpenRefine的许多功能都是为了视觉敏锐度和准确性做出人为判断。

  但是,再一次,没有足够的时间和其他自愿提供代码的人来集中精力使所有人都可以使用OpenRefine的更多功能,这是不可能的。

  Open Project无法正常工作或在我的浏览器中显示混合的HTML内容

  这可能是由于您已在OpenRefine的AppData文件夹中安装了OpenRefine扩展名,该扩展名也是工作区的默认位置,并在其中保留项目文件夹和文件。所以...我们不想冒着删除OpenRefine扩展程序来解决问题的风险,所以...让我们按顺序执行以下步骤:

  备份您的AppData文件夹下的OpenRefine文件夹。(使用Windows上的Zip或任何存档工具(如7z),然后将此.zip文件移动到安全位置或另外上传到云中的某个位置)

  删除您的AppData文件夹下的OpenRefine文件夹。

  启动OpenRefine,它将在其中重新创建文件夹和工作区文件夹。

  可选的下一步是将workspace.json文件和项目文件夹从先前保存的.zip备份文件中有选择地移回原位

使用方法

  1、完成软件下载后点击.exe文件并鼠标右键即可创建软件桌面快捷键

OpenRefine(数据清理工具)

  2、双击软件进入软件Java下载界面进行Java下载

OpenRefine(数据清理工具)

  3、双击Java.exe文件可以进行Java文件安装,完成安装方可使用OpenRefine软件

OpenRefine(数据清理工具)

  4、进入软件建立专案界面可以从电脑中选择文件到软件上进行数据导入

  该项目屏幕

  项目屏幕(或工作屏幕)是您开始进行项目工作后将花费大部分时间的地方。这是您应该熟悉的界面部分的快速演练。

OpenRefine(数据清理工具)

  该项目栏#

  项目栏贯穿项目屏幕的最上方。它在右侧包含OpenRefine徽标,项目标题和项目控制按钮。

  您可以随时关闭当前项目,并通过单击OpenRefine徽标返回主屏幕。如果您想在新的浏览器选项卡或窗口中打开另一个项目,则可以右键单击徽标并使用“在新选项卡中打开”。如果关闭项目,您将丢失当前的构面并查看设置(但数据转换将保存在项目的历史记录中)。

  警告

  不要单击浏览器上的“后退”按钮-它可能会关闭当前项目,并且您将失去构面并查看设置。

  您可以随时通过在项目标题内部单击来重命名项目,这将变成一个文本字段。项目名称不必唯一,因为OpenRefine根据幕后的唯一标识符来组织它们。

  这 固定链接允许您以特定的视图状态(即应用了构面和滤镜)返回到项目。这固定链接如果必须在使用构面和过滤器时关闭项目,则可以帮助您从上次中断的地方继续工作。它将视图特定的信息直接放入URL:单击它会在现有选项卡中加载此当前视图URL。您可以右键单击并复制固定链接 用于将当前视图状态复制到剪贴板的URL,而无需刷新正在使用的选项卡。

  这 打开… 按钮将打开一个新的浏览器标签,其中显示 建立专案屏幕。在这里,您可以更改设置,开始新项目或打开现有项目。

  出口是一个下拉菜单,可让您选择导出数据集的格式。许多导出选项将仅导出当前可见的行和记录-当前选择的构面和过滤器,而不导出项目中的总数据。帮助 将打开一个新的浏览器选项卡,并带您进入网络上的此用户手册。

  网格标题#

  网格标题位于项目栏下方和项目网格上方(显示项目数据的位置)。网格标题将告诉您项目中的总行数或记录数,并指示您是处于行还是记录模式。

  它还会通过显示“ 180行”或“ 67个匹配的行(共180个)”来告诉您当前是通过构面还是过滤来查看选定的行数,而不是整个数据集。

  在行号正下方,您可以在行模式和记录模式之间切换。OpenRefine以两种模式之一永久存储项目,如果是,则默认情况下将数据显示为记录。

  在行/记录选择的右边是一组选项,用于选择一次在屏幕上查看多少行/记录。在屏幕的最右侧,您可以一次浏览整个数据集的一页。

  扩展#

  这 扩展名下拉菜单为您提供了扩展数据的选项-通常是通过将已编辑的语句上载到Wikidata或导入或导出模式来进行的。您可以在Wikidata页面上了解有关这些功能的更多信息。其他扩展也可能会在此下拉菜单中添加功能。

  网格#

  显示您的数据集的项目屏幕区域称为“网格”(或“数据网格”或“项目网格”)。网格以表格格式显示数据,对您来说,它看起来像是普通的电子表格程序。

  列宽是根据其内容自动设置的;某些列标题可能会被切除,但可以通过将鼠标悬停在标题上来查看。

  在每个列标题中,您都会看到一个小箭头。单击此箭头将弹出一个下拉菜单,其中包含特定于列的数据浏览和转换选项。您将在“探索数据”和“变换数据”部分中了解每个选项。

  每个项目的第一列将始终是 全部,其中包含标记,加星号和执行非列特定操作的选项。这全部列也是行/记录编号的地方。编号显示行和记录的永久顺序;临时排序或构面可能会重新排列行或显示有限的集合,但是编号会为您显示原始标识符,除非您进行永久更改。

  项目网格可以同时显示垂直和水平滚动,具体取决于列的数量和宽度以及所显示的行/记录的数量。您可以使用“排序”和“视图”选项控制项目网格的显示。

  将鼠标悬停在单个单元格上将使您可以分别编辑单元格。

  构面/过滤器#

  这 构面/滤镜标签是浏览数据的主要方法之一:显示数据的模式和趋势,并帮助您缩小关注范围并修改数据。方面和筛选器在“探索数据”中有更多说明。

OpenRefine(数据清理工具)

  在标签中,您将看到三个按钮: 刷新, 重置全部, 和 移除所有。

  刷新构面将确保您正在查看有关每个构面的最新信息,例如,如果您更改了计数或取消了某些选择。

  重置构面将删除您可能设置的任何包含或排除-构面选项将保留在边栏中,但您的视图设置将被撤消。

  除去刻面将完全清除侧边栏。如果您使用表达式编写了自定义方面,则这些方面将丢失。

  您可以通过复制以下内容来保留构面和过滤器,以备将来使用: 固定链接。

  历史(撤销/重做)#

  在OpenRefine中,任何更改数据的活动都可以撤消。最初创建项目时,从一开始就跟踪更改。每个项目的更改历史记录都与项目的数据一起保存,因此退出OpenRefine不会删除您执行的步骤。重新启动OpenRefine时,您可以查看和撤消在退出OpenRefine之前所做的更改。OpenRefine自动保存在默认情况下,每五分钟你的行动,当您关闭OpenRefine正确(用Ctrl + C)。您可以更改此间隔。

  导出项目归档文件时,将保存项目历史记录;将归档文件导入到新安装的OpenRefine中时,将恢复项目历史记录。

OpenRefine(数据清理工具)

常见问题

  我可以以某种方式托管OpenRefine以便其他人访问吗?

  OpenRefine没有针对多用户或多租户方案的内置安全性。OpenRefine具有不共享的单个数据模型,因此存在列数据操作被其他用户覆盖的风险,因此用户必须注意。话虽如此,如果您倾向于自己承担风险,可以通过使用代理获得一些安全性。

  这个票据在同一时间我们的邮件列表讨论这里。

  单击.exe后,OpenRefine无法启动,它只会打开和关闭一个窗口

  确保在系统上安装了Java JRE。并且至少有1 GB的RAM可用。

  内存不足错误-感觉慢-无法为对象堆保留足够的空间

  OpenRefine依靠拥有可用的计算机内存来有效地工作。通常,数据集越大,OpenRefine需要更多的内存才能有效地使用它。OpenRefine可用的内存量是一项设置,您可以根据需要进行更改。如果遇到“内存不足”错误(java.lang.OutOfMemoryError),或者通常认为Refine速度很慢,则可以尝试为OpenRefine分配更多的内存。

  我有个问题。我在哪里问?

  将您的问题发送到OpenRefine邮件列表。

  我发现了一个错误或想要一个新功能。我应该怎么办?

  考虑首先在邮件列表上进行讨论。这可能有助于为高质量的错误报告或功能请求定性问题,您可以将其提交到问题跟踪器。

  我的数据存储在哪里?

  OpenRefine项目数据存储在“工作区目录”中。首次运行OpenRefine时,会在本地计算机上设置一个默认的工作区目录,也可以通过设置自己设置它。有关更多信息,请阅读数据存储在哪里?。

  如何更改希望Refine用于其项目存储的工作区目录?

  在Linux上,如果从终端运行Refine,则可以通过-d参数指向工作区目录,例如,

  ./refine -p 3333 -i 0.0.0.0 -m 6000M -d /where/you/want/the/workspace

  在Windows上,将此行添加到文件openrefine.l4j.ini,然后保存:

  -Drefine.data_dir=T:\MyOpenRefineDataFolder

  (当然,用您的实际目录替换T:\ MyOpenRefineDataFolder)

  如何更改OpenRefine使用的IP地址?

  在Linux,Mac上,从命令行,

  ./refine -i 127.0.0.1

  在Windows上,请使用斜线字符,例如

  C:>refine /i 127.0.0.1:8088

  如何更改OpenRefine使用的端口?

  在Linux,Mac上,从命令行,

  ./refine -i 127.0.0.1 -p 3334

  在Windows上,请使用斜线字符,例如

  C:>refine /i 127.0.0.1 /p 3334

  您也可以编辑refine.ini文件以永久设置IP地址和端口。

  我无法通过浏览器连接到OpenRefine

  您可能需要仔细检查您的Chrome或Firefox代理设置。在Firefox中,选择选项->高级->网络->连接->设置,然后从“使用系统代理设置”切换为“自动检测该网络的代理设置”。

  如果在浏览器中收到消息“网络错误(tcp_error)”,则可能还会尝试取消选中“自动检测设置”,并在防火墙规则中添加例外,以允许127.0.0.1(或您决定运行的任何IP地址) OpenRefine与)

  在Windows上,有时OpenRefine看起来像正在启动,但无法以127.0.0.1的形式连接。因此,您可以尝试将OpenRefine配置为使用其他IP地址和端口来运行。

  在Windows上,由于某些原因,您可能会缺少回送适配器-请参阅https://github.com/datacarpentry/OpenRefine-ecology-lesson/issues/29

  OpenRefine支持哪些正则表达式(regex)语法?

  GREL的正则表达式语法是Java regex的语法,而不是Javascript的正则表达式语法。请参见GREL正则表达式。

  您还可以使用Jython Regex代替GREL函数,并使用具有以下内容的“自定义文本构面”:

  import re

  g = re.search(ur"\u2014 (.*),\s*BWV", value)

  return g.group(1)

  我应该与GREL一起使用什么语法来正确构造URL,并避免HTTP错误和其他陷阱,例如,在URL中使用JSON字符串或创建HYPERLINK等时?

  一个好的做法是对“'精炼表达式”语法使用单"引号,对URL语法部分保留双引号。escape()必要时,还要确保使用了您的单元格值。

  例子:

  'https://www.googleapis.com/freebase/v1/mqlread?query={"mid":null,"/type/object/key":{"namespace":"/authority/fmd/model","value":"'+escape(cells.ModelName.value, "url")+'"}}'

  '=HYPERLINK("http://listings.listhub.net/pages/BHAMMLSAL/' + value + '",' + value + ')'

  如何删除整行或多行?

  标记(或加星号)您要删除的行。

  在所有列下拉菜单中(标志上方),您可以通过转至构面>按标志构面来获取构面。

  在打开的方面中,单击“ true”选项。

  在“所有列”下拉菜单中(标志上方),您可以转到“编辑行”>“删除所有匹配的行”。

  如何使Text Facet显示超过2000个选择?

  您可以转到http://127.0.0.1:3333/preferences并使用首选项键设置构面限制ui.browsing.listFacet.limit。

  如何在列中找到重复项?

  几种选择:

  有一个快捷方式,构面→自定义构面→重复构面

  在列上创建一个文本构面,然后在构面中单击“排序依据:计数”。计数为2或更大的任何构面都是重复项

  使用facetCount()函数,(facetCount(value, 'value', 'column name') > 1).toString()然后选择true显示所有重复的行

  OpenRefine可以用作更大的ETL管道的一部分吗?

  您可以使用OpenRefine客户端库之一以编程方式自动执行OpenRefine。如果您喜欢docker,那么您可能会喜欢这种容器方法进行批处理。

  值得指出的是,并非所有的Refine功能都可以在无人监督的情况下工作,并且无需人工干预(例如,集群),但有些功能可以。

  这是一些进一步的讨论和一个项目:

  https://groups.google.com/group/openrefine/msg/ee29cf8d660e66a9?hl=zh-CN

  https://groups.google.com/group/openrefine-dev/browse_thread/thread/33374842ccfebfcd#

  https://github.com/dfhuynh/grefine-proxy

  我可以在没有浏览器的情况下无头运行OpenRefine吗?有哪些选项?

  在refine.ini中,您可以添加以下内容:

  JAVA_OPTIONS=-Drefine.headless=true

  您也可以在运行时使用来选择无头模式-x refine.headless=true。https://github.com/OpenRefine/OpenRefine/issues/1677#issuecomment-648335037列出了一些其他参数。

  cross()函数对我不起作用

  您可能会缺少一些需要执行的步骤,然后才能使用该cross()功能,并期望它与2个项目之间的键正确匹配。

  trim() 您做之前的关键专栏 cross()

  如有必要,对键列中的值进行重复数据删除

  导入大文件-“内存使用率:100%”

  导入大数据文件时,OpenRefine可能会消耗所有可用内存,并且导入将永远不会完成。{{ https://imgur.com/sTV6Vpv.jpeg |内存使用率:100%}}

  这可能有助于增加OpenRefine可用的内存量。

  在导入预览中取消选中“将单元格文本解析为数字,日期,...”选项也可能会有所帮助。

  警告有关Python / Jython的非法反射访问操作已发生

  这可能是因为您没有将JAVA_HOME环境变量设置为使用Java 1.8,例如,JAVA_HOME=C:\Program Files\Java\jdk-1.8.0_191 有关更多详细信息,请参见问题#1741

  如果您使用的是Python 3+,而不是Python 2.7+,也会发生这种情况,因为我们使用的Jython 2.7.1库目前不支持Python 3+。您必须将默认的Python环境临时设置为Python 2.7+,才能成功使用OpenRefine。在Windows上,可以通过临时修改PATH环境变量来做到这一点,以包括安装Python 2.7+的位置而不是安装Python 3+的位置。

相关文章
  • 最新排行
  • 最热排行
  • 评分最高
系统软件排行榜

点击查看更多

点击查看更多

点击查看更多