制表器库在识别PDF表格中的非字母数字（符号）字符时出现问题

2024-09-08 • 问答

我正在使用r中的制表器库从公共网站上PDF内的表中捕获数据（https://www.waterboards.ca.gov/sandiego/water_issues/programs/basin_plan/docs/update082812/Chpt_2_2012.pdf）。

我感兴趣的示例表在PDF的第23页（第2-21页，文档开头有几个空白页）。该表具有非标准格式，并且具有不同的符号（单元格中的非字母数字字符）。我想从该文档中提取大部分（如果不是全部）表。

我想最终得到一个表，该表的字符带有代码（例如，黑圈999，白圈777，加-99等）。

Tabulizer在将黑眼圈转换为一致的字母数字代码并保留加号的过程中做得很好，但是在REC1列上出现白色问题圈子，这很奇怪，因为它似乎可以识别其他列上的奇异字符。

有人可以帮助解决此问题吗？我也尝试选择表区域，但输出效果较差。下面是我正在使用的r代码。

我知道我可以使用PDF的内置选择和导出工具为文档中的所有表格手动完成此过程，但希望实现该过程的自动化。

library("tabulizer")
f2 <- "https://www.waterboards.ca.gov/sandiego/water_issues/programs/basin_plan/docs/update082812/Chpt_2_2012.pdf"
tab <- extract_tables(f2,pages = 23,method = 'lattice')
head(tab[[1]])
df <- as.data.frame(tab)
write.csv(df,file = "test.csv")

制表器库在识别PDF表格中的非字母数字（符号）字符时出现问题

hll008 回答：制表器库在识别PDF表格中的非字母数字（符号）字符时出现问题

大家都在问