使用Python删除C和C ++注释?
我正在寻找从字符串中删除C和C ++注释的Python代码。(假设字符串包含整个C源文件。)
我意识到我可以使用正则表达式.match()子字符串,但这不能解决嵌套问题/*
,也不能解决其中//
的问题/* */
。
理想情况下,我宁愿非天真的实现来正确处理尴尬的情况。
-
我不知道您是否熟悉
sed
基于UNIX(但Windows可用)的文本解析程序,但是我在这里找到了一个sed脚本,该脚本将从文件中删除C
/ C ++注释。非常聪明;例如,如果在字符串声明中找到它,它将忽略“ //”和“ / *”。在Python中,可以使用以下代码来使用它:import subprocess from cStringIO import StringIO input = StringIO(source_code) # source_code is a string with the source code. output = StringIO() process = subprocess.Popen(['sed', '/path/to/remccoms3.sed'], input=input, output=output) return_code = process.wait() stripped_code = output.getvalue()
在此程序中,
source_code
是保存C / C 源代码的变量,并且最终stripped_code
将保留C / C
代码并删除注释。当然,如果文件在磁盘上,则可以将input
和output
变量作为指向这些文件的文件句柄(input
在读取模式下,output
在写入模式下)。remccoms3.sed
是以上链接中的文件,应将其保存在磁盘上的可读位置。sed
在Windows上也可用,并且在大多数GNU
/ Linux发行版和Mac OS X上默认安装。这可能会比纯Python解决方案更好。无需重新发明轮子。