You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

091 Dateien.ipynb 11KB


  1. {
  2. "cells": [
  3. {
  4. "cell_type": "markdown",
  5. "metadata": {
  6. "pycharm": {
  7. "name": "#%% md\n"
  8. },
  9. "slideshow": {
  10. "slide_type": "slide"
  11. }
  12. },
  13. "source": [
  14. "# Software Entwicklung \n",
  15. "\n",
  16. "## Kapitel 9: IO\n",
  17. "\n",
  18. "Unter *IO* (Input/Output) versteht man alle Mechanismen,\n",
  19. "die mit dem Ausleiten von Daten aus einem Programm\n",
  20. "bzw. dem Einlesen von Daten in ein Programm zusammenhängen."
  21. ]
  22. },
  23. {
  24. "cell_type": "markdown",
  25. "metadata": {
  26. "pycharm": {
  27. "name": "#%% md\n"
  28. },
  29. "slideshow": {
  30. "slide_type": "slide"
  31. }
  32. },
  33. "source": [
  34. "### 9.1 Zeichenkodierung\n",
  35. "\n",
  36. "Möchte ein Programm Daten senden (z.B. in eine Datei\n",
  37. "oder über eine Netzwerkverbindung) oder diese empfangen,\n",
  38. "werden letztendlich Bytes übertragen. Handelt es sich bei den\n",
  39. "Daten um Text - also lesbare Zeichen - so muss durch eine\n",
  40. "Zeichenkodierung (engl. *encoding*) festgelegt werden,\n",
  41. "wie dieser Text auf Bytes abgebildet wird.\n",
  42. "\n",
  43. "Ein sehr übliches Kodierungsschema ist *UTF-8*. Darin werden\n",
  44. "die Zahlen 0 bis 127 analog zum alten ASCII-Standard\n",
  45. "insbesondere für grundlegende lateinische Zeichen in\n",
  46. "Groß- und Kleinschrift verwendet. Alle übrigen Zeichen wie\n",
  47. "z.B. deutsche Umlaute, chinesische Schriftzeichen,\n",
  48. "Emojis etc. werden durch größere Zahlen ggf. mit mehreren\n",
  49. "Bytes codiert. Die Zuordnung der Zahlen zu den Zeichen\n",
  50. "ist durch den [*Unicode*-Standard](http://www.unicode.org/)\n",
  51. "festgelegt."
  52. ]
  53. },
  54. {
  55. "cell_type": "markdown",
  56. "metadata": {
  57. "slideshow": {
  58. "slide_type": "slide"
  59. }
  60. },
  61. "source": [
  62. "Möchte man eine Python-Zeichenkette in eine Unicode-Bytefolge\n",
  63. "übertragen, so kann dafür die Methode <code>encode</code> der Klasse\n",
  64. "*str* (String) verwendet werden."
  65. ]
  66. },
  67. {
  68. "cell_type": "code",
  69. "execution_count": null,
  70. "metadata": {
  71. "pycharm": {
  72. "name": "#%%\n"
  73. }
  74. },
  75. "outputs": [],
  76. "source": [
  77. "text = \"Nürnberg ist schön\"\n",
  78. "print(f\"Länge {len(text)}\")\n",
  79. "utf8 = text.encode(\"utf-8\")\n",
  80. "print(utf8)\n",
  81. "print(f\"Länge {len(utf8)}\")"
  82. ]
  83. },
  84. {
  85. "cell_type": "markdown",
  86. "metadata": {
  87. "slideshow": {
  88. "slide_type": "-"
  89. }
  90. },
  91. "source": [
  92. "Das vorangestellte <code>b</code> signalisiert, dass es sich\n",
  93. "hier um eine Bytefolge handelt."
  94. ]
  95. },
  96. {
  97. "cell_type": "code",
  98. "execution_count": null,
  99. "metadata": {
  100. "pycharm": {
  101. "name": "#%%\n"
  102. }
  103. },
  104. "outputs": [],
  105. "source": [
  106. "print(type(utf8))"
  107. ]
  108. },
  109. {
  110. "cell_type": "markdown",
  111. "metadata": {
  112. "slideshow": {
  113. "slide_type": "slide"
  114. }
  115. },
  116. "source": [
  117. "Eine solche Bytefolge kann auch wieder in einen\n",
  118. "Textstring verwandelt werden. Dazu besitzt die\n",
  119. "Klasse *bytes* die Methode <code>decode</code>."
  120. ]
  121. },
  122. {
  123. "cell_type": "code",
  124. "execution_count": null,
  125. "metadata": {
  126. "pycharm": {
  127. "name": "#%%\n"
  128. }
  129. },
  130. "outputs": [],
  131. "source": [
  132. "decoded_text = utf8.decode(\"utf-8\")\n",
  133. "print(decoded_text)\n",
  134. "print(f\"Länge {len(decoded_text)}\")\n"
  135. ]
  136. },
  137. {
  138. "cell_type": "markdown",
  139. "metadata": {
  140. "slideshow": {
  141. "slide_type": "slide"
  142. }
  143. },
  144. "source": [
  145. "### 9.2 Dateien\n",
  146. "\n",
  147. "Unter *Textdateien* verstehen wir Dateien, die\n",
  148. "mit einem Texteditor erzeugt und bearbeitet werden können.\n",
  149. "Der Inhalt sind lesbare Zeichen, die meist\n",
  150. "in Zeilen organisiert sind. Um sie auf einem\n",
  151. "Speichermedium abzulegen, müssen die Zeichen\n",
  152. "in Bytes konvertiert bzw. beim Lesen\n",
  153. "rückübertragen werden.\n",
  154. "\n",
  155. "*Binärdateien* sind Dateien, für die keine Kodierung\n",
  156. "stattfinden soll (z.B. Bilder).\n",
  157. "\n",
  158. "Python besitzt bereits im Standard Funktionen, Klassen und Methoden,\n",
  159. "die das Lesen und Schreiben von Dateien sowie das Übertragen\n",
  160. "von Text in Bytes (und zurück) unterstützen."
  161. ]
  162. },
  163. {
  164. "cell_type": "markdown",
  165. "metadata": {
  166. "slideshow": {
  167. "slide_type": "slide"
  168. }
  169. },
  170. "source": [
  171. "Einstiegspunkt ist die Built-In-Funktion <code>open</code>, die ein\n",
  172. "Dateiobjekt zurückliefert. Die Parameter von <code>open</code> sind\n",
  173. "der *Dateiname* (ggf. inkl. Pfad) und der *Bearbeitungsmodus*\n",
  174. "sowie weitere, weniger gebräuchliche optionale Parameter.\n",
  175. "\n",
  176. "\n",
  177. "| *Bearbeitungsmodus* | *Bedeutung* |\n",
  178. "|:--------------------:|----------------------------------------------------|\n",
  179. "| 'r' | Die Datei wird gelesen (muss bereits existieren) |\n",
  180. "| 'w' | Die Datei wird geschrieben (vorhandene Datei wird überschrieben) |\n",
  181. "| 'a' | Die Datei wird geschrieben (neuer Inhalt wird angehängt) |\n",
  182. "| 'r+' | Die Datei wird gelesen und geschrieben |\n",
  183. "\n",
  184. "Standardmäßig finden die Lese- und Schreiboperationen mit der Standard-Kodierung des verwendeten Betriebssystems statt. Soll die Kodierung unterbleiben, muss an den Bearbeitungsmodus ein <code>'b'</code>\n",
  185. "(für binär) angehängt werden."
  186. ]
  187. },
  188. {
  189. "cell_type": "code",
  190. "execution_count": null,
  191. "metadata": {
  192. "pycharm": {
  193. "name": "#%%\n"
  194. },
  195. "slideshow": {
  196. "slide_type": "-"
  197. }
  198. },
  199. "outputs": [],
  200. "source": [
  201. "f = open(\"091a Textdatei\", \"r\")"
  202. ]
  203. },
  204. {
  205. "cell_type": "markdown",
  206. "metadata": {
  207. "slideshow": {
  208. "slide_type": "slide"
  209. }
  210. },
  211. "source": [
  212. "Das auf diese Weise erhaltene Dateiobjekt kann für (je nach\n",
  213. "Bearbeitungsmodus) für das Lesen und Schreiben benutzt werden.\n",
  214. "Die Methode <code>read</code> ohne Angabe eines Parameter\n",
  215. "liest den gesamten Inhalt der Datei ein\n",
  216. "(Vorsicht: nur bei kleinen Dateien ratsam, da speicherintensiv)."
  217. ]
  218. },
  219. {
  220. "cell_type": "code",
  221. "execution_count": null,
  222. "metadata": {
  223. "pycharm": {
  224. "name": "#%%\n"
  225. }
  226. },
  227. "outputs": [],
  228. "source": [
  229. "content = f.read()\n",
  230. "print(content)"
  231. ]
  232. },
  233. {
  234. "cell_type": "markdown",
  235. "metadata": {
  236. "slideshow": {
  237. "slide_type": "slide"
  238. }
  239. },
  240. "source": [
  241. "Jedes geöffnete Dateiobjekt muss auch wieder geschlossen werden,\n",
  242. "da andernfalls Betriebssystemressourcen dauerhaft belegt bleiben."
  243. ]
  244. },
  245. {
  246. "cell_type": "code",
  247. "execution_count": null,
  248. "metadata": {
  249. "pycharm": {
  250. "name": "#%%\n"
  251. }
  252. },
  253. "outputs": [],
  254. "source": [
  255. "print(f.closed)\n",
  256. "f.close()\n",
  257. "print(f.closed)"
  258. ]
  259. },
  260. {
  261. "cell_type": "markdown",
  262. "metadata": {
  263. "slideshow": {
  264. "slide_type": "slide"
  265. }
  266. },
  267. "source": [
  268. "Sollte eine Textdatei in einer anderen Kodierung als die Standard-Kodierung vorliegen, kann die gewünschte Kodierung mittels des Parameters <code>encoding</code> angegeben werden. Mit <code>encoding=None</code> wird wieder die Standard-Kodierung gewählt, was dem Standardwert und damit dem Weglassen des Parameters entspricht. Im folgenden Beispiel wird eine Textdatei geladen, die im UTF-8-Format vorliegt. Die Standard-Kodierung auf Windows weicht allerdings davon ab, wie man an den Umlauten erkennen kann."
  269. ]
  270. },
  271. {
  272. "cell_type": "code",
  273. "execution_count": null,
  274. "metadata": {},
  275. "outputs": [],
  276. "source": [
  277. "f = open(\"utf8_text\", \"r\", encoding=None)\n",
  278. "content = f.read()\n",
  279. "print(content)\n",
  280. "f.close()"
  281. ]
  282. },
  283. {
  284. "cell_type": "markdown",
  285. "metadata": {
  286. "slideshow": {
  287. "slide_type": "slide"
  288. }
  289. },
  290. "source": [
  291. "### 9.3 Kontextmanager\n",
  292. "\n",
  293. "Die strenge Verpflichtung, jede Datei auch zu schließen, ist\n",
  294. "gelegentlich nicht einfach zu erfüllen. Falls z.B. eine\n",
  295. "Exception auftritt und die Abarbeitungsreihenfolge\n",
  296. "abgebrochen wird, ist trotzdem *close* aufzurufen."
  297. ]
  298. },
  299. {
  300. "cell_type": "code",
  301. "execution_count": null,
  302. "metadata": {
  303. "pycharm": {
  304. "name": "#%%\n"
  305. },
  306. "slideshow": {
  307. "slide_type": "-"
  308. }
  309. },
  310. "outputs": [],
  311. "source": [
  312. "try:\n",
  313. " f = open(\"091a Textdatei\", \"r\")\n",
  314. " z = 1 / 0\n",
  315. " # f.close() würde nicht erreicht!\n",
  316. "except:\n",
  317. " print(\"Fehler!\")\n",
  318. "finally:\n",
  319. " f.close()\n",
  320. "print(f.closed)"
  321. ]
  322. },
  323. {
  324. "cell_type": "markdown",
  325. "metadata": {
  326. "slideshow": {
  327. "slide_type": "slide"
  328. }
  329. },
  330. "source": [
  331. "Python bietet für dieses Problem den *Kontextmanager* an. Er\n",
  332. "initialisiert einen *Kontext* für ein Objekt, führt einen\n",
  333. "Codeblock in diesem Kontext aus und räumt beim Verlassen\n",
  334. "des *Kontext* belegte Ressourcen auf.\n",
  335. "\n",
  336. "Das Schlüsselwort für den Beginn eines *Kontext* ist <code>with</code>."
  337. ]
  338. },
  339. {
  340. "cell_type": "code",
  341. "execution_count": null,
  342. "metadata": {
  343. "pycharm": {
  344. "name": "#%%\n"
  345. }
  346. },
  347. "outputs": [],
  348. "source": [
  349. "with open(\"091a Textdatei\", \"r\") as f:\n",
  350. " print(f.read())\n",
  351. " print(f.closed)\n",
  352. "\n",
  353. "print(f.closed)"
  354. ]
  355. },
  356. {
  357. "cell_type": "markdown",
  358. "metadata": {
  359. "slideshow": {
  360. "slide_type": "slide"
  361. }
  362. },
  363. "source": [
  364. "Wie ist das realisiert? Tatsächlich nutzt der\n",
  365. "*Kontextmanager* die beiden *dunder*-Methoden\n",
  366. "<code>\\_\\_entry\\_\\_</code> und <code>\\_\\_exit\\_\\_</code>.\n",
  367. "Die Methode <code>\\_\\_entry\\_\\_</code> wird beim Betreten des\n",
  368. "Kontext aufgerufen, die Methode <code>\\_\\_exit\\_\\_</code> beim\n",
  369. "Verlassen oder beim Auftreten einer nicht behandelten Exception.\n",
  370. "\n",
  371. "Beim Datei-Objekt von Python wird in der\n",
  372. "<code>\\_\\_exit\\_\\_</code>-Methode sichergestellt, dass die\n",
  373. "Datei geschlossen wird.\n",
  374. "\n",
  375. "Durch Überschreiben der Methoden können auch eigene Klassen\n",
  376. "sinnvoll mit einem *Kontextmanager* zusammenarbeiten.\n",
  377. "\n",
  378. "\n"
  379. ]
  380. }
  381. ],
  382. "metadata": {
  383. "celltoolbar": "Slideshow",
  384. "kernelspec": {
  385. "display_name": "Python 3 (ipykernel)",
  386. "language": "python",
  387. "name": "python3"
  388. },
  389. "language_info": {
  390. "codemirror_mode": {
  391. "name": "ipython",
  392. "version": 3
  393. },
  394. "file_extension": ".py",
  395. "mimetype": "text/x-python",
  396. "name": "python",
  397. "nbconvert_exporter": "python",
  398. "pygments_lexer": "ipython3",
  399. "version": "3.9.9"
  400. }
  401. },
  402. "nbformat": 4,
  403. "nbformat_minor": 1
  404. }