Archiv Anfänger R Tutorial RSS-Feed für diesen Abschnitt Die Verwendung von Wahrscheinlichkeit und Statistik ist in der quantitativen Finanzierung allgegenwärtig. Alle beobachtbaren Preise, Mengen, Auftragseingangsraten, etc., sind auf Angebot und Nachfrage Ungleichgewichte. Jedoch wird das Verfolgen aller Versorgungs - und Nachfrage-Ungleichgewichte mühsam, wenn die Anzahl der Variablen zunimmt. Statistische Werkzeuge sind entscheidend für die Erklärung und Modellierung dieser hellip In dieser Vorlesung werden wir diskutieren statistische Schätzer, untersuchen das Gesetz der großen Zahlen, die zentrale Limit Theorem und Blick auf die Umsetzung aller diese Konzepte in R. Population vs Sample Statistics Betrachten Sie die Menge der Zahlen : 102, 103.2, 102, 101.2, 499, 103.2 101.23, 99.2. Sind hier einige Fragen, die wir nach diesen hellip fragen möchten Regressionsanalyse Regression ist ein sehr wichtiges Thema. Es ist ein weit verbreitetes statistisches Instrument in Wirtschaft, Handel und Handel. R bietet vorgebildete Funktionen, die lineare Regressionen auf sehr einfache Weise durchführen. Es gibt mehrere Add-On-Pakete, die erweiterte Funktionalität ermöglichen. In dieser Klasse verwenden wir nur die lm () - Funktion, die hellip Matrizen in R Eine Matrix ist ein sehr nützliches mathematisches Konstrukt. Matrizen bieten einen Mechanismus für die einfache Manipulation großer Sammlungen von Daten. Matrix Mathematik ist ein großes Thema und es gibt zahlreiche Papiere und Publikationen, die über alle möglichen Verwendungen von Matrizen sprechen. Es genügt zu sagen, dass diese Klasse geht nur zu hellip Die erste Klasse diente als Einführung in die R-Umgebung. Die grundlegenden Datencontainer c (), matrix (), data. frame (), list () wurden eingeführt und einige nützliche Funktionen wurden vorgestellt. In dieser zweiten Klasse werden benutzerdefinierte Funktionen abgedeckt. Im Umgang mit jeder Art von Daten-Analyse-Projekt, ist es wichtig, in der Lage sein, einfache Funktionen zu erstellen hellipBest Programmiersprache für algorithmische Handelssysteme Eine der häufigsten Fragen, die ich in der QS-Mailtasche erhalten ist Was ist die beste Programmiersprache für den algorithmischen Handel. Die kurze Antwort ist, dass es keine beste Sprache. Strategieparameter, Leistung, Modularität, Entwicklung, Resiliency und Kosten müssen berücksichtigt werden. Dieser Artikel wird skizzieren die notwendigen Komponenten einer algorithmischen Handelssystemarchitektur und wie Entscheidungen über die Umsetzung beeinflussen die Wahl der Sprache. Zuerst werden die Hauptkomponenten eines algorithmischen Handelssystems betrachtet, wie die Forschungsinstrumente, der Portfoliooptimierer, der Risikomanager und die Ausführungsmaschine. Anschließend werden verschiedene Handelsstrategien untersucht und auf die Gestaltung des Systems eingegangen. Insbesondere werden die Handelshäufigkeit und das voraussichtliche Handelsvolumen diskutiert. Sobald die Handelsstrategie ausgewählt worden ist, ist es notwendig, das gesamte System zu gestalten. Dies beinhaltet die Wahl der Hardware, des Betriebssystems und der Systemresistenz gegenüber seltenen, potentiell katastrophalen Ereignissen. Während die Architektur in Erwägung gezogen wird, muss auf die Leistung - sowohl auf die Forschungsinstrumente als auch auf die Live-Ausführungsumgebung - geachtet werden. Was ist das Handelssystem versucht zu tun Bevor die Entscheidung über die beste Sprache, mit der ein automatisiertes Handelssystem zu schreiben, ist es notwendig, die Anforderungen zu definieren. Ist das System wird rein Ausführungsbasis Will das System erfordern ein Risikomanagement oder Portfolio-Bau-Modul Wird das System erfordern eine leistungsstarke Backtester Für die meisten Strategien kann das Handelssystem in zwei Kategorien aufgeteilt werden: Forschung und Signal-Generierung. Die Forschung befasst sich mit der Bewertung einer Strategieleistung gegenüber historischen Daten. Der Prozess der Bewertung einer Handelsstrategie gegenüber früheren Marktdaten wird als Backtesting bezeichnet. Die Datengröße und die algorithmische Komplexität werden einen großen Einfluss auf die Rechenintensität des Backtests haben. CPU-Geschwindigkeit und Parallelität sind oft die begrenzenden Faktoren bei der Optimierung der Durchführungsgeschwindigkeit. Die Signalerzeugung betrifft die Erzeugung eines Satzes von Handelssignalen aus einem Algorithmus und das Senden solcher Befehle an den Markt, üblicherweise über eine Vermittlung. Für bestimmte Strategien ist ein hohes Leistungsniveau erforderlich. IO-Probleme wie Netzwerkbandbreite und Latenz sind oft der limitierende Faktor bei der Optimierung von Ausführungssystemen. So kann die Wahl der Sprachen für jede Komponente Ihres gesamten Systems ganz anders sein. Art, Häufigkeit und Umfang der Strategie Die Art der verwendeten algorithmischen Strategie hat erhebliche Auswirkungen auf die Gestaltung des Systems. Es wird notwendig sein, die Märkte zu betrachten, die gehandelt werden, die Konnektivität zu externen Datenanbietern, die Häufigkeit und das Volumen der Strategie, der Kompromiss zwischen der Leichtigkeit der Entwicklung und der Leistungsoptimierung sowie jegliche benutzerdefinierte Hardware einschließlich der gemeinsamen Sitzung Server, GPUs oder FPGAs, die erforderlich sein könnten. Die Technologieentscheidungen für eine niederfrequente US-Aktienstrategie werden sich weitgehend von denen eines hochfrequenten statistischen Arbitrage-Strategiehandels auf dem Futures-Markt unterscheiden. Vor der Wahl der Sprache müssen viele Datenanbieter ausgewertet werden, die sich auf die vorliegende Strategie beziehen. Es wird notwendig sein, die Konnektivität zu dem Anbieter, die Struktur von beliebigen APIs, die Aktualität der Daten, die Speicheranforderungen und die Ausfallsicherheit in Anbetracht eines Offline-Vendors zu prüfen. Es ist auch ratsam, schnellen Zugriff auf mehrere Anbieter zu haben. Verschiedene Instrumente haben alle ihre eigenen Speicherquirks, wobei Beispiele davon mehrere Tickersymbole für Aktien und Verfallsdaten für Futures (ganz zu schweigen von spezifischen OTC-Daten) umfassen. Dies muss in der Plattform-Design berücksichtigt werden. Häufigkeit der Strategie ist wahrscheinlich einer der größten Treiber, wie der Technologie-Stack definiert werden. Strategien, die Daten häufiger als minutiös oder sekundär verwenden, erfordern eine beträchtliche Betrachtung hinsichtlich der Leistung. Eine Strategie, die zweite Balken überschreitet (d. h. Tick-Daten), führt zu einem leistungsgetriebenen Design als die primäre Anforderung. Für Hochfrequenzstrategien muss eine erhebliche Menge an Marktdaten gespeichert und ausgewertet werden. Software wie HDF5 oder kdb werden häufig für diese Rollen verwendet. Um die umfangreichen Datenmengen für HFT-Anwendungen zu verarbeiten, muss ein ausgereiftes Backtester - und Ausführungssystem eingesetzt werden. CC (möglicherweise mit einigen Assembler) ist wahrscheinlich der stärkste Sprachkandidat. Ultra-Hochfrequenz-Strategien werden fast sicher erfordern spezielle Hardware wie FPGAs, Austausch Co-Location und kernalnetwork Interface-Tuning. Forschungssysteme Forschungssysteme umfassen typischerweise eine Mischung aus interaktiver Entwicklung und automatisiertem Scripting. Ersteres findet oft in einer IDE wie Visual Studio, MatLab oder R Studio statt. Letztere umfassen umfangreiche numerische Berechnungen über zahlreiche Parameter und Datenpunkte. Dies führt zu einer Sprachauswahl, die eine einfache Umgebung zum Testen von Code bereitstellt, aber auch eine ausreichende Leistung bietet, um Strategien über mehrere Parameterabmessungen auszuwerten. Typische IDEs in diesem Bereich sind Microsoft Visual CC, das umfangreiche Debugging-Dienstprogramme, Codevollzugsfunktionen (über Intellisense) und einfache Übersichten über den gesamten Projektstapel (über die Datenbank ORM, LINQ) MatLab enthält. Die für umfangreiche numerische lineare Algebra und vectorized Operationen, sondern in einer interaktiven Konsole Weise R Studio. Die die statistische Sprachkonsole R in einer vollwertigen IDE-Eclipse-IDE für Linux-Java und C und semi-proprietären IDEs wie Enthought Canopy für Python, die Datenanalyse-Bibliotheken wie NumPy enthalten, umschließt. SciPy Scikit-lernen und Pandas in einer einzigen interaktiven (Konsolen-) Umgebung. Für das numerische Backtesting sind alle obigen Sprachen geeignet, obwohl es nicht notwendig ist, ein GUIIDE zu verwenden, da der Code im Hintergrund ausgeführt wird. Die Hauptbetrachtung in diesem Stadium ist die der Ausführungsgeschwindigkeit. Eine kompilierte Sprache (wie C) ist oft nützlich, wenn die Dimension des Backtesting-Parameters groß ist. Denken Sie daran, dass es notwendig ist, von solchen Systemen vorsichtig zu sein, wenn dies der Fall ist. Interpretierte Sprachen wie Python nutzen oft Hochleistungsbibliotheken wie NumPypandas für den Backtesting-Schritt, um einen angemessenen Grad an Wettbewerbsfähigkeit mit kompilierten Äquivalenten beizubehalten. Letztlich wird die für das Backtesting gewählte Sprache durch spezifische algorithmische Bedürfnisse sowie die Bandbreite der in der Sprache verfügbaren Bibliotheken bestimmt (weiter unten). Die Sprache, die für die Backtester - und Forschungsumgebungen verwendet wird, kann jedoch vollständig unabhängig von denjenigen sein, die in den Bereichen Portfolio-Konstruktion, Risikomanagement und Ausführungskomponenten verwendet werden. Portfolio-Konstruktion und Risikomanagement Die Komponenten des Portfoliokonstruktions - und Risikomanagements werden von den Handelspartnern oft übersehen. Das ist fast immer ein Fehler. Diese Instrumente bieten den Mechanismus, durch den das Kapital erhalten bleibt. Sie versuchen nicht nur, die Anzahl der riskanten Wetten zu lindern, sondern auch die Abwanderung der Trades selbst zu minimieren und so die Transaktionskosten zu senken. Ausgefeilte Versionen dieser Komponenten können erhebliche Auswirkungen auf die Qualität und Wirtschaftlichkeit der Rentabilität haben. Es ist unkompliziert, eine stabile Strategie zu schaffen, da der Portfoliokonstruktionsmechanismus und der Risikomanager einfach modifiziert werden können, um mehrere Systeme zu behandeln. Sie sollten daher zu Beginn des Entwurfs eines algorithmischen Handelssystems als wesentliche Komponenten betrachtet werden. Die Aufgabe des Portfolio-Bau-System ist es, eine Reihe von gewünschten Trades zu nehmen und produzieren die Menge der tatsächlichen Trades, minimieren churn, halten Exposures zu verschiedenen Faktoren (wie Sektoren, Asset-Klassen, Volatilität etc.) und optimieren die Zuweisung von Kapital an verschiedene Strategien in einem Portfolio. Portfolio-Konstruktion reduziert oft auf eine lineare Algebra Problem (wie eine Matrix-Faktorisierung) und damit die Leistung ist stark abhängig von der Wirksamkeit der numerischen linearen Algebra-Implementierung zur Verfügung. Gemeinsame Bibliotheken sind uBLAS. LAPACK und NAG für C. MatLab besitzt auch umfangreich optimierte Matrixoperationen. Python nutzt NumPySciPy für solche Berechnungen. Ein häufig ausgeglichenes Portfolio erfordert eine kompilierte (und gut optimierte) Matrixbibliothek, um diesen Schritt auszuführen, um das Handelssystem nicht zu verkleinern. Das Risikomanagement ist ein weiterer äußerst wichtiger Bestandteil eines algorithmischen Handelssystems. Das Risiko kann in vielen Formen auftreten: Erhöhte Volatilität (obwohl dies für bestimmte Strategien als wünschenswert angesehen werden kann), erhöhte Korrelationen zwischen Assetklassen, Gegenpartei-Default, Serverausfällen, Black Swan-Ereignissen und unentdeckten Bugs im Handelscode wenige. Risikomanagementkomponenten versuchen, die Effekte einer übermäßigen Volatilität und Korrelation zwischen den Vermögensklassen und ihren nachfolgenden Auswirkungen auf das Handelskapital vorwegzunehmen. Oft reduziert dies auf eine Reihe von statistischen Berechnungen wie Monte Carlo Stresstests. Dies ist sehr ähnlich zu den rechnerischen Bedürfnissen einer Derivate-Preis-Engine und als solche CPU-gebunden werden. Diese Simulationen sind sehr parallelisierbar (siehe unten) und bis zu einem gewissen Grad ist es möglich, Hardware an das Problem zu werfen. Ausführungssysteme Die Aufgabe des Ausführungssystems besteht darin, gefilterte Handelssignale von den Portfolio-Bau - und Risikomanagementkomponenten zu empfangen und an eine Brokerage oder andere Mittel des Marktzugangs zu senden. Für die Mehrheit der Einzelhandel algorithmischen Handelsstrategien beinhaltet dies eine API oder FIX-Verbindung zu einem Brokerage wie Interactive Brokers. Die primären Erwägungen bei der Entscheidung über eine Sprache beinhalten die Qualität der API, die Verfügbarkeit der Sprachverpackung für eine API, die Ausführungshäufigkeit und den erwarteten Schlupf. Die Qualität der API bezieht sich darauf, wie gut sie dokumentiert ist, welche Art von Leistung sie bereitstellt, ob sie auf eine eigenständige Software zugreifen muss oder ob ein Gateway kopflos aufgebaut werden kann (d. h. keine GUI). Im Fall von Interactive Brokers muss das Trader WorkStation-Tool in einer GUI-Umgebung ausgeführt werden, um auf deren API zuzugreifen. Ich musste einmal eine Desktop-Ubuntu-Edition auf einem Amazon-Cloud-Server installieren, um auf interaktive Broker remote zuzugreifen, rein aus diesem Grund. Die meisten APIs bieten eine C-andor-Java-Schnittstelle. In der Regel ist es Aufgabe der Community, sprachspezifische Wrapper für C, Python, R, Excel und MatLab zu entwickeln. Beachten Sie, dass mit jedem zusätzlichen Plugin (vor allem API-Wrapper) gibt es Spielraum für Bugs in das System kriechen. Teste immer Plugins dieser Art und sorge dafür, dass sie aktiv gepflegt werden. Ein lohnendes Maß ist zu sehen, wie viele neue Updates zu einer Codebase in den letzten Monaten gemacht wurden. Die Ausführungshäufigkeit ist für den Ausführungsalgorithmus von größter Bedeutung. Beachten Sie, dass Hunderte von Bestellungen können jede Minute gesendet werden und als solche Leistung ist von entscheidender Bedeutung. Schlupf wird durch ein schlecht durchführendes Ausführungssystem entstehen und dies wird sich dramatisch auf die Rentabilität auswirken. Statisch typisierte Sprachen (siehe unten) wie CJava sind im Allgemeinen optimal für die Ausführung, aber es gibt einen Kompromiss in der Entwicklungszeit, der Prüfung und der einfachen Wartung. Dynamisch getippte Sprachen wie Python und Perl sind mittlerweile meist schnell genug. Achten Sie immer darauf, dass die Komponenten modular aufgebaut sind (siehe unten), so dass sie bei der Systemwaage ausgetauscht werden können. Architektonischer Planungs - und Entwicklungsprozess Die Komponenten eines Handelssystems, dessen Frequenz - und Volumenanforderungen wurden bereits diskutiert, die Systeminfrastruktur ist jedoch noch nicht abgedeckt. Diejenigen, die als Einzelhändler oder arbeiten in einem kleinen Fonds wird wahrscheinlich tragen viele Hüte. Es wird notwendig sein, die Alpha-Modell-, Risikomanagement - und Ausführungsparameter sowie die endgültige Implementierung des Systems abzudecken. Vor dem Einarbeiten in bestimmte Sprachen wird das Design einer optimalen Systemarchitektur erörtert. Trennung von Bedenken Eine der wichtigsten Entscheidungen, die von vornherein getroffen werden müssen, ist die Trennung der Bedenken eines Handelssystems. In der Softwareentwicklung bedeutet dies im Wesentlichen, wie die verschiedenen Aspekte des Handelssystems in separate modulare Komponenten aufgeteilt werden. Durch die Freigabe von Schnittstellen an jedem der Komponenten ist es leicht, Teile des Systems für andere Versionen auszutauschen, die Leistung, Zuverlässigkeit oder Wartung unterstützen, ohne einen externen Abhängigkeitscode zu modifizieren. Dies ist die beste Vorgehensweise für solche Systeme. Für Strategien bei niedrigeren Frequenzen werden solche Praktiken empfohlen. Für Ultra-Hochfrequenz-Handel das Regelbuch muss auf Kosten der Optimierung des Systems für noch mehr Leistung ignoriert werden. Ein dichter gekoppeltes System kann wünschenswert sein. Das Erstellen einer Komponentenkarte eines algorithmischen Handelssystems ist einen Artikel wert. Ein optimaler Ansatz ist jedoch sicherzustellen, dass es separate Komponenten für die historischen und Echtzeit-Marktdateneingänge, Datenspeicherung, Datenzugriffs-API, Backtester, Strategieparameter, Portfolio-Konstruktion, Risikomanagement und automatisierte Ausführungssysteme gibt. Wenn beispielsweise der verwendete Datenspeicher selbst bei signifikanten Optimierungsniveaus noch unterdurchschnittlich ist, kann er mit minimalen Wiederbeschreibungen in die Datenaufnahme - oder Datenzugriffs-API ausgelagert werden. Soweit es die Backtester und nachfolgende Komponenten betrifft, gibt es keinen Unterschied. Ein weiterer Vorteil von getrennten Komponenten ist, dass es eine Vielzahl von Programmiersprachen für das Gesamtsystem verwendet werden kann. Es muss nicht auf eine einzige Sprache beschränkt werden, wenn die Kommunikationsmethode der Komponenten sprachunabhängig ist. Dies ist der Fall, wenn sie über TCPIP, ZeroMQ oder ein anderes sprachunabhängiges Protokoll kommunizieren. Als konkretes Beispiel betrachten wir den Fall eines Backtesting-Systems, das in C für die Anzahl der Crunching-Leistungen geschrieben wird, während der Portfolio-Manager und die Ausführungssysteme in Python unter Verwendung von SciPy und IBPy geschrieben werden. Performance-Überlegungen Performance ist eine wesentliche Überlegung für die meisten Trading-Strategien. Für höhere Frequenzstrategien ist es der wichtigste Faktor. Die Performance umfasst eine breite Palette von Problemen wie algorithmische Ausführungsgeschwindigkeit, Netzwerklatenz, Bandbreite, Daten-IO, Concurrencyparallelität und Skalierung. Jeder dieser Bereiche werden einzeln durch große Lehrbücher abgedeckt, so dass dieser Artikel nur die Oberfläche jedes Themas zerkratzen wird. Architektur und Sprachwahl werden nun im Hinblick auf ihre Auswirkungen auf die Leistung diskutiert. Die vorherrschende Weisheit, wie von Donald Knuth angegeben. Einer der Väter der Informatik, ist, dass vorzeitige Optimierung die Wurzel allen Übels ist. Dies ist fast immer der Fall - außer beim Bau eines Hochfrequenz-Handel Algorithmus Für diejenigen, die in niedrigere Frequenz-Strategien interessiert sind, ist ein gemeinsamer Ansatz, ein System auf die einfachste Art und Weise zu bauen und nur so optimieren, wie Engpässe zu erscheinen beginnen. Mit Hilfe von Profilierwerkzeugen wird ermittelt, wo Engpässe auftreten. Profile können für alle oben aufgeführten Faktoren in einer MS Windows - oder Linux-Umgebung erstellt werden. Es gibt viele Betriebssysteme und Sprach-Tools zur Verfügung, um dies zu tun, sowie Drittanbieter-Dienstprogramme. Die Sprachwahl wird im Rahmen der Performance diskutiert. C, Java, Python, R und MatLab enthalten Hochleistungsbibliotheken (entweder im Standard oder extern) für grundlegende Datenstrukturen und algorithmische Arbeiten. C mit der Standardvorlagenbibliothek, während Python NumPySciPy enthält. Gemeinsame mathematische Aufgaben sind in diesen Bibliotheken zu finden und es ist selten vorteilhaft, eine neue Implementierung zu schreiben. Eine Ausnahme ist, wenn eine hochgradig angepasste Hardwarearchitektur erforderlich ist und ein Algorithmus umfangreiche Verwendung von proprietären Erweiterungen (z. B. benutzerdefinierte Caches) durchführt. Allerdings, oft Neuerfindung des Rades verschwendet Zeit, die besser verbrachte Entwicklung und Optimierung anderer Teile der Handelsinfrastruktur sein könnte. Entwicklungszeit ist besonders im Zusammenhang mit einzelnen Entwicklern extrem kostbar. Latenz ist oft ein Problem des Ausführungssystems, da die Forschungsinstrumente üblicherweise auf derselben Maschine liegen. Für die ersteren kann Latenz an mehreren Punkten entlang des Ausführungspfades auftreten. Datenbanken müssen konsultiert werden (Disknetwork Latency), Signale müssen erzeugt werden (Betriebssystem, Kernel Messaging Latency), Handel Signale gesendet (NIC Latenz) und Aufträge verarbeitet (Exchange-Systeme interne Latenz). Für höhere Frequenzoperationen ist es notwendig, sich mit der Kernoptimierung und der Optimierung der Netzwerkübertragung vertraut zu machen. Dies ist ein tiefer Bereich und ist deutlich über den Geltungsbereich des Artikels aber wenn ein UHFT-Algorithmus gewünscht wird dann bewusst sein, die Tiefe des Wissens erforderlich Caching ist sehr nützlich im Toolkit eines quantitativen Trading-Entwickler. Das Caching bezieht sich auf das Konzept der Speicherung von Daten, auf die häufig zugegriffen wird, in einer Weise, die einen leistungsfähigeren Zugriff ermöglicht, auf Kosten einer potentiellen Verzögerung der Daten. Ein häufiger Anwendungsfall tritt bei der Webentwicklung auf, wenn Daten von einer datenträgergestützten relationalen Datenbank übernommen und in den Speicher übertragen werden. Alle nachfolgenden Anforderungen für die Daten müssen nicht auf die Datenbank getroffen werden und so Leistungssteigerungen können erheblich sein. Für Handelssituationen Caching kann sehr vorteilhaft sein. Zum Beispiel kann der gegenwärtige Zustand eines Strategieportfolios in einem Cache gespeichert werden, bis er wieder ausgeglichen wird, so dass die Liste nicht auf jeder Schleife des Handelsalgorithmus regeneriert werden muss. Eine solche Regeneration ist wahrscheinlich eine hohe CPU - oder Platten-IO-Operation. Allerdings ist das Caching nicht ohne eigene Probleme. Regeneration von Cache-Daten auf einmal, aufgrund der volatilie Natur der Cache-Speicher, kann eine erhebliche Nachfrage nach Infrastruktur. Ein weiteres Problem ist Hund-Haufen. Wo mehrere Generationen einer neuen Cache-Kopie unter extrem hoher Last durchgeführt werden, was zu einem Kaskadenausfall führt. Die dynamische Speicherzuordnung ist eine teure Operation in der Softwareausführung. Daher ist es für Hochleistungs-Handelsanwendungen unerlässlich, sich bewusst zu sein, wie Speicher während des Programmablaufs zugeteilt und freigegeben wird. Neuere Sprachstandards wie Java, C und Python führen alle eine automatische Garbage Collection durch. Die auf die Deallokation des dynamisch zugewiesenen Speichers verweist, wenn Objekte außerhalb des Bereichs liegen. Garbage Collection ist äußerst nützlich während der Entwicklung, da es Fehler reduziert und hilft Lesbarkeit. Es ist jedoch oftmals für bestimmte hochfrequente Handelsstrategien suboptimal. Kundenspezifische Garbage Collection ist oft für diese Fälle erwünscht. In Java, zum Beispiel durch Abstimmung der Garbage Collector und Heap-Konfiguration, ist es möglich, hohe Leistung für HFT-Strategien zu erhalten. C stellt keinen nativen Garbage Collector zur Verfügung und daher ist es notwendig, alle Speicherzuweisungen als Teil einer Objektimplementierung zu behandeln. Während potenziell fehleranfällig (potenziell dazu führen, dass baumelnde Zeiger) ist es äußerst nützlich, feinkörnige Kontrolle, wie Objekte auf dem Heap für bestimmte Anwendungen erscheinen. Bei der Auswahl einer Sprache stellen Sie sicher zu studieren, wie die Garbage Collector arbeitet und ob es geändert werden, um für einen bestimmten Anwendungsfall optimieren. Viele Operationen in algorithmischen Handelssystemen sind parallelisierbar. Dies bezieht sich auf das Konzept, mehrere programmatische Operationen gleichzeitig, d. H. Parallel, auszuführen. So genannte embarassingly parallele Algorithmen beinhalten Schritte, die völlig unabhängig von anderen Schritten berechnet werden können. Bestimmte statistische Operationen, wie Monte Carlo Simulationen, sind ein gutes Beispiel für peinlich parallele Algorithmen, da jede zufällige Zeichnung und nachfolgende Pfadoperation ohne Kenntnis anderer Pfade berechnet werden kann. Andere Algorithmen sind nur teilweise parallelisierbar. Fluiddynamische Simulationen sind ein solches Beispiel, bei dem die Berechnungsdomäne unterteilt werden kann, aber letztlich müssen diese Domänen miteinander kommunizieren und somit sind die Operationen teilweise sequentiell. Parallelisierbare Algorithmen unterliegen dem Amdahls-Gesetz. Was eine theoretische Obergrenze für die Leistungserhöhung eines parallelisierten Algorithmus ergibt, wenn er N-unabhängigen Prozessen unterworfen wird (z. B. auf einem CPU-Kern oder Thread). Die Parallelisierung hat zunehmend an Bedeutung gewonnen, da die Prozessortaktgeschwindigkeiten stagniert haben, da neuere Prozessoren viele Kerne enthalten, mit denen parallele Berechnungen durchgeführt werden können. Der Anstieg der Consumer-Grafikhardware (vorwiegend für Videospiele) hat zur Entwicklung von Graphical Processing Units (GPUs) geführt, die Hunderte von Cores für sehr gleichzeitige Operationen enthalten. Solche GPUs sind jetzt sehr erschwinglich. High-Level-Frameworks, wie Nvidias CUDA haben zu weit verbreiteten Akzeptanz in der Wissenschaft und Finanzen geführt. Solche GPU-Hardware ist im Allgemeinen nur für den Forschungsaspekt der quantitativen Finanzierung geeignet, während für (U) HFT weitere spezialisierte Hardware (einschließlich feldprogrammierbare Gate-Arrays - FPGAs) verwendet werden. Heutzutage unterstützen die meisten modernen Sprachen ein Maß an Gleichzeitigkeitmultithreading. Somit ist es einfach, einen Backtester zu optimieren, da alle Berechnungen im allgemeinen unabhängig von den anderen sind. Die Skalierung von Software-Engineering und - Operationen bezieht sich auf die Fähigkeit des Systems, konsequent ansteigende Lasten in Form größerer Anforderungen, höherer Prozessorauslastung und mehr Speicherzuteilung zu handhaben. Im algorithmischen Handel kann eine Strategie skaliert werden, wenn sie größere Kapitalmengen akzeptieren kann und immer noch konsistente Renditen liefert. Der Handelstechnologie-Stack skaliert, wenn er größere Handelsvolumina und eine erhöhte Latenzzeit ohne Engpassierung aushalten kann. Während Systeme skaliert werden müssen, ist es oft schwer vorherzusagen, wo ein Engpass auftritt. Rigourous Logging, Testing, Profiling und Monitoring wird erheblich dazu beitragen, ein System skalieren. Sprachen selbst werden oft als unskalierbar beschrieben. Dies ist in der Regel das Ergebnis von Fehlinformationen, anstatt harte Tatsache. Es ist die gesamte Technologie-Stack sollte für die Skalierbarkeit, nicht die Sprache ermittelt werden. Offensichtlich haben bestimmte Sprachen eine größere Leistung als andere in bestimmten Anwendungsfällen, aber eine Sprache ist nie besser als eine andere in jeder Hinsicht. Ein Mittel, das Maßstab zu verwalten, besteht darin, Bedenken zu trennen, wie oben ausgeführt. Um die Fähigkeit, Spikes in dem System zu behandeln (d. h. plötzliche Flüchtigkeit, die ein Floß von Trades auslöst) weiter einzuführen, ist es nützlich, eine Nachrichtenwarteschlangenarchitektur zu erzeugen. Dies bedeutet lediglich, dass ein Message Queue-System zwischen Komponenten platziert wird, so dass Aufträge gestapelt werden, wenn eine bestimmte Komponente nicht in der Lage ist, viele Anfragen zu verarbeiten. Anstatt Verluste zu verlieren, werden sie einfach in einem Stapel gehalten, bis die Nachricht behandelt wird. Dies ist besonders nützlich, um Trades an eine Ausführungsmaschine zu senden. Wenn der Motor unter starker Latenz leidet dann wird es Trades zu sichern. Eine Warteschlange zwischen dem Handelssignalgenerator und der Ausführungs-API löst dieses Problem auf Kosten eines potentiellen Handelsrutschens. Ein gut respektierter Open-Source-Message-Queue-Broker ist RabbitMQ. Hardware und Betriebssysteme Die Hardware, die Ihre Strategie ausführt, kann einen erheblichen Einfluss auf die Rentabilität Ihres Algorithmus haben. Dies ist nicht ein Problem beschränkt auf Hochfrequenz-Händler. Eine schlechte Wahl in Hardware und Betriebssystem kann zu einem Maschinencrash oder einem Neustart zum ungünstigsten Zeitpunkt führen. Daher ist zu prüfen, wo sich Ihr Antrag befindet. Die Wahl liegt in der Regel zwischen einem persönlichen Desktop-Rechner, einem entfernten Server, einem Cloud-Provider oder einem Exchange-Co-Server. Desktop-Maschinen sind einfach zu installieren und zu verwalten, vor allem mit neueren benutzerfreundlichen Betriebssystemen wie Windows 78, Mac OSX und Ubuntu. Desktop-Systeme besitzen jedoch einige erhebliche Nachteile. Das wichtigste ist, dass die Versionen von Betriebssystemen für Desktop-Rechner sind wahrscheinlich Rebootspatching (und oft im schlimmsten Fall) erfordern. Sie verwenden auch mehr Rechenressourcen durch die Notwendigkeit einer grafischen Benutzeroberfläche (GUI). Das Verwenden von Hardware in einer Heimat (oder einer lokalen Büroumgebung) kann zu Internetkonnektivität und Stromverbrauchsproblemen führen. Der Hauptvorteil eines Desktop-Systems ist, dass erhebliche Rechenleistung für den Bruchteil der Kosten eines Remote-dedizierten Server (oder Cloud-basiertes System) von vergleichbarer Geschwindigkeit erworben werden kann. Eine dedizierte Server - oder Cloud-basierte Maschine, die oftmals teurer als eine Desktop-Option ist, ermöglicht eine größere Redundanzinfrastruktur, wie z. B. automatisierte Datensicherungen, die Möglichkeit, die Verfügbarkeit und Remoteüberwachung einfacher zu gestalten. Sie sind schwerer zu verwalten, da sie die Fähigkeit zur Verwendung von Remote-Login-Funktionen des Betriebssystems erfordern. In Windows ist dies in der Regel über das GUI Remote Desktop Protocol (RDP). In Unix-basierten Systemen wird die Befehlszeile Secure SHell (SSH) verwendet. Unix-basierte Server-Infrastruktur ist fast immer auf Befehlszeile basiert, die sofort GUI-basierte Programmierungstools (wie MatLab oder Excel) unbrauchbar macht. Ein Co-lokalisierter Server, wie der Begriff in den Kapitalmärkten verwendet wird, ist einfach ein dedizierter Server, der sich innerhalb einer Vermittlungsstelle befindet, um die Latenz des Handelsalgorithmus zu reduzieren. Dies ist absolut notwendig für bestimmte hochfrequente Handelsstrategien, die auf geringe Latenz angewiesen sind, um alpha zu erzeugen. Der letzte Aspekt der Hardware-Wahl und der Wahl der Programmiersprache ist plattformunabhängig. Gibt es eine Notwendigkeit für den Code, um über mehrere verschiedene Betriebssysteme laufen Ist der Code entworfen, um auf einem bestimmten Typ von Prozessorarchitektur ausgeführt werden, wie das Intel x86x64 oder wird es möglich sein, auf RISC-Prozessoren wie die von ARM hergestellten ausgeführt werden Diese Fragen hängen stark von der Häufigkeit und der Art der durchzuführenden Strategie ab. Resilience und Testing Eine der besten Möglichkeiten, eine Menge Geld für algorithmischen Handel zu verlieren ist, ein System ohne Elastizität zu schaffen. Dies bezieht sich auf die Dauerhaftigkeit des Systems bei seltenen Ereignissen wie Maklerkonten, plötzliche Überschussvolatilität, regionale Ausfallzeiten für einen Cloud-Server-Anbieter oder das versehentliche Löschen einer gesamten Handelsdatenbank. Jahre der Gewinne können innerhalb von Sekunden mit einer schlecht entworfenen Architektur beseitigt werden. Es ist absolut notwendig, Themen wie Debuggng, Testen, Logging, Backups, Hochverfügbarkeit und Überwachung als Kernkomponenten Ihres Systems zu berücksichtigen. Es ist wahrscheinlich, dass in jeder vernünftig komplizierten benutzerdefinierten quantitativen Handel Anwendung mindestens 50 Entwicklungszeit für Debugging, Test und Wartung ausgegeben werden. Fast alle Programmiersprachen werden entweder mit einem zugehörigen Debugger ausgeliefert oder besitzen Drittanbieter-Alternativen. Im Wesentlichen ermöglicht ein Debugger die Ausführung eines Programms mit dem Einfügen von willkürlichen Unterbrechungspunkten im Codepfad, die die Ausführung vorübergehend stoppen, um den Zustand des Systems zu untersuchen. Der Hauptvorteil von Debugging ist, dass es möglich ist, das Verhalten von Code vor einem bekannten Crashpunkt zu untersuchen. Das Debuggen ist eine wesentliche Komponente in der Toolbox zur Analyse von Programmierfehlern. Allerdings sind sie weit verbreitet in kompilierten Sprachen wie C oder Java, da interpretierte Sprachen wie Python sind oft einfacher zu debuggen aufgrund weniger LOC und weniger ausführliche Anweisungen verwendet. Trotz dieser Tendenz Python Schiff mit der pdb. Die ein anspruchsvolles Debugging-Tool ist. Die Microsoft Visual C IDE verfügt über umfangreiche GUI-Debugging-Dienstprogramme, während für die Befehlszeile Linux C-Programmierer, der gdb-Debugger vorhanden ist. Testen in der Softwareentwicklung bezieht sich auf den Prozess der Anwendung bekannter Parameter und Ergebnisse auf spezifische Funktionen, Methoden und Objekte in einer Codebasis, um Verhalten zu simulieren und mehrere Codepfade auszuwerten und so zu gewährleisten, dass sich ein System so verhält, wie es sollte. Ein aktuelleres Paradigma wird als Test Driven Development (TDD) bezeichnet, wobei Testcode gegen eine spezifizierte Schnittstelle ohne Implementierung entwickelt wird. Vor dem Abschluss der eigentlichen Codebase werden alle Tests fehlschlagen. Als Code geschrieben wird, um die Leerzeichen zu füllen, werden die Tests schließlich alle passieren, an welchem Punkt die Entwicklung aufhören sollte. TDD erfordert umfangreiche upfront Spezifikation Design sowie ein gesundes Maß an Disziplin, um erfolgreich durchzuführen. In C bietet Boost ein Unit Testing Framework. In Java existiert die JUnit-Bibliothek, um denselben Zweck zu erfüllen. Python hat auch das unittest Modul als Teil der Standardbibliothek. Viele andere Sprachen besitzen Unit-Test-Frameworks und oft gibt es mehrere Optionen. In einer Produktionsumgebung ist eine anspruchsvolle Protokollierung unabdingbar. Die Protokollierung bezieht sich auf den Prozess der Ausgabe von Nachrichten mit verschiedenen Schweregraden bezüglich des Ausführungsverhaltens eines Systems in einer flachen Datei oder Datenbank. Protokolle sind eine erste Angriffslinie bei der Jagd nach unerwartetem Programmlaufzeitverhalten. Leider sind die Mängel eines Logging-System tendenziell nur nach der Tatsache wie mit Backups, die unten diskutiert entdeckt werden, ein Protokollierungssystem sollte gebührend berücksichtigt werden, bevor ein System entwickelt wird. Sowohl Microsoft Windows und Linux kommen mit umfangreichen System-Logging-Fähigkeit und Programmiersprachen neigen dazu, mit Standard-Logging-Bibliotheken, die die meisten Anwendungsfälle zu decken neigen. Oft ist es ratsam, die Logging-Informationen zu zentralisieren, um sie zu einem späteren Zeitpunkt zu analysieren, da sie oft zu Vorstellungen über die Verbesserung der Performance oder der Fehlerreduzierung führen kann, die sich fast sicher positiv auf Ihre Handelserträge auswirken wird. Während der Protokollierung eines Systems liefert Informationen über das, was in der Vergangenheit durchgeführt hat, wird die Überwachung einer Anwendung geben Einblick in das, was gerade geschieht. Alle Aspekte des Systems sollten für die Überwachung berücksichtigt werden. Metriken auf Systemebene, wie Plattenverbrauch, verfügbarer Speicher, Netzwerkbandbreite und CPU-Auslastung, liefern grundlegende Lastinformationen. Handelsmetriken wie abnormales Preis - volumen, plötzliche rasche Abschläge und Kontobelastung für verschiedene Sektorenmärkte sollten ebenfalls kontinuierlich überwacht werden. Weiterhin sollte ein Schwellensystem eingeführt werden, das eine Benachrichtigung liefert, wenn bestimmte Metriken verletzt werden, wodurch das Benachrichtigungsverfahren (E-Mail, SMS, automatisiertes Telefongespräch) in Abhängigkeit von der Schwere der Metrik erhöht wird. Systemüberwachung ist oft die Domäne des Systemadministrators oder Operations Managers. Allerdings müssen diese Metriken als einziger Trading-Entwickler als Teil des größeren Designs etabliert werden. Viele Lösungen für die Überwachung gibt es: proprietäre, gehostete und Open Source, die eine umfangreiche Anpassung von Metriken für einen bestimmten Anwendungsfall ermöglichen. Backups and high availability should be prime concerns of a trading system. Consider the following two questions: 1) If an entire production database of market data and trading history was deleted (without backups) how would the research and execution algorithm be affected 2) If the trading system suffers an outage for an extended period (with open positions) how would account equity and ongoing profitability be affected The answers to both of these questions are often sobering It is imperative to put in place a system for backing up data and also for testing the restoration of such data. Many individuals do not test a restore strategy. If recovery from a crash has not been tested in a safe environment, what guarantees exist that restoration will be available at the worst possible moment Similarly, high availability needs to be baked in from the start. Redundant infrastructure (even at additional expense) must always be considered, as the cost of downtime is likely to far outweigh the ongoing maintenance cost of such systems. I wont delve too deeply into this topic as it is a large area, but make sure it is one of the first considerations given to your trading system. Choosing a Language Considerable detail has now been provided on the various factors that arise when developing a custom high-performance algorithmic trading system. The next stage is to discuss how programming languages are generally categorised. Type Systems When choosing a language for a trading stack it is necessary to consider the type system . The languages which are of interest for algorithmic trading are either statically - or dynamically-typed . A statically-typed language performs checks of the types (e. g. integers, floats, custom classes etc) during the compilation process. Such languages include C and Java. A dynamically-typed language performs the majority of its type-checking at runtime. Such languages include Python, Perl and JavaScript. For a highly numerical system such as an algorithmic trading engine, type-checking at compile time can be extremely beneficial, as it can eliminate many bugs that would otherwise lead to numerical errors. However, type-checking doesnt catch everything, and this is where exception handling comes in due to the necessity of having to handle unexpected operations. Dynamic languages (i. e. those that are dynamically-typed) can often lead to run-time errors that would otherwise be caught with a compilation-time type-check. For this reason, the concept of TDD (see above) and unit testing arose which, when carried out correctly, often provides more safety than compile-time checking alone. Another benefit of statically-typed languages is that the compiler is able to make many optimisations that are otherwise unavailable to the dynamically - typed language, simply because the type (and thus memory requirements) are known at compile-time. In fact, part of the inefficiency of many dynamically-typed languages stems from the fact that certain objects must be type-inspected at run-time and this carries a performance hit. Libraries for dynamic languages, such as NumPySciPy alleviate this issue due to enforcing a type within arrays. Open Source or Proprietary One of the biggest choices available to an algorithmic trading developer is whether to use proprietary (commercial) or open source technologies. There are advantages and disadvantages to both approaches. It is necessary to consider how well a language is supported, the activity of the community surrounding a language, ease of installation and maintenance, quality of the documentation and any licensingmaintenance costs. The Microsoft. NET stack (including Visual C, Visual C) and MathWorks MatLab are two of the larger proprietary choices for developing custom algorithmic trading software. Both tools have had significant battle testing in the financial space, with the former making up the predominant software stack for investment banking trading infrastructure and the latter being heavily used for quantitative trading research within investment funds. Microsoft and MathWorks both provide extensive high quality documentation for their products. Further, the communities surrounding each tool are very large with active web forums for both. The. NET software allows cohesive integration with multiple languages such as C, C and VB, as well as easy linkage to other Microsoft products such as the SQL Server database via LINQ. MatLab also has many pluginslibraries (some free, some commercial) for nearly any quantitative research domain. There are also drawbacks. With either piece of software the costs are not insignificant for a lone trader (although Microsoft does provide entry-level version of Visual Studio for free). Microsoft tools play well with each other, but integrate less well with external code. Visual Studio must also be executed on Microsoft Windows, which is arguably far less performant than an equivalent Linux server which is optimally tuned. MatLab also lacks a few key plugins such as a good wrapper around the Interactive Brokers API, one of the few brokers amenable to high-performance algorithmic trading. The main issue with proprietary products is the lack of availability of the source code. This means that if ultra performance is truly required, both of these tools will be far less attractive. Open source tools have been industry grade for sometime. Much of the alternative asset space makes extensive use of open-source Linux, MySQLPostgreSQL, Python, R, C and Java in high-performance production roles. However, they are far from restricted to this domain. Python and R, in particular, contain a wealth of extensive numerical libraries for performing nearly any type of data analysis imaginable, often at execution speeds comparable to compiled languages, with certain caveats. The main benefit of using interpreted languages is the speed of development time. Python and R require far fewer lines of code (LOC) to achieve similar functionality, principally due to the extensive libraries. Further, they often allow interactive console based development, rapidly reducing the iterative development process. Given that time as a developer is extremely valuable, and execution speed often less so (unless in the HFT space), it is worth giving extensive consideration to an open source technology stack. Python and R possess significant development communities and are extremely well supported, due to their popularity. Documentation is excellent and bugs (at least for core libraries) remain scarce. Open source tools often suffer from a lack of a dedicated commercial support contract and run optimally on systems with less-forgiving user interfaces. A typical Linux server (such as Ubuntu) will often be fully command-line oriented. In addition, Python and R can be slow for certain execution tasks. There are mechanisms for integrating with C in order to improve execution speeds, but it requires some experience in multi-language programming. While proprietary software is not immune from dependencyversioning issues it is far less common to have to deal with incorrect library versions in such environments. Open source operating systems such as Linux can be trickier to administer. I will venture my personal opinion here and state that I build all of my trading tools with open source technologies. In particular I use: Ubuntu, MySQL, Python, C and R. The maturity, community size, ability to dig deep if problems occur and lower total cost ownership (TCO) far outweigh the simplicity of proprietary GUIs and easier installations. Having said that, Microsoft Visual Studio (especially for C) is a fantastic Integrated Development Environment (IDE) which I would also highly recommend. Batteries Included The header of this section refers to the out of the box capabilities of the language - what libraries does it contain and how good are they This is where mature languages have an advantage over newer variants. C, Java and Python all now possess extensive libraries for network programming, HTTP, operating system interaction, GUIs, regular expressions (regex), iteration and basic algorithms. C is famed for its Standard Template Library (STL) which contains a wealth of high performance data structures and algorithms for free. Python is known for being able to communicate with nearly any other type of systemprotocol (especially the web), mostly through its own standard library. R has a wealth of statistical and econometric tools built in, while MatLab is extremely optimised for any numerical linear algebra code (which can be found in portfolio optimisation and derivatives pricing, for instance). Outside of the standard libraries, C makes use of the Boost library, which fills in the missing parts of the standard library. In fact, many parts of Boost made it into the TR1 standard and subsequently are available in the C11 spec, including native support for lambda expressions and concurrency. Python has the high performance NumPySciPyPandas data analysis library combination, which has gained widespread acceptance for algorithmic trading research. Further, high-performance plugins exist for access to the main relational databases, such as MySQL (MySQLC), JDBC (JavaMatLab), MySQLdb (MySQLPython) and psychopg2 (PostgreSQLPython). Python can even communicate with R via the RPy plugin An often overlooked aspect of a trading system while in the initial research and design stage is the connectivity to a broker API. Most APIs natively support C and Java, but some also support C and Python, either directly or with community-provided wrapper code to the C APIs. In particular, Interactive Brokers can be connected to via the IBPy plugin. If high-performance is required, brokerages will support the FIX protocol . Conclusion As is now evident, the choice of programming language(s) for an algorithmic trading system is not straightforward and requires deep thought. The main considerations are performance, ease of development, resiliency and testing, separation of concerns, familiarity, maintenance, source code availability, licensing costs and maturity of libraries. The benefit of a separated architecture is that it allows languages to be plugged in for different aspects of a trading stack, as and when requirements change. A trading system is an evolving tool and it is likely that any language choices will evolve along with it. November 30, 2016, 12:34 pm A few months ago a reader point me out this new way of connecting R and Excel. I don8217t know for how long this has been around, but I never came across it and I8217ve never seen any blog post or article about it. So I decided to write a post as the tool is really worth it and before anyone asks, I8217m not related to the company in any way. BERT stands for Basic Excel R Toolkit. It8217s free (licensed under the GPL v2) and it has been developed by Structured Data LLC. At the time of writing the current version of BERT is 1.07. More information can be found here. From a more technical perspective, BERT is designed to support running R functions from Excel spreadsheet cells. In Excel terms, it8217s for writing User-Defined Functions (UDFs) in R. In this post I8217m not going to show you how R and Excel interact via BERT. There are very good tutorials here. here and here. Instead I want to show you how I used BERT to build a 8220control tower8221 for my trading. My trading signals are generated using a long list of R files but I need the flexibility of Excel to display results quickly and efficiently. As shown above BERT can do this for me but I also want to tailor the application to my needs. By combining the power of XML, VBA, R and BERT I can create a good looking yet powerful application in the form of an Excel file with minimum VBA code. Ultimately I have a single Excel file gathering all the necessary tasks to manage my portfolio: database update, signal generation, orders submission etc8230 My approach could be broken down in the 3 steps below: Use XML to build user defined menus and buttons in an Excel file. The above menus and buttons are essentially calls to VBA functions. Those VBA functions are wrapup around R functions defined using BERT. With this approach I can keep a clear distinction between the core of my code kept in R, SQL and Python and everything used to display and format results kept in Excel, VBA amp XML. In the next sections I present the prerequisite to developed such an approach and a step by step guide that explains how BERT could be used for simply passing data from R to Excel with minimal VBA code. 1 8211 Download and install BERT from this link . Once the installation has completed you should have a new Add-Ins menu in Excel with the buttons as shown below. This is how BERT materialized in Excel. 2 8211 Download and install Custom UI editor . The Custom UI Editor allows to create user defined menus and buttons in Excel ribbon. A step by step procedure is available here . Step by step guide 1 8211 R Code: The below R function is a very simple piece of code for illustration purposes only. It calculates and return the residuals from a linear regression. This is what we want to retrieve in Excel. Save this in a file called myRCode. R (any other name is fine) in a directory of your choice. 2 8211 functions. R in BERT . From Excel select Add-Ins - gt Home Directory and open the file called functions. R . In this file paste the following code. Make sure you insert the correct path. This is just sourcing into BERT the R file you created above. Then save and close the file functions. R. Should you want to make any change to the R file created in step 1 you will have to reload it using the BERT button 8220Reload Startup File8221 from the Add-Ins menu in Excel 3 8211 In Excel: Create and save a file called myFile. xslm (any other name is fine). This is a macro-enabled file that you save in the directory of your choice. Once the file is saved close it. 4 8211 Open the file created above in Custom UI editor : Once the file is open, paste the below code. You should have something like this in the XML editor: Essentially this piece of XML code creates an additional menu (RTrader), a new group (My Group) and a user defined button (New Button) in the Excel ribbon. Once you8217re done, open myFile. xslm in Excel and close the Custom UI Editor. You should see something like this. 5 8211 Open VBA editor . In myFile. xlsm insert a new module. Paste the code below in the newly created module. This erases previous results in the worksheet prior to coping new ones. 6 8211 Click New Button . Now go back to the spreadsheet and in the RTrader menu click the 8220New Button8221 button. You should see something like the below appearing. The guide above is a very basic version of what can be achieved using BERT but it shows you how to combine the power of several specific tools to build your own custom application. From my perspective the interest of such an approach is the ability to glue together R and Excel obviously but also to include via XML (and batch) pieces of code from Python, SQL and more. This is exactly what I needed. Finally I would be curious to know if anyone has any experience with BERT August 19, 2016, 9:26 am When testing trading strategies a common approach is to divide the initial data set into in sample data: the part of the data designed to calibrate the model and out of sample data: the part of the data used to validate the calibration and ensure that the performance created in sample will be reflected in the real world. As a rule of thumb around 70 of the initial data can be used for calibration (i. e. in sample) and 30 for validation (i. e. out of sample). Then a comparison of the in and out of sample data help to decide whether the model is robust enough. This post aims at going a step further and provides a statistical method to decide whether the out of sample data is in line with what was created in sample. In the chart below the blue area represents the out of sample performance for one of my strategies. A simple visual inspection reveals a good fit between the in and out of sample performance but what degree of confidence do I have in this At this stage not much and this is the issue. What is truly needed is a measure of similarity between the in and out of sample data sets. In statistical terms this could be translated as the likelihood that the in and out of sample performance figures coming from the same distribution. There is a non-parametric statistical test that does exactly this: the Kruskall-Wallis Test . A good definition of this test could be found on R-Tutor 8220A collection of data samples are independent if they come from unrelated populations and the samples do not affect each other. Using the Kruskal-Wallis Test. we can decide whether the population distributions are identical without assuming them to follow the normal distribution.8221 The added benefit of this test is not assuming a normal distribution. It exists other tests of the same nature that could fit into that framework. The Mann-Whitney-Wilcoxon test or the Kolmogorov-Smirnov tests would perfectly suits the framework describes here however this is beyond the scope of this article to discuss the pros and cons of each of these tests. A good description along with R examples can be found here . Here8217s the code used to generate the chart above and the analysis: In the example above the in sample period is longer than the out of sample period therefore I randomly created 1000 subsets of the in sample data each of them having the same length as the out of sample data. Then I tested each in sample subset against the out of sample data and I recorded the p-values. This process creates not a single p-value for the Kruskall-Wallis test but a distribution making the analysis more robust. In this example the mean of the p-values is well above zero (0.478) indicating that the null hypothesis should be accepted: there are strong evidences that the in and out of sample data is coming from the same distribution. As usual what is presented in this post is a toy example that only scratches the surface of the problem and should be tailored to individual needs. However I think it proposes an interesting and rational statistical framework to evaluate out of sample results. This post is inspired by the following two papers: Vigier Alexandre, Chmil Swann (2007), Effects of Various Optimization Functions on the Out of Sample Performance of Genetically Evolved Trading Strategies, Forecasting Financial Markets Conference Vigier Alexandre, Chmil Swann (2010), An optimization process to improve inout of sample consistency, a Stock Market case, JP Morgan Cazenove Equity Quantitative Conference, London October 2010 August 15, 2015, 9:03 pm The Asset Management industry is on the verge of a major change. Over the last couple of years Robots Advisors (RA) have emerged as new players. The term itself is hard to define as it encompasses a large variety of services. Some are designed to help traditional advisers to better allocate their clients money and some are real 8220black box8221. The user enter a few criteria (age. income, children etc8230) and the robot proposes a tailor-made allocation. Between those two extremes a full range of offers is available. I found the Wikipedia definition pretty good. 8220They are a class of financial adviser that provides portfolio management online with minimal human intervention8221. More precisely they use algorithm-based portfolio management to offer the full spectrum of services a traditional adviser would offer: dividend reinvesting, compliance reports, portfolio rebalancing, tax loss harvesting etc8230 (well this is what the quantitative investment community is doing for decades). The industry is still in its infancy with most players still managing a small amount of money but I only realised how profound the change was when I was in NYC a few days ago. When RA get their names on TV adds or on the roof of NYC cab you know something big is happening8230 it is getting more and more attention from the media and above all it makes a lot of sense from an investor perspective. There are actually two main advantages in using RA: Significantly lower fees over traditional advisers Investment is made more transparent and simpler which is more appealing to people with limited financial knowledge In this post R is just an excuse to present nicely what is a major trend in the asset management industry. The chart below shows the market shares of most popular RA as of the end of 2014. The code used to generate the chart below can be found at the end of this post and the data is here . Those figures are a bit dated given how fast this industry evolves but are still very informative. Not surprisingly the market is dominated by US providers like Wealthfront and Betterment but RA do emerge all over the world: Asia (8Now ), Switzerland (InvestGlass ), France (Marie Quantier )8230. It is starting to significantly affect the way traditional asset managers are doing business. A prominent example is the partnership between Fidelity and Betterment. Since December 2014 Betterment past the 2 billion AUM mark. Despite all the above, I think the real change is ahead of us. Because they use less intermediaries and low commission products (like ETFs) they charge much lower fees than traditional advisers. RA will certainly gain significant market shares but they will also lowers fees charged by the industry as a whole. Ultimately it will affect the way traditional investment firms do business. Active portfolio management which is having a tough time for some years now will suffer even more. The high fees it charges will be even harder to justify unless it reinvents itself. Another potential impact is the rise of ETFs and low commission financial products in general. Obviously this has started a while ago but I do think the effect will be even more pronounced in the coming years. New generations of ETFs track more complex indices and custom made strategies. This trend will get stronger inevitably. As usual any comments welcome March 23, 2015, 8:55 pm When it comes to managing a portfolio of stocks versus a benchmark the problem is very different from defining an absolute return strategy. In the former one has to hold more stocks than in the later where no stocks at all can be held if there is not good enough opportunity. The reason for that is the tracking error . This is defined as the standard deviation of the portfolio return minus the benchmark return. The less stocks is held vs. a benchmark the higher the tracking error (e. g higher risk). The analysis that follows is largely inspired by the book 8220Active Portfolio Management8221 by Grinold amp Kahn. This is the bible for anyone interested in running a portfolio against a benchmark. I strongly encourage anyone with an interest in the topic to read the book from the beginning to the end. It8217s very well written and lays the foundations of systematic active portfolio management (I have no affiliation to the editor or the authors). 1 8211 Factor Analysis Here we8217re trying to rank as accurately as possible the stocks in the investment universe on a forward return basis. Many people came up with many tools and countless variant of those tools have been developed to achieve this. In this post I focus on two simple and widely used metrics: Information Coefficient (IC) and Quantiles Return (QR). 1.1 8211 Information Coefficient The horizon for the forward return has to be defined by the analyst and it8217s a function of the strategy8217s turnover and the alpha decay (this has been the subject of extensive research). Obviously ICs must be as high as possible in absolute terms. For the keen reader, in the book by Grinold amp Kahn a formula linking Information Ratio (IR) and IC is given: with breadth being the number of independent bets (trades). This formula is known as the fundamental law of active management . The problem is that often, defining breadth accurately is not as easy as it sounds. 1.2 8211 Quantiles Return In order to have a more accurate estimate of the factor predictive power it8217s necessary to go a step further and group stocks by quantile of factor values then analyse the average forward return (or any other central tendency metric) of each of those quantiles. The usefulness of this tool is straightforward. A factor can have a good IC but its predictive power might be limited to a small number of stocks. This is not good as a portfolio manager will have to pick stocks within the entire universe in order to meet its tracking error constraint. Good quantiles return are characterised by a monotonous relationship between the individual quantiles and forward returns. All the stocks in the SampP500 index (at the time of writing). Obviously there is a survival ship bias: the list of stocks in the index has changed significantly between the start and the end of the sample period, however it8217s good enough for illustration purposes only. The code below downloads individual stock prices in the SampP500 between Jan 2005 and today (it takes a while) and turns the raw prices into return over the last 12 months and the last month. The former is our factor, the latter will be used as the forward return measure. Below is the code to compute Information Coefficient and Quantiles Return. Note that I used quintiles in this example but any other grouping method (terciles, deciles etc8230) can be used. it really depends on the sample size, what you want to capture and wether you want to have a broad overview or focus on distribution tails. For estimating returns within each quintile, median has been used as the central tendency estimator. This measure is much less sensitive to outliers than arithmetic mean. And finally the code to produce the Quantiles Return chart. 3 8211 How to exploit the information above In the chart above Q1 is lowest past 12 months return and Q5 highest. There is an almost monotonic increase in the quantiles return between Q1 and Q5 which clearly indicates that stocks falling into Q5 outperform those falling into Q1 by about 1 per month. This is very significant and powerful for such a simple factor (not really a surprise though8230). Therefore there are greater chances to beat the index by overweighting the stocks falling into Q5 and underweighting those falling into Q1 relative to the benchmark. An IC of 0.0206 might not mean a great deal in itself but it8217s significantly different from 0 and indicates a good predictive power of the past 12 months return overall. Formal significance tests can be evaluated but this is beyond the scope of this article. 4 8211 Practical limitations The above framework is excellent for evaluating investments factor8217s quality however there are a number of practical limitations that have to be addressed for real life implementation: Rebalancing . In the description above, it8217s assumed that at the end of each month the portfolio is fully rebalanced. This means all stocks falling in Q1 are underweight and all stocks falling in Q5 are overweight relative to the benchmark. This is not always possible for practical reasons: some stocks might be excluded from the investment universe, there are constraints on industry or sector weight, there are constraints on turnover etc8230 Transaction Costs . This has not be taken into account in the analysis above and this is a serious brake to real life implementation. Turnover considerations are usually implemented in real life in a form of penalty on factor quality. Transfer coefficient . This is an extension of the fundamental law of active management and it relaxes the assumption of Grinold8217s model that managers face no constraints which preclude them from translating their investments insights directly into portfolio bets. And finally, I8217m amazed by what can be achieved in less than 80 lines of code with R8230 As usual any comments welcome
Comments
Post a Comment